网易首页 > 网易号 > 正文 申请入驻

硅谷前沿访谈:CUDA之父复盘英伟达20年护城河,揭开万亿算力帝国的底牌

0
分享至

作者 | 李建忠

出品丨AI 科技大本营(ID:rgznai100)

期间,奇点智能研究院院长、2026 奇点智能技术大会(SITS)发起人李建忠在硅谷采访了英伟达 CUDA 奠基者、被称为“CUDA 之父”的 Ian Buck。作为英伟达超大规模与高性能计算副总裁,Ian Buck 不仅深度参与了 CUDA 的创建,也长期处于 NVIDIA 平台演进的核心位置,见证并推动了这家公司从一家 GPU 厂商走向全球 AI 生态平台领跑者的全过程。


这场对话围绕 CUDA 20 年的演进逻辑、AI 工厂、异构计算、开发者生态、软硬件协同设计,以及下一代基础设施的开放性与竞争格局,Ian Buck 在这场访谈中系统回应了外界最关心的一系列问题。这场采访最大的看点,不只是 Ian Buck 对 英伟达AI工厂最新的技术与产品的阐述,而在于他把英伟达如何从 CUDA 开始、把芯片、系统、软件和开发者不断拧成一个统一生态平台的底层逻辑。

外界往往把英伟达的优势理解为芯片领先,但从 CUDA、GPU、LPU、CPU,到 NVLink、交换机、软件栈和开发者生态,英伟达最大的护城河,早已不是单点产品,而是一整套围绕训练、推理与 AI 工厂组织起来的生态级平台的能力。

问题:您是否可以谈谈此次GTC大会新发布的技术和产品、以及令您印象最深刻的部分?

IanBuck我最大的感受是, AI 基础设施正在进入一个全新的阶段。黄仁勋在主题演讲里已经展示了这一点:NVIDIA 现在同时推进七款芯片和五种机架架构,目标是服务AI工厂,以前所未有的规模完成训练与推理,把下一代智能体 AI推向市场。

我最关注的是,LPU 被正式纳入整个体系。NVIDIA Groq 3 LPU 可以被理解为 Vera Rubin 的增强组件。LPU 基于 SRAM,能够依靠极快的 SRAM 完成浮点计算。但它的限制也非常明确,一旦把它用于拥有超长上下文、面向实时推理的超大模型,问题就会暴露出来。仅靠 LPU 去运行一个万亿参数模型,需要几十个机架。这样的方案也许可以带来极高的 Token 速率,但在成本和基础设施效率上都无法支撑真正的大规模部署。

我们的解决办法不是让 LPU单独承担任务,而是让它和Vera Rubin 配合工作。现在,随着新的Groq 工程师加入 NVIDIA,我们正在把 GPU 和 LPU 的优势整合到同一个系统里。原本需要几十个 LPU 机架完成的工作,现在两个机架就可以覆盖。所有 Token 的注意力计算可以交给 GPU,模型每一层的专家部分的矩阵计算则交给 LPU。这正是让下一代模型落地所面临的挑战之一。

当然,AI 市场的大部分需求——聊天机器人、图像生成、视频处理、推荐系统——仍然会主要运行在 Vera Rubin 上。LPU 并不会为这些场景带来额外收益,Rubin 本身已经是非常成熟的 AI 平台。LPU真正发挥作用的,是下一代智能体所需要的工作负载:万亿参数模型、几十万 Token 级上下文,以及每秒千 Token 级别的服务速度。到了这个级别,Vera Rubin 与 LPU 的组合才变得关键。

我今天也带来了 Vera 模块。这就是 Vera CPU,和你们现在看到的系统里使用的是同一颗 CPU。在 AI 智能体时代,我们需要的是一种新的 CPU:既要有极强的单核性能,也要有很多核、且让每个核都能满性能运行。只有这样,它才能承担工具调用、代码编译、浏览器渲染和 SQL 查询等任务,让 GPU 去调度 CPU,在训练和推理时共同交付完整的 AI 体验。NVIDIA 会把 Vera 作为独立 CPU 推向市场,而且只提供这一种 SKU。它本身就是参考架构,合作伙伴可以在此基础上继续构建自己的系统。我很乐意聊这些产品,以及让这一切得以运转的软件系统。

问题:今年是CUDA诞生20周年。2006年您带领团队发布CUDA时,您是否预料到它20年后会发展到今天这个规模?CUDA取得成功的密码是什么?

Ian BuckCUDA 走到今天,确实是一段非常特别的历程。今年 11 月,距离我们第一次发布CUDA 正好满 20 年。我 2004 年加入 NVIDIA,就是为了做这件事。第一个版本花了两年时间才真正完成。更早的时候,我在斯坦福做博士研究,方向就是如何把 GPU——当时还只是图形处理器——用于通用计算。那篇博士论文的核心,其实就是一个问题:什么样的编程模型才是对的?怎样才能让程序员不再用两线程、两核心、四核心的方式思考,而是真正进入 1 万线程级别的并行思维?

人类并不天然适合这样思考。我们的思维方式更接近线性。但 GPU 架构所展示的,是一种完全不同的计算方式。它并不是用来解决所有问题,而是专门用来加速那些真正具备万级、十万级,乃至百万级并行潜力的部分。真正的难点,不只是硬件本身,而是怎么让程序员形成这种思维,并把它清楚地表达出来。

CUDA之所以能够成功,一个决定性的原因是:我们没有试图重新发明一门全新的编程语言。那当然是可以做的,而且从学术角度看也很自然。但当我们真正和客户、和那些有实际计算问题的人交流时,得到的反馈很明确:他们需要的不是一套新的语言体系,而是一种能提高开发效率的工具。所谓开发者生产力,本质上就是能利用现有技术,而不是为了使用它被迫重学一整套新的语言和概念。

所以 CUDA 最关键的一点,其实是 C语言。它建立在 C 语言之上。我们的思路是尽量少改 C语言,只在真正有价值的地方做扩展,让程序在最需要性能的部分跑上 1 万个核心。最初的构想就是这样。后来,CUDA 扩展到C++ 、Python, Java、和 Fortran,但一个真正可行的编程模型仍然是它最核心的东西。

另一件同样关键的事,是始终确保兼容性。一旦开发者进入 CUDA 体系,从 GeForce 8800 到今天的 Vera Rubin,只要他们运行在支持CUDA的GPU上,那么之后的每一代硬件都会让它变得更快。这就是我所说的一种新的“摩尔定律”。变快的不只是硅片和晶体管,而是整个技术栈。CUDA 的每一层都在持续变快,开发者的代码也会沿着同一条指数曲线变快。即使CUDA 1.0 时代写下的代码,今天放到 Vera Rubin 上,性能也会得到百万倍的提升。

当然,随着时间推移,我们不断加入新的能力、新的特性、新的技术和新的库,但最初对开发者的承诺从未改变:给他们一个容易理解、容易使用的编程环境,而不是逼他们接受一门陌生的新语言;只在真正能创造价值的地方做扩展;同时始终把向后兼容和向前兼容放在心上。你在 GTC 现场就能直观地看到这种承诺如何兑现:Volta 比上一代更快,Ampere 更快,Hopper 更快,Blackwell 更快,Rubin 还会继续更快。

最后也非常重要的是,今天的 CUDA不只是一个编程平台,而是一个庞大的库和生态平台。我们现在已经有超过 1000 个 CUDA-X 库和模型。其中有做电子结构理论的模型,比如 cuEST;有用于 SQL 查询的cuDF;有用于向量搜索的 cuVS;也有像 cuEquivariance 这样帮助 AI 模型预测蛋白质结构的工具。我们还有面向量子计算的库,比如 cuTensor 和 cuStateVec,用于量子比特纠错、量子系统模拟。我们使用量子重新定义了计算机科学,让计算机科学家今天就可以借助 GPU 去模拟未来生产级量子计算机的行为。这些库非常多,而且并不都是 NVIDIA 自己开发的。事实上,其中很多都来自开发者社区本身。

对我来说,这里面一直有件很简单、但也很让人谦卑的事:最开始,我做的不过是在 C 语言里加了几个关键字。我的老板支持我这么做,也支持我组建团队把它做出来。黄仁勋当年做出的一个非常伟大的决定是:从我们2006年谈到的第一代 GPU开始,要把 CUDA放进每一块 GPU这个决定花费了公司数十亿美元。我们前 10 年都没从这件事上赚到钱,但他从来没有放弃。

问题:今天NVIDIA似乎在加速计算领域占据主导地位。从长期看,未来可能出现什么新的力量,对CUDA构成真正的挑战,甚至成为替代品?

Ian Buck我不喜欢“主导地位”这个词,这从来不是我们的目标,也不是重点。我们的重点始终是帮助开发者。这些芯片和机架本身不会自动做事,它们只是等待开发者来决定如何使用。

如果在 GTC 现场走一圈,会看到很多不同类型的开发者。有些开发者希望对图形处理器进行底层编程,从头开始编写 CUDA 代码;有人想模拟一种新型合金的分子结构,以预测其性能,所以他们会直接调用某个程序库、某款软件,或者某个 ISV 的产品;还有些人只是想跑一个预训练 AI 模型,例如做一个 chatbot,去理解等离子体物理学领域过去 50 年的论文。

我们的目标,是给开发者打造一个平台,帮助他们提升工作效率,实现能力升级。从而解决科研问题、将服务推向市场,或者在某个垂直领域做出被全球用户使用的软件。至于最佳切入点到底是什么——是从一个 CUDA 库开始,还是从 GitHub 或开源生态里的库开始,还是深入直接操作 CUDA 底层——这是一个开放平台,由开发者自己决定。我明天也可以做一个新操作系统,区别于Linux 或 iOS,再为它办一场发布会。但如果没有开发者,它就不是一个平台。平台从来都是由开发者定义的。

开发者并不需要非用 CUDA 不可。他们在我们的平台上可以选择自己想用的方式。只要开发者有机会做事情,我们就会保持开放,让他们去编程、去编译、去链接、去做推理、去做训练。我们欢迎各种不同的计算形态。开发者也不需要锁定在整套方案上。你可以只买 Vera,可以只用 Vera Rubin,也可以不买完整 NVL72,只用一张 PCIe 卡,都可以。你也可以让智能体的工作负载运行在别家的 CPU 上,替代 Vera Rubin,也没问题。

实际上,我们甚至把NVLink 也开放出来了。通过NVLink Fusion,其他 CPU 可以把 NVLink 集成进去,直接和 NVIDIA 的GPU 通信。我们也把 NVLink 向其他 XPU 开放,它们可以接入 NVLink 的 IP 和芯片,利用 NVLink 交换机的能力。整个技术栈的每一层,我们都在尽量开放。只要有人能在其中某一层创造价值,不管是面向自己的业务、自己的软件,还是要解决的问题,我们都欢迎。我们打造的是开放平台,而非强迫开发者全盘接受我们的一整套方案。开发者需要选择权,也需要开放性,而我们愿意把整套技术栈打开,让他们去优化、去探索。

我们没有发明AI。至少在GPU这个语境里,AI更像是被发现的。大家都知道,加拿大的一位研究生 Alex Krizhevsky,在自己的游戏 PC 上,用买来的 GeForce GPU 下载了 CUDA 这个免费软件,然后做出了第一个基于 GPU 的 AI 神经网络,也就是AlexNet。这才是这件事真正重要的地方。至于下一步会发生什么,我并不知道。但我相信,开发者会找到答案。我们其实只是陪着他们一起往前走,帮助他们去探索下一代编程范式、下一代模型,下一代智能体世界到底会变成什么样子。

问题:NVIDIA内部是如何保持软件研发和硬件研发的协同?软件架构师是从硬件设计的第一天就参与其中,还是要等到硬件设计全部完成后才开始软件设计?这中间会否有部门墙带来的隔阂?

Ian Buck这是一个非常棒的问题。我可以谈一个关键的内部机制:我们并不公开 GPU 的指令集。大家都熟悉 X86 指令集、ARM 指令集,但 NVIDIA GPU 从没有对外公开我们的官方指令集。我们在软件栈对外支持的是 CUDA-X,而不是把最底层的硬件接口直接开放出去。

指令集是软件和硬件之间最底层的接口。正因为如此,我们才能把很多优化从最底层一路往上做:从芯片、内核,GPU 指令(我们的确存在一套指令集,只是我们不会将其公开),一直延伸到 CUDA、编译器、运行时库、操作系统优化、线性代数库,以及整个软件栈。

每一次平台迭代,从 Hopper到 Blackwell,再到 Rubin,我们更新的都不只是芯片,而是整套技术栈。我们架构团队不只是做 GPU 本身——门电路、晶体管、核心、计算引擎——同时还有一个规模巨大的内核与软件团队,直接嵌在架构团队里。当他们交付 Rubin 时,交付的不只是芯片,还有全部内核、全部优化,以及和我的框架团队一起打磨好的整套软件能力。

我的团队里还有很多人专门负责 PyTorch、Dynamo、SGLang、vLLM、JAX、NeMo。这些都是我们长期投入工程师和资源的生态软件项目。所以每一代架构真正交付出来的,其实是芯片、各类内核库、底层接口、调优后的 NCCL 和 NVSwitch,以及成千上万个内核的总和。这才是所谓架构协同设计的真正含义。

我最近没去看具体数字,但我想 NVIDIA 现在的软件工程师肯定比硬件工程师多得多,原因就在这里。外界经常把我们看成一家无晶圆厂的半导体硬件公司,但实际上,我们内部有一个规模极其庞大的软件团队。

我们让成千上万的软件和内核工程师,与设计芯片的团队一起,被组织在同一个体系里,向同一个 VP 汇报。这样做最大的好处是:芯片交付以后,他们的工作并不会停止。Blackwell 出货之后,这些软件团队和同样在做 Rubin 的硬件团队,仍然在做我刚才提到的那些 DeepSeek 优化。他们继续和 OpenAI、Anthropic、Microsoft 以及整个行业合作,不断把 Blackwell 的内核性能再往上推。

更重要的是,他们在这个过程中积累的经验,又会反过来让 Rubin 变得更好。这种并非简单 “甩手掌柜式” 的交付模式,意味着他们也是实际支撑现有模型运行团队的一员。除了对各类内核进行优化之外,他们还能确保 Rubin 在硬件层面也能实现更进一步的优化提升。

问题AI正在改变软件开发,这会为CUDA及其开发者带来什么样的改变?

Ian BuckAI 编码在加速 CUDA 的使用,而且速度比很多人想得更快。就拿 NVIDIA 内部来说,我们每天都在生成大量 CUDA 内核,这些内核代码被用于运行 GPT-OS、DeepSeek 这样的模型。现在,一部分 CUDA 内核已经开始由 AI Coding 工具生成。虽然仍有一些内核代码需要工程师手工打磨。这样带来的结果,是性能更高、优化更好,而这背后涉及了大量的软件与调优工作。

我刚才提到的 CUDA-X 的上千个库,现在也不再只是由开发者手工编写,AI Agent 也深度参与其中。CUDA 和 CUDA-X 的采用速度之所以加快,原因就在这里:这些 Agent 已经能够理解这些库各自的能力,并主动调用它们。

我团队有一些做 HPC 的研究人员,他们正在朝 Gordon Bell Prize (全球高性能计算领域的最高荣誉)这类顶级目标推进。现在,他们已经在用 Python、NVIDIA Warp、Claude 和 ChatGPT 生成 CUDA 代码。生产力的提升非常明显,因为Agent 现在可以访问大量不同的库,并把这些库用在具体的领域问题上。无论是直接生成 CUDA 代码,还是基于某个 CUDA-X 库去开发,Agentic Coding 都在整体上提升开发效率,也在推动加速计算更快普及。

问题统一架构对CUDA非常重要,但Groq目前还有一点不同,它还没有被CUDA支持。未来它会被纳入CUDA,还是保持独立?

Ian Buck我们的方向一直很明确:所有平台最终都应该是可编程的。GPU 要可编程,CPU 要可编程,BlueField DPU 要可编程,ConnectX 也可以编程,Spectrum-X 也一样。里面有很多与拥塞控制相关的算法和机制,本身就具备很强的可编程性。如何把这些硬件开放给开发者,以及如何用开发者熟悉的方式完成这件事,是整个体系里非常重要的一部分。

现在,LPU 和 Groq 已经有一套非常强的编译器,能够对 Groq 芯片内部的计算单元进行调度和编程。这里真正关键的是“调度”。当系统以每秒 1000 个 Token 的速度运行时,所有任务都必须被精确安排。每一份数据、每一次计算,都必须在刚刚好的纳秒到位,以便衔接下一个操作。这对这类处理器是否能真正运转,至关重要。

这和 CPU、GPU 的工作方式都不一样。在 GPU 中,我们采用的是针对延迟优化的核心。GPU 有大量任务需要处理,且流水线非常丰富,凭借极高的并行度,硬件可以让所有任务持续流畅地执行与计算。而 LPU 架构的一个核心特点,也是它与 GPU 形成互补的原因,在于它是一种具有精确时序的调度型架构,能够把专家模型里前馈网络(FFNs)的那部分计算精确执行出来。

我们的确打算把这一套编程环境开放出来,但第一代还做不到。因为当前的重点仍然是支持由前沿 AI 实验室打造的标杆模型,我们会直接和这些团队合作。但“开放 LPU 的编程环境”本身,是明确的目标。至于未来是通过 CUDA 的方式,还是通过更通用的方式来实现,这件事还要往后看。

不过有一点非常明确:LPX 和 LPU 的能力不可能单独发挥出来。过去我们追求极快解码时,就已经遇到过这个问题。你当然可以把足够多的芯片堆在一起,组成十几柜 LPX、成千上万个 LPU 去跑一个万亿参数的模型,但问题是内存容量根本不够。这些是 SRAM,容量只有 500 MB。如果再给它接上 HBM,它原本的优势也会随之消失。所以你一定需要另外的GPU和它协同,才能把效率做出来。原本需要几十个机架才能完成的万亿参数模型,现在我们只需要两个机架:一个 Vera Rubin 机架,一个 LPX 机架。

而这件事远不只是两种芯片简单拼在一起。它们之间还需要互连,需要交换机,需要 Spectrum 芯片。当我们解码每一个 Token 时,我们需要 NVLink 芯片把 GPU 连接起来,Spectrum 芯片本身还要与 ConnectX 相连。换句话说,LPX 上的解码不是某一颗芯片单独完成的事,而是七款芯片协同工作后,才能把这些模型真正推向市场,并同时实现性能与效率。

问题:很多竞争对手都在押注推理,因为他们认为这一领域存在巨大机遇。现在你们有了Groq,在推理方面表现非常出色。你怎么看和TPUCerebras这类公司的竞争?

Ian Buck推理从来不可能靠某一个招式取胜。它要求所有芯片协同工作,才能实现出色的性能与极高的吞吐。缺少任何一项,都不可能真正实现规模化。高性能让大模型能够快速思考,出色的 Token 速率让模型赋予我们真正的智能,实现能力与价值的跃升。但只有性能还不够,你还需要具备强大的吞吐量。如果一个数据中心只能为一个模型处理一次查询,这根本形成不了市场,成本太高。你必须拥有足够的吞吐量。

而这正是七款芯片协同工作的意义所在:LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField 共同组成一个系统。这样,我们才能用两个机架完成传统需要一整排机柜才能完成的工作,把每 Token 成本与整体吞吐量打到一个理想区间,让我们能够真正将其推向市场,并以经济高效的方式大规模服务新一代智能体模型。至于其他工作负载,正如黄仁勋在主题演讲里说的,跑在 Blackwell 上很好,跑在 Vera 上也一样很好,这一点我们非常确定。

从这个角度看,为了实现高性能和高吞吐,只有七款芯片协同工作,才能把推动 AI前沿技术发展,去支撑那些更大的模型。当然,每个人都在提出好的想法。每一块都在创新,软件、模型、架构、机柜设计…..最早在数据中心上液冷的不是我们,而是 Google。其液冷系统设计精妙,色彩丰富。整个 AI 领域都是这样,创新到处都在发生。AI 像一股涨潮的海水,把所有船都一起抬了起来。

有很多很棒的想法。我们要如何汲取其中的精华 —— 无论是软件设计、AI模型、内核优化、压缩算法、数值格式、系统工程、芯片架构,还是封装工艺—— 并将其推向市场?NVIDIA 在做的,就是把这些最好的想法吸收进来,推向市场,从而实现更高的性能、每瓦特性能,以及更有优势的 Token 成本,就像我们在 InferenceMax 基准测试里展示的那样。然后,我们再把它规模化,让整个世界都能从这些创新中获益。

创新一直都在发生。NVIDIA 还有一个独特之处——也是我老板给我们的一个“殊荣”——就是我们每年都要做一个新的平台。这有时候也令人心力交瘁。一年前我们还没有 LPX 机架,也没有 Vera 机架。AI 的演进速度就是这么快。只要你认真去看,那些好想法其实一直都在那里。正因为我们每年都在创新、每年都在推出新平台,所以你们每年也都有理由回到 GTC。

问题从架构角度看,把三种不同芯片整合到一起,最大的挑战是什么?尤其Groq这样的技术来自外部。

Ian Buck答案首先还是制造和供应链。NVIDIA 这些芯片——Groq 芯片、NVLink 芯片、Spectrum 芯片、BlueField 芯片、CPU、GPU 的制造,里面涉及 CoWoS 封装,要把内存封装到 GPU 上,同时还涉及整个系统级工程:如何把所有器件最终集成为一个机架。


现在,我们已经把第一批工程样机交到了客户手里。在离这里不远的地方,NVIDIA 内部也已经有多台 Vera Rubin 机架在运行,它们已经能跑 PyTorch。展厅里还有 Runway 的一个非常精彩的演示,可以直接看到 Vera Rubin 的实际效果。AI 工厂真正推向市场,背后依赖的是全球供应链与全球制造能力的协同。

问题:所以你们构建了GB200,实际上是把一个超级计算机真正做到了规模化,对吗?

Ian Buck可以这么理解。我们做的,其实就是把超级计算机真正推到了大规模。自从当年在佛罗里达州坦帕的 Supercomputing 2006(SC06)大会上发布 CUDA 以来,我一直在做超级计算机。它们有点像一级方程式赛车:你造出一辆车,需要无数工程师围着它工作,保证它能跑;跑完一圈以后,还要把它拆开检查每一个部分。那只是一辆车。

但我们今天做的,是把那套工程方法扩展到数百万辆“车”,扩展到以吉瓦计的数据中心规模。现在,我们每个月出货的数据中心 GPU,总功耗加起来大概就是几个吉瓦。这背后需要巨大的系统工程能力、全球制造流程,以及完整的零部件生态。这中间包括液体链接用的 QD 连接器、NVLink 连接器、冷板制造、热管、电容器、稳压器、漏液检测器——所有这些东西都要齐备。

更重要的是,所有零部件最终都必须真正拼成系统。萨蒂亚(微软 CEO)前段时间发过他们机架的照片,我这里也有很多客户机架的照片。有大量工程师负责搭建这些机架。我们通常会先在中国台湾完成这一过程,那里不只是芯片制造的重要地点,也是整个计算机制造工程能力最密集的地方。然后我们再把它推广到全球各地。Dell 在马萨诸塞州和爱尔兰设有制造工厂,今天很多用来训练标杆模型的机架,也有在墨西哥、得克萨斯州或圣何塞等地生产出来的。归根到底,这是整个生态系统共同完成的事。

问题:在整条供应链都参与进来的情况下,把这些东西整合起来的关键挑战,是不是系统工程?

Ian Buck是的,好消息是 NVIDIA 在 Grace Blackwell 上已经完成过这一过程。借助 NVL72,我们已经把整个系统扩展到那个规模。有了这一层基础之后,现在我们就能在此基础上继续加速,因为供应链、工程经验和制造体系都已经建立起来了。

当我们去构建 LPX 机架和 Vera Rubin 机架时,你会发现它们外观上很像。原因不是巧合,而是我们复用了同一套供应链体系、制造流程、认证周期、测试流程、运输方式,和数据中心标准。这些机架的供电要求一致,液冷要求一致,其排布、散热和水温维持同一标准。这使得客户能够自由组合搭配,或将所有机架整合为一套完整的系统生态。

问题让这一切真正运转起来的核心,是整个生态系统都在持续投入?

Ian Buck答案很大一部分确实是:供应链、可制造性,以及整个生态系统都在持续投入,并且把这些能力推向市场。但在那之前,还有大量更基础的工作要做。我们得先把第一台做出来,确保整个软件栈能跑、互连能跑、所有芯片能一起工作。

让我倍感兴奋的是,Vera Rubin 现在已经能跑 PyTorch,能生成漂亮的图像,也能运行大语言模型。我们的 Bring-up 实验室里也有多款大语言模型跑在 LPU 上,目前我们正在搭建对应的机架。Vera 也已经点亮和运行。我自己在上面跑过 287 个不同的基准测试,从 HPC 应用到计算 π 的位数,都已经跑通。现在剩下的,就是把规模继续拉起来,优化调整生产线,并确保良率达到优异水平,以便在今年晚些时候将其交付至各大数据中心。

问题:随着制程进入亚纳米,硅基材料的物理极限越来越明显。NVIDIA现在如何看待下一代半导体材料,比如TMD

Ian Buck如果你问我现在最兴奋什么,我的答案其实是 CPO(共封装光学,Co-Packaged Optics)。黄仁勋在 GTC 演讲中举起过那块 Spectrum-6 CPO 模块。能够把这样的东西真正做出来,背后的技术和硅工艺都非常惊人。我们全程运用光学物理原理,并将其直接部署在信号生成的位置附近。这会显著增加带宽,大幅提升功耗效率,同时增强了系统的可靠性,让所有服务器实现互联协作、统一运行。今天,我们已经在 NVL72 上做到了这一点。

当初我们敢把密度推到这么高,是因为我们知道,只要有 NVLink 提供的带宽、连接能力和信号速度,就有可能在一个机架里做出一颗“巨型 GPU”:其背后配备的是 5000 根铜缆和 9 台 NVLink交换机。为了让 72 颗 GPU 真正像一个系统那样工作,NVLink 与 CPO 的结合使这一切成为可能。

我不知道你们是否注意到,黄仁勋在演讲里也提到了:在最终的新一代产品里,我们会把 CPO 融入 NVLink,把 NVLink 的扩展规模提升到 1152 颗 GPU。这听起来很疯狂。如果想做到这一点,唯一的办法就是在维持如此大规模信号与连接的同时,避免功耗激增、成本失控,并且让整个系统能够协同如一。其中涉及的物理原理十分精妙,相关技术也堪称惊艳,但研发难度极大。搭载 CPO 技术的 Spectrum-6 交换机将与 Vera Rubin 同步推向市场。它可以把光信号传到几公里之外,同时保持大规模数据中心所需要的稳定性和可靠性。严格说,这并不是对“新材料”问题的直接回答,但如果你问我最期待什么,我的答案就是这个。

问题:随着NVIDIA发布新的CPULPUAI架构正在变得越来越异构。你是否认为,随着AI工作负载越来越专业化,基础设施异构化已经成为必然趋势?英伟达GPU向来以通用性著称。你们将如何应对全新挑战?GPU是否仍是该领域的最优解

Ian Buck这是一个很棒的问题:到底要把系统做得多专用,还是要提供一个可编程平台去承载持续创新?我们始终在两者之间找平衡。

我们完全可以将 GPT-OS 进行流片,把它做成一款芯片级模型。如果走到极端,把整个模型直接做成硅片,我相信某些效率一定会更高。但问题也同样明显:模型和它的实现方式会被永久固化在那块硅片里。这样一来,继续优化模型、优化软件、探索应用场景的空间就会消失。即便是 GPT-OS,也仍然有可能变得更快、更好、更聪明、更可扩展。

我们可以看 DeepSeek R1,它是一年多前发布的,我记得很清楚——对我们的股价来说,那一天也确实很有意思。但从发布以后,它一直在变得更快。为什么?因为整个世界都拿起自己的 GPU,去研究怎么把混合专家网络(MoE)模型跑得更快、更高效,怎么把 Token 成本压低,怎么像 InferenceMax 基准测试里那样继续提高每瓦特性能。这背后有非常大的价值。而这之所以可能,一个根本原因就在于:这些芯片是开放的。它们可以被重新配置、编程、编译、链接、推理、训练。我们欢迎开发者去探索各种不同的计算模式。

【活动分享】"48 小时,与 50+ 位大厂技术决策者,共探 AI 落地真路径。"奇点智能技术大会是由深耕多年的「全球机器学习技术大会」重磅升级而来。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开,大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块,特邀来自BAT、京东、微软、小红书等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论,真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴,更是决策者把握 2026 AI 拐点的战略机会。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭富城携妻女宁波吃饭,两女儿活泼可爱颜值超高,非常黏爸爸

郭富城携妻女宁波吃饭,两女儿活泼可爱颜值超高,非常黏爸爸

手工制作阿歼
2026-06-01 21:55:25
反常识:癌症扩散最凶猛的不是晚年,是中年

反常识:癌症扩散最凶猛的不是晚年,是中年

科学边界哦
2026-05-31 23:36:10
店员讽刺顾客“穷逛”后续:脸丢光了,工作没了,商场惨遭牵连

店员讽刺顾客“穷逛”后续:脸丢光了,工作没了,商场惨遭牵连

大鱼简科
2026-06-01 19:30:25
万万没想到,西贝翻车的路,爱奇艺又走了一遍,网友群嘲:没底线

万万没想到,西贝翻车的路,爱奇艺又走了一遍,网友群嘲:没底线

离离言几许
2026-05-31 21:21:29
最可怕的不是早期肺癌没症状,是晚期肺癌也没有症状,如何发现?

最可怕的不是早期肺癌没症状,是晚期肺癌也没有症状,如何发现?

呼吸科大夫胡洋
2026-06-02 06:23:36
美股三大指数集体低开 英伟达进军PC芯片市场引爆产业链

美股三大指数集体低开 英伟达进军PC芯片市场引爆产业链

财联社
2026-06-01 21:32:06
广厦VS上海G4时间确定,卢伟采访被杨鸣调侃,孙铭徽不再想当绿叶

广厦VS上海G4时间确定,卢伟采访被杨鸣调侃,孙铭徽不再想当绿叶

体育大学僧
2026-06-01 12:37:29
利物浦1.3亿英镑打水漂,自由离队潮是疯了吗?

利物浦1.3亿英镑打水漂,自由离队潮是疯了吗?

日常碎碎念啊
2026-06-02 01:24:52
1810万镑超值!曼联门将拉门斯力压群雄,荣膺英超赛季最佳引援

1810万镑超值!曼联门将拉门斯力压群雄,荣膺英超赛季最佳引援

星耀国际足坛
2026-06-01 23:47:59
顺德70后女老板,卖爆200万台咖啡机抢瑞幸饭碗,一年狂赚5个亿

顺德70后女老板,卖爆200万台咖啡机抢瑞幸饭碗,一年狂赚5个亿

商业人物志
2026-05-31 08:50:08
单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

单位里有一个很奇怪的现象:你跟一个领导 3 年以上,不管你态度多好,多忠诚,一旦他状态不好,你就很容易成为他的“眼中钉”

互联网思维
2026-05-29 23:35:13
“砰!”一声,10岁女孩左眼差点永久失明!很多家庭都有这种“隐形杀手”

“砰!”一声,10岁女孩左眼差点永久失明!很多家庭都有这种“隐形杀手”

齐鲁壹点
2026-06-02 06:16:10
白捡24TB硬盘!员工拆开公司淘汰设备后直接乐坏了

白捡24TB硬盘!员工拆开公司淘汰设备后直接乐坏了

游民星空
2026-05-31 12:27:20
网传985女生相亲,男生直接落荒而逃网友说:该校出品必属精品!

网传985女生相亲,男生直接落荒而逃网友说:该校出品必属精品!

灯锦年
2026-06-01 18:17:11
明明有着大好前途,却为了名利甘作情妇,最终事情败露前途尽毁

明明有着大好前途,却为了名利甘作情妇,最终事情败露前途尽毁

混沌录
2026-06-01 22:52:06
杉杉内斗两败俱伤后,家被安徽国资用70亿“抄”了

杉杉内斗两败俱伤后,家被安徽国资用70亿“抄”了

毒sir财经
2026-06-01 23:15:56
重磅!中国科学院院士周成虎官宣被查

重磅!中国科学院院士周成虎官宣被查

李昕言温度空间
2026-06-01 20:33:54
英媒:伊朗破坏20处美军设施

英媒:伊朗破坏20处美军设施

参考消息
2026-06-01 21:26:25
《星际2》发布史诗级更新,玩家惊呼:这是星际3吧!

《星际2》发布史诗级更新,玩家惊呼:这是星际3吧!

热搜摘要官
2026-06-02 00:00:32
国足今日出战!时隔7年,冲击小组前2,盼赢球剑指4强,憧憬冠军

国足今日出战!时隔7年,冲击小组前2,盼赢球剑指4强,憧憬冠军

小徐讲八卦
2026-06-02 05:27:08
2026-06-02 07:00:49
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2706文章数 7690关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

本地
时尚
手机
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

手机要闻

华为nova 16系列支持5A速度!传输、流畅度领先友商17 Pro

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版