黄仁勋GTC重磅发声：每家公司都必须懂“养虾”|3万字完整实录|英伟达|ibm|gpu

分享至

出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

3月16日，加州圣何塞，逾一万八千名听众见证了英伟达年度GTC大会的开幕。黄仁勋在两个多小时的密集发布中，揭示了AI市场最核心的转变：从“训练”全面走向“推理” 。基于此，他抛出了一个震撼的预期——到2027年底，Blackwell与Vera Rubin两代架构将带来至少一万亿美元的累计收入机会。

为应对推理时代的巨大算力缺口，英伟达打破了单芯片处理的传统，将推理拆分为两步分工处理：第一阶段“预填充”（把自然语言转为token）由下一代旗舰处理器Vera Rubin负责；第二阶段“解码”（根据token生成答案）则交由新整合的Groq芯片专门负责。这种搭配使得每瓦特性能实现了几十倍的跃升。其中，专注于低延迟计算的Groq（已命名为Groq 3 LPU）预计今年下半年就会出货；而Vera Rubin系统的高价值层级性能比上一代Grace Blackwell高出了十倍，预计2026年下半年出货。

在更长远的硬件规划上，黄仁勋预告了代号为 Kyber的下一代架构。它将144个GPU垂直集成在计算托盘上，旨在进一步提高密度、降低延迟，预计将应用于2027年出货的 Vera Rubin Ultra 。此外，他还暗示了继 Rubin 之后的长远产品线——以物理学家命名的 Feynman 芯片。此外，英伟达的野心已不仅限于地球，他们宣布与Axiom Space等公司合作推出 Vera Rubin Space-1模块，正式开启“轨道数据中心”计划，进军太空AI计算。

除了硬核算力的升级，这场变革同样席卷了软件生态。面对火爆的开源项目OpenClaw，黄仁勋形容其重要性堪比Linux和HTML 。它不仅能让AI智能体调用工具、分解任务并自主执行，更标志着软件架构的重塑。为了确保企业级应用的安全可控，英伟达顺势推出了 NemoClaw 参考设计。

“今天，世界上的每家公司都需要有一个OpenClaw战略，一个智能体系统战略。这是新的计算机。” 黄仁勋强调，传统的SaaS将全面进化为“智能体即服务（GaaS）” 。在未来的企业运转中，为每位工程师配备“年度token预算”，将成为推动生产力十倍增长的新标配。

以下是黄仁勋演讲全文，共2.5万字，小标题为编辑所加

01算力平台基石

CUDA二十年飞轮与神经渲染融合

欢迎来到GTC。我想先提醒大家，这是一个技术会议。

一大早大家就排起了长队。很高兴在这里见到各位。

GTC，我们要谈技术，谈平台。英伟达有三个平台。

各位可能以为我们主要只谈其中一个，就是与CUDA X相关的平台。我们的系统是另一个平台，现在又多了一个新平台，叫做“AI工厂”。

这些我们都会谈到，最重要的是，我们还要谈生态系统。但在开始之前，我要感谢几位暖场环节的主持人，他们做得非常出色，包括AI投资公司Conviction创始人郭睿、红杉资本合伙人林君叡（英伟达的第一位风险投资人），还有科技投资人加文·贝克（Gavin Baker，英伟达的第一家主要机构投资者）。这三位对技术有很深的理解，对当下行业动向洞若观火，而且在技术生态系统中的覆盖面非常广。还有我亲自挑选来参加今天活动的所有VIP，全明星阵容。感谢各位。

也要感谢所有来参会的公司。

英伟达是一家平台公司，如各位所知。我们有技术，有平台，有丰富的生态系统。今天，总规模高达100万亿美元的行业，基本上百分之百都汇聚于此。有450家公司赞助了这次活动。感谢各位。

1000场技术会议，2000位演讲者。这次会议将覆盖AI这个“五层蛋糕”的每一层——从土地、电力和机房外壳（shell）等基础设施，到芯片、平台、模型，当然最后也是最重要的，是那些能让这个行业真正起飞的应用。

这一切都始于CUDA。今年是CUDA诞生20周年。

我们在CUDA上深耕已有20年。20年来，我们一直专注于这个架构。这是一项革命性的发明，叫做SIMT（单指令多线程）。你只需编写标量代码，它能衍生出多线程应用。最近我们又增加了Tile结构，帮助开发者为张量核心编程，这些数学结构是当今AI的根基。

我们有数千种开源的工具、编译器、框架和库。公开的项目大概有几十万个。CUDA已经真正融入了每一个生态系统。

这张图基本上描述了英伟达的全部战略。归根结底，最难实现的就是最底层的这个东西：装机量。我们花了20年，现在全球有数亿颗运行CUDA的GPU和计算系统。我们在每一个云中，在每一家计算机公司里，服务着几乎每一个行业。

CUDA的庞大装机量就是飞轮加速的原因。装机量吸引开发者，开发者创造新算法，实现突破，比如深度学习，还有很多其他突破。这些突破带来全新市场，围绕它们形成新的生态系统，吸引其他公司加入，又创造了更大的装机量。这个飞轮正在加速。英伟达软件库的下载量呈爆炸式增长，规模非常大，而且比以往任何时候增长得都快。正是这个飞轮，让这个计算平台能够支撑这么多应用、这么多新突破。

但最重要的是，它也让这些基础设施拥有极长的使用寿命。原因很简单：能够在CUDA上运行的应用太多了。我们支持AI生命周期的每一个阶段，服务于每一个数据处理平台，加速各种不同类型的基于科学原理的求解器。

应用范围如此之广，一旦你采用了英伟达GPU，它的使用寿命会非常长。这也是为什么我们大约六年前出货的Ampere架构GPU，在云中的价格不降反升。所有这一切之所以可能，根本上是因为装机量大，飞轮转得快，开发者覆盖广。当这一切发生，再加上我们持续更新软件，计算成本就会下降。

加速计算极大地提升了应用程序的运行速度。同时，我们在其生命周期内持续维护和更新软件，你不仅在第一次使用时能获得性能提升，随着时间推移，还能持续享受加速计算带来的成本降低。我们愿意维护、愿意支持全球每一块这样的GPU，因为它们都是架构兼容的。我们之所以愿意这样做，是因为装机量非常大。如果我们发布一个新的优化，它能使数百万颗GPU受益，造福全球每个人。

这种动态组合使得英伟达的架构能够扩大覆盖范围，加速增长，同时降低计算成本，最终又进一步刺激了新的增长。所以CUDA是这一切的核心。但我们的旅程实际上始于25年前——GeForce。

我知道各位中有很多人是玩着GeForce长大的。GeForce是英伟达最成功的营销活动。早在你自己还负担不起的时候，我们就开始吸引你这位未来的客户了。你的父母付了钱，让你成为英伟达的客户。他们年复一年地为你买单，直到有一天，你成为了一名出色的计算机科学家，成为了真正的客户、真正的开发者。

但这一切都是GeForce在25年前打下的基础。我们从那里起步，一路走到CUDA。25年前，我们发明了可编程着色器。这是一个在当时完全看不出发明必要性的想法：让加速器变得可编程。世界上第一个可编程加速器——像素着色器，就出现在25年前。正是它引导我们不断深入探索。

5年后，我们发明了CUDA。这是我们做过的最大的投资之一，当时我们其实根本负担不起。它消耗了公司绝大多数的利润，但我们还是让CUDA搭乘GeForce的便车，进入了每一台电脑。我们全身心投入创建这个平台，因为我们强烈地感受到了它的潜力。最终，正是公司对它的执着，尽管起初困难重重，但我们日复一日地坚信它，历经13代产品、20年光阴，现在我们让CUDA变得无处不在。

像素着色器当然带来了GeForce的革命。然后10年前，我们推出了RTX，为现代计算机图形时代彻底重新设计了架构。GeForce将CUDA带向了世界，也因此让亚历克斯·克里舍夫斯基 (Alex Krizhevsky)、伊利亚·苏茨克维 (Ilya Sutskever)、杰弗里·辛顿 (Geoffrey Hinton) 、吴恩达 (Andrew Ng)以及许多其他人发现，GPU可以帮助他们加速深度学习。这引发了AI的大爆炸。

10年前，我们决定融合可编程着色，并引入两个新想法：一个是光线追踪，包括硬件光线追踪，这极其困难；另一个在当时是个新想法——大约10年前，我们就认为AI将彻底改变计算机图形。就像GeForce将AI带给世界一样，现在AI将反过来彻底改变计算机图形的整个运作方式。今天，我要向各位展示未来的方向。这是我们下一代图形技术，我们称之为神经渲染，即3D图形与AI的融合。它就是DLSS 5。

计算机图形活过来了，我们把可控的3D图形、结构化数据与生成式AI、概率计算结合在一起。一个是完全预测性的，另一个是概率性的但高度逼真。我们把这两个想法结合起来，通过结构化数据实现完美控制，同时又进行生成。结果是，内容既惊艳美丽，又完全可控。

这种融合结构化信息和生成式AI的概念，会一个行业接一个行业地重演。结构化数据是可信任AI的基础。

02数据基础设施

cuDF/cuVS核心库与云端生态整合

你们听说过SQL、Spark、Pandas、Velox，以及许多非常重要的大平台，比如Snowflake、Databricks、Amazon EMR、Azure Fabric、Google Cloud BigQuery。所有这些平台都在处理数据帧。这些数据帧是巨大的电子表格，装载着生活中的所有信息。这是结构化数据，也是商业的事实基准，是企业计算的事实基准。

为了让AI能够处理数据，我们必须把数据处理的速度提升到极致。过去，就算不加速也能应付过去，当然我们也会想办法提升结构化数据的处理速度，这样就能处理更多数据、成本更低、每天运行的次数更频繁，让整个公司的运转更加同步。

但未来，这些数据结构是要给AI用的，而AI的处理速度比人类快得多。未来的智能体也会使用结构化数据库。当然还有非结构化数据库和生成式数据库，这些数据库涵盖了世界上绝大部分的信息。每年生成的信息中，大约有90%是非结构化数据。

直到现在，这些数据对世界来说基本是没用的。我们读了，存进文件系统，然后就束之高阁了。没办法查询，很难进行搜索，处理起来非常麻烦。原因在于非结构化数据很难建立索引，你得理解它的含义和用途才行。

所以现在我们要让AI来做这件事。就像AI能够解决多模态感知和理解的问题一样，你可以用同样的技术去读取PDF，理解它的含义，然后基于这个含义把它嵌入到一个更大、可以搜索和查询的结构中。

为此，英伟达创建了两个基础库。就像我们为3D图形领域打造了RTX一样，我们为数据帧和结构化数据打造了cuDF，为向量存储、语义数据、非结构化数据和AI数据打造了cuVS。这两个平台未来将成为最重要的两个平台。

看到这两个库在整个网络、在这个复杂的全球数据处理系统中被广泛采用，我特别兴奋。因为数据处理这个领域已经存在很长时间了，因此有这么多不同的公司、平台和服务。我们花了很长时间才真正深入集成到这个生态系统中。我对我们在该领域所做的工作感到非常自豪。

今天我们还要发布几项重要进展。

首先是IBM。作为SQL的发明者——SQL是有史以来最重要的领域特定语言之一——IBM正在用cuDF加速他们的Watson X Data平台。回顾历史，60年前IBM推出了System/360，这是通用计算的第一个现代平台，开启了整个计算时代。随后诞生的SQL作为一种声明式语言，让人们无需一步步指示计算机就能查询数据，再加上数据仓库的出现，这些都奠定了现代企业计算的基石。而今天，IBM和英伟达正在用GPU计算库加速IBM Watson X Data的SQL引擎，为AI时代重塑数据处理方式。

数据是赋予AI背景和意义的事实基准。AI需要快速访问海量数据，但传统基于CPU的数据处理系统已经跟不上这个需求了。

举个例子，雀巢每天要处理几千个供应链决策。他们的“订单到现金”数据集市，汇集了全球185个国家和地区所有的供应订单和交付事件。过去在CPU上，雀巢每天只能刷新数据集市几次。现在用了加速后的、运行在GPU上的Watson X Data，他们能以5倍的速度运行同样的工作负载，成本降低了83%。这说明面向AI时代的加速计算平台已经到来。

英伟达不仅在云端加速数据处理，也在加速本地部署的数据处理。戴尔作为全球领先的计算机系统制造商和存储供应商，正与我们合作创建戴尔AI数据平台。这个平台集成了cuDF和cuVS，为AI时代打造了加速的数据基础设施。他们与NTT Data合作的项目已经实现了性能的大幅提升。

再看Google Cloud，我们与Google Cloud有着长期的合作关系。我们正在加速Google的Vertex AI，现在也开始加速BigQuery——这是一个非常重要的框架和平台。与Snapchat的合作项目显示，我们帮他们把计算成本降低了近80%。

当你加速数据处理、加速计算时，你不仅能获得速度的提升、规模的增长，更重要的是还能获得成本的优势。所有这些好处融为一体。

过去，这种进步来自摩尔定律——每几年性能翻一番。换句话说，在价格基本不变的情况下，计算机要么每两年性能翻倍，要么计算成本减半。如今摩尔定律已经走到尽头，我们需要新的方法来实现持续的性能提升和成本优化。

加速计算让我们能够实现这些巨大的性能飞跃。而且，随着我们不断优化算法，加上我们广泛的覆盖范围和庞大的装机量，我们可以持续为全球每个人降低计算成本、扩大规模、提升速度。这里还是以Google Cloud为例，各位可以看到我刚才提到的模式。

英伟达构建了一个加速计算平台，上面运行着一系列软件库。我举了三个例子：RTX是其中之一，cuDF是另一个，cuVS是第三个。这些软件库都构建在我们的平台之上。但我们最终要集成到全球的云服务和原始设备制造商中，并与其他平台一起，触达整个世界。这种模式将会一次又一次地复制。这只是一个例子。英伟达和Google Cloud合作，我们加速Vertex AI，加速BigQuery。我为我们与JAX XLA的合作感到自豪。我们在PyTorch上表现卓越，是世界上唯一在PyTorch和JAX XLA上都表现如此出色的加速器。

我们支持的客户，比如Baseten、CrowdStrike、Puma、Salesforce——他们不是我们的直接客户，但他们是我们的开发者。我们已经将英伟达技术集成到他们的系统中，最终落地到云上。我们与云服务提供商的关系，本质上是我们把客户带给它们。我们集成软件库，加速工作负载，把这些客户带到云中。所以，正如各位所见，大多数云服务提供商都喜欢与我们合作，他们总是要求我们把下一个客户放到他们的云上。我想告诉各位，客户数量很多。我们将加速所有人。会有很多很多客户能够落地到你们的云中，请耐心等待。

此外，我们与AWS合作已久。今年我特别兴奋的一件事是，我们将把OpenAI带到AWS。这将推动AWS上云计算的大量消耗，扩大OpenAI的覆盖范围和计算能力。如各位所知，OpenAI目前完全受限于计算能力。在AWS上，我们加速EMR，加速SageMaker，加速Bedrock。英伟达与AWS的集成非常深入。AWS是我们的第一个云合作伙伴。

接下来是Microsoft Azure。英伟达的A100超级计算机——我们制造的第一台超级计算机是给自己用的，而第一台安装就落地在Azure上。那次合作促成了与OpenAI的巨大成功。我们与Azure合作已久。我们现在加速Azure云，并与他们的AI Foundry深度合作。我们加速必应搜索，在Azure区域上与微软合作。这个领域非常重要，因为我们正在全球范围内持续扩展AI。

我们提供的一项关键能力是机密计算。在机密计算中，你要确保即使是操作员也无法看到你的数据，无法触碰或看到你的模型。英伟达的GPU是世界上第一个实现这一点的。现在，它能够支持机密计算，并保护OpenAI和Anthropic这些极具价值的模型在云端和不同地区的部署，这都归功于我们的机密计算能力。机密计算非常重要。举个例子，Synopsys是我们很好的合作伙伴。我们正在加速他们所有的EDA和CAE工作流程，并落地在Microsoft Azure上。

我们是甲骨文的第一个AI客户。大多数人可能会以为我们是他们的第一个供应商——我们的确是他们的第一个供应商，但我们同时也是他们的第一个AI客户。我很自豪，当年是我第一次向甲骨文解释了AI云的概念，然后我们成了他们的第一个客户。自那以后，甲骨文真正起飞了。我们在那里落地了一大批合作伙伴，包括CoreWeave和Fireworks AI，当然还有OpenAI与CoreWeave的合作。CoreWeave是全球第一个AI原生云。这家公司成立的唯一目的，就是为了迎接加速计算时代，提供GPU托管，托管AI云。他们拥有非常出色的客户，增长惊人。

我相当兴奋的另一个平台是Palantir和戴尔的组合。我们三家公司联手，使得建立一个全新类型的AI平台成为可能，即Palantir的本体论平台和AI平台。我们可以在任何国家、任何隔离区域、完全本地部署、完全现场部署、完全在野外部署这些平台。如果没有我们的机密计算能力，如果没有我们构建端到端系统的能力，以及提供从数据处理（无论是向量还是结构化数据）一直到AI的整个加速计算和AI软件栈的能力，这一切都不可能实现。

我想向各位展示这些例子，这正是我们与全球云服务提供商的特殊合作关系。他们全部都在这里。我能在展台巡视时看到他们，这令人非常兴奋。感谢各位的辛勤工作。

英伟达是一家垂直整合、但在水平层面保持开放的公司。之所以必须这样，原因很简单：加速计算不是芯片问题，也不是系统问题。加速计算这个词其实省略了一个部分，那就是“应用加速”。如果我能让一台计算机运行所有程序都快，那叫CPU。但那已经无法持续了。未来要继续实现应用程序的巨大加速、持续降低成本，唯一的方法是通过特定应用或特定领域的加速。这就是为什么英伟达必须一个软件库接一个软件库、一个领域接一个领域、一个垂直行业接一个垂直行业地推进。

我们是一家垂直整合的计算公司。没有别的办法。我们必须理解应用程序，必须从根本上理解算法。我们必须弄清楚如何在任何期望的场景中部署算法，无论是在数据中心、云端、本地、边缘，还是在机器人系统中——所有这些计算系统都不相同。最后才是系统和芯片。我们与任何你希望我们集成的平台合作，将英伟达技术集成进去。我们提供软件，提供软件库，与你们的技术集成，将加速计算带给全球每个人。

这次GTC就是对此的一个很好展示。在座的各位代表了英伟达的生态系统，包括我们供应链的上游和下游。非常令人兴奋的是，去年我们整个上游供应链，不管是成立50年的公司、70年的公司，还是有一家150年历史的公司，现在都成了英伟达供应链的一部分，与我们合作。去年各位都度过了创纪录的一年，对吧？祝贺各位。

我们正在做一件大事。而这，正是一件极其重大的事件的开端。

03垂直行业赋能

CUDA X软件库与AI原生公司爆发

大家可以看到，加速计算的计算平台我们已经奠定了基础。但要真正激活这些平台，我们还需要针对特定领域的软件库，去解决每一个垂直领域中至关重要的核心问题。现在，我们正在服务每一个领域。

拿自动驾驶汽车来说，我们的覆盖范围、广度和影响力，已经达到了令人难以置信的程度。我们有专门的会议探讨这个领域。在金融服务领域，算法交易正从传统机器学习加人工特征工程，转向用超级计算机研究海量数据，让系统自行发现洞察和模式。这个领域正在经历自己的深度学习和Transformer时刻。

医疗健康也在经历自己的ChatGPT时刻。我们在该领域有一些非常令人兴奋的工作，有很出色的专题演讲。我们探讨用于药物发现的AI物理学或AI生物学，用于客户服务和辅助诊断的AI智能体，当然还有物理AI和机器人系统。所有这些不同方向的AI，都有各自不同的平台，而英伟达都提供支持。

在工业领域，我们正在完全重置并启动人类历史上最大规模的建设。全球大多数正在建设AI工厂、芯片厂、计算机厂的行业，今天都有代表在这里。媒体和娱乐（当然也包括游戏），我们拥有实时AI平台，可以支持翻译、广播、直播游戏和直播视频，其中很大一部分内容都将被AI增强。

在量子领域，这里有35家不同公司与我们合作，共同构建下一代量子-GPU混合系统。零售和消费品行业，人们正在使用英伟达技术进行供应链管理，创建生成式购物系统，构建用于客户支持的AI智能体，这是一个价值35万亿美元的行业，大量工作正在进行。

机器人技术是制造业中价值50万亿美元的行业，英伟达在这个领域已经耕耘了十年，构建了三台计算机——这是构建机器人系统所必需的基础计算机。我们实际上与全球所有知名的机器人制造公司都有合作。本次展会上有110个机器人参展。

电信行业规模大约和全球IT行业相当，约2万亿美元。基站无处不在，是全球最大的基础设施之一。它是上一代计算的基础设施，但即将被彻底重塑。原因很简单：过去的基站只做基站这一件事，而未来它将成为一个运行AI的基础设施平台。AI将在边缘运行。所以会有很多精彩的讨论。我们在这个领域的平台叫Aerial或AI-RAN。我们正在与诺基亚、T-Mobile和其他许多公司展开大规模合作。

回到我们业务的核心，我刚才提到的所有东西都建立在计算平台之上，但非常重要的一点是，我们的CUDA X软件库。CUDA X软件库是英伟达发明的算法，我们本质上是一家算法公司。这正是我们的独特之处。这种能力让我能够进入每一个上述行业，想象未来，让全球最优秀的计算机科学家去描述问题、解决问题、重构问题、重新表达问题，然后将其转化为软件库。

我们已经取得了非常多的成果，我想本次展会我们发布了大概七十个软件库，也许还有四十个模型。我们一直在更新它们。这些软件库是我们公司皇冠上的明珠。正是它们，让那个计算平台真正被激活，去解决实际问题，去创造深远影响。

我们创造过的最重要、最重大的软件库之一是cuDNN，即CUDA深度神经网络软件库。它彻底改变了AI领域，引发了现代AI的大爆炸。

早在20年前，我们构建了CUDA，一个用于加速计算的单一架构。今天，我们彻底改变了计算。一千个CUDA X软件库帮助开发者在每个科学和工程领域取得突破。cuOpt用于决策优化，cuLitho用于计算光刻，cuDSS用于直接稀疏求解器，cuEquivariance用于几何感知神经网络，Aerial用于AI-RAN，Warp用于可微物理，ParaBricks用于基因组学。它们的核心是算法，而且它们很美。

各位刚才看到的一切都是模拟。其中一些是基于原理的求解器，即基础物理求解器。其中一些是AI智能体模型，AI物理模型。还有一些是物理AI机器人模型。一切都是模拟的。没有任何东西是手工动画的，没有任何动作是人工摆拍的。这就是英伟达从根本上在做的事。正是通过对算法的理解与我们计算平台的连接，我们才能开启这些机会。

这就是CUDA X。刚才各位看到了一大批公司，比如沃尔玛、欧莱雅这些非常成熟的顶尖企业，还有摩根大通，这些都是定义了当今社会的公司。丰田也在其中。这些都是全球最大的公司。同时，还有一大批各位可能从未听说过的公司，我们称之为AI原生公司——数量众多的初创企业。

在这个列表里，有一大批全新的公司。各位可能听说过其中几个，比如OpenAI、Anthropic。但除此之外，还有更多服务于不同垂直领域的公司。过去两年发生了一些重大变化，尤其是去年。我们与AI原生公司合作已久，但去年这个领域突然爆发了。我想解释一下为什么。

这个行业迎来了爆发，有1500亿美元的风险投资涌入初创公司，这是人类历史上规模最大的一轮投资。这也是第一次，投资规模从过去的几百万、几千万美元跃升到几亿甚至几十亿美元。原因是，这是历史上第一次，每一家这样的公司都需要计算能力，而且需要非常、非常多的计算能力。

它们需要海量的token。它们要么需要自己创建和生成token，要么需要集成并增值由Anthropic、OpenAI等公司创造的现有token。所以这个行业在很多方面都不同以往，但有一点很清楚：它们正在产生的影响，以及它们已经在交付的令人难以置信的价值，都是相当切实的。AI原生公司的兴起，这一切都是因为我们重塑了计算。

就像个人电脑革命时期、互联网革命时期或移动云时代一样，催生了无数新企业。每一个时代都有自己的标志性公司，而我们正在谈论的正是这个时代刚刚发生的一个重大变革。在这一代，我们同样迎来了自己的一大批非常、非常特别的公司。

我们重塑了计算。按理说，必然会有一大批新的重要公司涌现，那些对未来世界有重大影响的公司。像Google、Amazon、Meta这样的公司，正是上一次计算平台转变的结果。而我们现在，正处于一个新平台转变的开端。

04范式转变

推理工作负载的激增与Token经济

我要重点强调三件事。

首先，ChatGPT当然开启了生成式AI时代。它不仅能理解、感知，还能翻译和生成，创造出独特的内容。我刚才给大家展示了生成式AI与计算机图形的融合，它让计算机图形变得栩栩如生。各位，全球每个人都该用ChatGPT。我每天早上都在用，今天早上也用了不少。ChatGPT开启了生成式AI时代。

第二，生成式计算与我们过去做计算的方式完全不同。生成式AI是软件的一种能力，但它深刻地改变了计算的完成方式。过去的计算是基于检索的，你需要什么就去查找什么；而现在是生成式的，系统自己创造内容。大家在听我谈论这些时如果记住这点，就会意识到，为什么我们做的所有事情都会改变计算机的架构方式、提供方式、构建方式，乃至计算的整个意义。

生成式AI，那是2022年底到2023年的事。接下来是推理式AI，从o1模型开始，然后随着o3真正起飞。推理能力让它能够反思，能够自己思考，能够计划，能够把一个它无法理解的问题分解成它能理解的步骤或部分。它可以基于研究得出结论。o1让生成式AI变得可信赖、基于事实，这让ChatGPT彻底起飞了。那是一个非常、非常重要的时刻。要达到好的效果，所需的输入token数量，以及为了推理而生成的输出token数量，都大大增加了。当然你可以有更大的模型，o1模型稍微大了一点，但大不了太多，然而它用于理解上下文的输入token，以及用于思考过程的输出token，极大地增加了计算量。

然后是Claude Code，第一个真正的智能体模型。它能够读取文件、编写代码、编译、测试、评估，然后返回迭代结果。Claude Code彻底改变了软件工程。各位都知道，英伟达现在所有人都在使用Claude Code，或者通常是三个工具的组合——Claude Code、Codex、Cursor。今天，没有一位软件工程师不是在一个或多个智能体的帮助下编写代码的。Claude Code开创了这个转折点，而且是第一次。

现在我们不再只是问AI“什么、在哪里、什么时候、怎么样”这些基础问题。我们开始让它去创造、执行、构建。它学会了使用工具：接入你的上下文环境、读取文件。它能智能地把复杂问题拆解开来，一步步推理、反思，最终不仅找到答案，还能实际执行任务。一个能够感知的AI，变成了能够生成的AI，然后又变成了能够推理的AI，现在变成了能够工作的AI——而且是极富效率的工作。

过去两年，计算需求的增长幅度之大，在座各位都很清楚——对英伟达GPU的需求已经高得离谱了。现货价格飞涨，就算想找一块GPU也找不到。但与此同时，我们出货了巨量的GPU，需求却还在持续上升。这背后是有原因的：一个根本性的转折正在发生。最终，AI能够从事有生产力的工作了，因此推理的转折点已经到来。

AI现在必须思考，要思考就必须推理；AI现在必须行动，要行动就必须推理；AI必须阅读，要阅读就必须推理。AI的每一个部分，每一次它都需要思考、需要推理、需要行动、需要生成token。现在已经过了单纯训练的阶段，进入了推理的领域。所以推理的转折点已经到来，而此时所需的token量、计算量，相比之前增加了大约一万倍。

现在我把这些结合起来看：过去两年，工作的计算需求增加了一万倍，使用量大概增加了一百倍。人们听我说过，我相信过去两年计算需求实际增加了100万倍。这是我们所有人的感受，是每个初创公司的感受，是OpenAI或Anthropic的感受。如果能有更多算力，他们就能生成更多token，收入就会增加，更多人能够使用，AI就能变得更先进、更智能。我们现在正处于那个正向循环的飞轮系统中。我们已经到了那个时刻。推理的转折点已经到来。

去年这个时候，我站在这里，说我们看到了大约5000亿美元的、置信度非常高的需求，以及到2026年的Blackwell和Rubin采购订单。我不知道各位有没有同感，但5000亿美元是极其庞大的收入，但似乎没人感到惊讶。我知道各位为什么不惊讶——因为各位所有人都度过了创纪录的一年。

而今天，在去年GTC之后仅仅一年，我站在这里要告诉各位的是：我们现在看到了到2027年至少一万亿美元的市场机会。这听起来合理吗？这就是我接下来要谈的内容。事实上，我们的供应还会跟不上需求。我确信实际的计算需求会比这高得多。这背后是有原因的。

首先，去年我们做了大量工作。2025年无疑是英伟达的推理之年。我们要确保不仅在训练和后期训练方面做得好，而且在AI的每一个阶段都做到极致。这样，大家对我们基础设施进行的投资，就能够尽可能长久地扩展使用。英伟达基础设施的使用寿命会很长，因此长期来看成本会非常低——能够使用得越久，分摊下来的成本就越低。我毫不怀疑，英伟达系统是你能够获得的、用于AI基础设施的全球成本最低的系统。

所以第一部分是：去年整个行业聚焦于推理AI，正是这一点推动了这个转折点。同时，我们也很高兴去年Anthropic加入了英伟达生态，Meta也选择了英伟达。作为一个整体，这些合作伙伴代表了全球AI计算能力的三分之一。此外，开源模型已经接近前沿水平，而且确实已经无处不在。

英伟达今天是全球唯一一个能够运行每一个AI领域的平台，覆盖所有这些AI模型——无论是语言、生物学、计算机图形、计算机视觉、语音、蛋白质、化学还是机器人领域，无论是在边缘还是在云端，无论使用什么语言。英伟达的架构适用于所有这些领域，我们在每一个领域都表现卓越。这使我们成为成本最低、最值得信赖的平台。

当各位考虑构建这些系统时，就像我说的，一万亿美元是一个极其庞大的基础设施投入。你必须完全确信，投入的这一万亿美元能够得到充分利用，性能优异，成本效益极高，而且在你所能预见的未来，你在英伟达上的基础设施投资能够拥有长久的使用寿命。只有这样，你才能满怀信心地投入。我们现在已经证明，这是全球唯一一个你可以放心去任何地方建设的基础设施。你想放在任何云里，我们乐意；想放在本地，我们高兴；想放在任何国家、任何地方，我们都乐意支持你。我们现在是一个能够运行所有AI的计算平台。

现在来看我们的业务结构。大约60%来自超大规模云服务商，主要是前五大超大规模云服务商。但即使在这前五家里，也有一部分是内部AI消耗，比如推荐系统正从传统的基于表格、协同过滤、内容过滤的方式，转向深度学习和大型语言模型。搜索也在经历同样的转变。几乎所有这些超大规模工作负载，现在都在转向英伟达GPU极其擅长的工作负载。

除此之外，因为我们与每一个AI实验室合作，因为我们加速每一个AI模型，因为我们与庞大的AI原生公司生态系统紧密相连，我们可以将这些公司带到云端——不管投资规模多大、多快，这些算力都会被消耗掉。这部分占了我们业务的60%。

另外40%则无处不在：区域云、主权云、企业、工业、机器人、边缘、大型系统、超级计算系统、小型服务器、企业服务器。系统的数量，令人难以置信。AI的多样性也正是它的韧性所在。AI覆盖之广，赋予了它这种韧性。毫无疑问，这不是一个单一应用的技术。这现在是根本性的变革，绝对是一个新的计算平台转折点。

那么，我们的工作就是持续推进技术。去年我提到的最重要的事之一是，去年是我们的推理之年。我们全力以赴。我们冒了巨大的风险，在Hopper架构正处在巅峰、表现正好的时候，决定彻底改造它。我们认为Hopper架构的NVLink连通数（NVLink 8）必须再上一个台阶。于是我们完全重新架构了整个系统，彻底分解了计算系统，创造了NVLink 72。它的构建方式、制造方式、编程方式都彻底改变了。Grace Blackwell NVLink 72是一个巨大的赌注，对任何人都不容易，包括在座我的许多合作伙伴。感谢各位的辛勤工作。

此外，NVFP4是一种完全不同类型的张量核心和计算单元。我们现在已经证明，用NVFP4进行推理没有任何精度损失，但性能和能效获得了巨大提升。我们也能用NVFP4进行训练。所以，NVLink 72、NVFP4、Dynamo的发明、TensorRT-LLM，还有一大堆新算法相继问世。我们甚至建造了一台超级计算机来帮助我们优化内核，优化整个软件栈。我们称之为DGX Cloud。我们投入了数十亿美元的超级计算能力，帮助我们创建内核和软件，使这一切成为可能。

所有的成果汇集到了一起。过去曾有人跟我说：Jensen，推理太容易了。但实际上，推理是终极难题，也是至关重要的，因为它直接驱动各位的收入。这就是最终的结果。这是来自SemiAnalysis的一份报告，是有史以来范围最广、最全面的AI推理基准测试。

各位请看左边——这个轴是每瓦特生成的token数。这很重要，因为每个数据中心、每个工厂本质上都受功耗限制。一个1吉瓦的工厂永远不会变成2吉瓦，这是物理定律。所以，对于那个1吉瓦的数据中心，你希望驱动最大数量的token，也就是那个工厂的产出。所以你希望处在那条曲线的顶端，越高越好。

X轴代表的是推理的交互性，也就是速度，即AI响应你的快慢。速度越快，你当然可以更快地响应。但更重要的是，推理速度越快，意味着你可以运行更大的模型、处理更长的上下文、生成更多的思考token——而这个，本质上决定了AI的智能程度。所以X轴，其实就是AI的吞吐量，也是AI的智能水平。

但请注意：AI越智能，吞吐量反而会下降。这很合理，对吧？因为思考需要更长的时间。所以这个轴就是速度。我稍后还会回到这里。这非常重要，可能有点折磨人，但它太重要了。各位看着吧，未来全球的每一位CEO，都将以我即将描述的方式来审视他们的业务，因为这就是你们的token工厂，这就是你们的AI工厂，这就是你们的收入来源。未来毫无疑问就是这样。所以，这个是吞吐量，这个是智能。

对于给定的数据中心功耗，每瓦性能越好，吞吐量就越高，你就能生产越多的token。而另一边则是成本。你会注意到，英伟达拥有全球最高的性能。这本身可能不让人意外。真正让人震撼的是一代产品中提升的幅度。

按照摩尔定律，过个几年性能就能翻倍，一代产品通过晶体管升级，大概能带来1.5倍的性能提升。你可能预期下一代产品比Hopper H200高出1.5倍。但没人能预料到会高出35倍。我去年这个时候说，英伟达的Grace Blackwell NVLink 72在每瓦性能上提升了35倍。没人相信我。后来SemiAnalysis发布了报告，Dylan Patel有一句话。他指责我有所保留（sandbagging）。他说：“Jensen有所保留，实际是50倍。”他没有说错。因此，我们的每token成本是全球最低的，你根本无法击败它。

我以前说过：如果你的架构不对，即使免费，也不够便宜。因为无论发生什么，你都得建一个1吉瓦的数据中心，一个1吉瓦的工厂。而那个1吉瓦的工厂，在15年的折旧期内，分摊下来的成本大概要花400亿美元——就算什么都不放进去，这也是400亿美元的投入。所以，你最好确保在这个设施里放最好的计算机系统，这样你才能获得最低的token成本。英伟达的token成本是世界级的，目前基本上无人能及。之所以能做到这一点，靠的是极致的软硬件协同设计（co-design）。所以我挺高兴他们给了我们这个称号——曾有一位猴王（Monkey King），现在有了Token之王。

就像我告诉各位的，我们将所有的软件进行垂直整合，但水平开放。我们把所有的软件和技术，以任何可能的方式打包，集成到全球的推理服务提供商中。这些公司增长太快了。比如Fireworks AI，Lin（林君叡）今天也在这里。他们就是增长得如此之快，去年增长了一百倍。它们是token工厂——对它们来说，工厂的有效性、性能和token生产成本就是一切。

这就是发生的事情。我们更新了他们的软件，用的还是同样的系统。你看他们的token速度：令人难以置信的差距。在英伟达更新所有算法、所有软件、以及我们带来的所有技术之前，平均每秒大概处理700个token；之后接近5000，提高了7倍。这就是极致协同设计的惊人力量。

我之前提到过工厂的重要性。这就是工厂的重要性。你的数据中心，过去是存放文件的地方，现在变成了生成token的工厂。而你的工厂，无论如何都是受限的。每个人都在寻找土地、电力和机房外壳。一旦建好，你就受制于电力了。在那个电力受限的基础设施里，你最好确保你的推理——因为你知道推理就是你的工作负载，token是你的新商品，计算是你的收入来源——你最好确保未来的架构是尽可能优化的。

未来，每一个云服务提供商（CSP）、每一家计算机公司、每一家云公司、每一家AI公司——实际上，就是每一家公司——都会思考它们的token工厂的运营效率。这就是各位未来的工厂。我之所以知道这一点，是因为这个房间里的每个人都由智能驱动；而未来，这种智能将由token来增强。

05硬件架构路线图

Vera Rubin系统与Groq集成

让我带各位回顾一下我们是如何走到今天的。

2016年4月6日，差不多十年前，我们推出了DGX-1——全球第一台专门为深度学习设计的计算机。八块Pascal GPU，通过第一代NVLink连接。一台计算机170 teraflops。那是全球第一台为AI研究人员打造的计算机。

到了Volta，我们引入了NVLink Switch。16块GPU以全对全带宽连接，像一个巨大的GPU一样运行。这向前迈出了一大步，但模型还在变大。数据中心需要变成一个单一的计算单元。于是Mellanox加入了英伟达。

2020年，DGX A100 SuperPOD成为第一台结合纵向扩展（scale-up）和横向扩展（scale-out）架构的GPU超级计算机。NVLink 3做纵向扩展，ConnectX-6和Quantum InfiniBand做横向扩展。然后是Hopper，第一个带FP8 Transformer引擎的GPU，它开启了生成式AI时代。NVLink 4、ConnectX-7、BlueField-3 DPU、第二代Quantum InfiniBand——它彻底改变了计算。

Blackwell用NVLink 72重新定义了AI超级计算机的系统架构。72块GPU通过NVLink Spine连接，每秒130TB全对全带宽。计算托盘集成了Blackwell GPU、Grace CPU、ConnectX-8和BlueField-3。横向扩展跑在Spectrum-4以太网上。随着预训练、后期训练、推理这三种扩展定律全速推进，再加上现在智能体系统的出现，计算需求在持续指数级增长。

现在，Vera Rubin的架构专为智能体AI的每个阶段设计，它推进了计算的每一个支柱——CPU、存储、网络和安全。Vera Rubin NVLink 72，3.6 exaflops算力，每秒260TB全对全NVLink带宽。这个引擎正在为智能体AI时代提供超级动力。Vera CPU机架专为编排和智能体工作流设计，STX机架是基于BlueField-4的AI原生存储，用Spectrum-X做横向扩展，还采用了共封装光学来提高能效和可靠性。

还有一个令人兴奋的新成员：Groq 3 LPX机架。它与Vera Rubin紧密连接。Groq LPU拥有海量的片上SRAM，成为已经极快的Vera Rubin的token加速器。两者结合，每兆瓦吞吐量提高了35倍。一个全新的Vera Rubin平台——七款芯片，五款机架级计算机，一台为智能体AI打造的革命性超级计算机。短短10年，计算能力提升了4000万倍。

以前我说Hopper的时候，会举起一块芯片。那真可爱。这是Vera Rubin。当我们谈Vera Rubin时，我们谈的是整个系统——垂直整合，完全与软件结合，端到端扩展，作为一个巨大的系统来优化。它之所以为智能体系统设计，原因很清楚：智能体最重要的负载是思考，是大语言模型。大语言模型会变得越来越大，会越来越快地生成更多token，以便它能更快思考。但它也必须访问内存，它会非常用力地冲击内存——KV缓存、结构化数据（cuDF）、非结构化数据（cuVS）。它会非常用力地冲击存储系统，所以我们彻底改造了存储系统。

它还会使用工具。与对较慢计算机容忍度较高的人类不同，AI希望工具尽可能快。这些工具——网络浏览器，在未来也可能是云中的虚拟PC——必须尽可能快。所以我们创造了一个全新的CPU，专为极高单线程性能、极高数据吞吐量、极佳数据处理能力和极致能效而设计。它是全球唯一使用LPDDR5X的数据中心CPU，单线程性能和每瓦性能无与伦比。我们设计它，就是为了让它能与这些机架一起用于智能体处理。

这就是Vera Rubin系统。注意，从这次开始，百分之百液冷。所有的电缆都不见了。过去需要两天安装的东西，现在两小时搞定，不可思议。制造周期会大大缩短。这也是一台用45°C热水冷却的超级计算机，减轻了数据中心压力，把原本用于冷却数据中心的成本和能量释放出来给系统使用。这是我们的秘诀。我们是全球唯一一家已经构建了第六代纵向扩展交换系统的公司——这不是以太网，不是InfiniBand，这是NVLink。第六代NVLink，极其困难。嗯，极其困难，毫无疑问。我为我们的团队感到自豪。NVLink完全冷却。

这是全新的Groq系统。我稍后会给你们展示更多。八块GU芯片组成的LP30——全球从未见过。全球见过的是V1，这是第三代。我们现在正在量产。稍后我会向你们展示更多相关内容。全球第一个CPO Spectrum-X交换机，也全面量产了。共封装光学，光学器件直接来到芯片上，直接与硅片接口连接。电子转换为光子，并直接连到芯片。我们与台积电共同发明了工艺技术，我们是今天唯一量产的。它叫CPO，完全是革命性的。英伟达全面量产Spectrum-X。

这是Vera CPU系统。每瓦性能是全球任何CPU的两倍，也在量产。我们从没想过会单独销售CPU，我们现在却单独销售很多。这已经是一个数十亿美元的业务了。我特别满意我们的CPU架构师。我们设计了一款革命性的CPU，这是CX9，由Vera CPU、BlueField-4、STX驱动，我们的新存储平台。

这些是机架，它们连接在一起。每个这样的机架，这是NVLink机架，我以前给大家看过，超级重，而且感觉每年都在加重——我觉得是因为里面的电缆每年都在增加。我们决定也把这套技术用在以太网上，因为它来构建这些带有布线系统的结构化布线数据中心非常高效。这是以太网，256个液冷节点在一个机架里，也用上了这些令人难以置信的连接器。

你们想看Rubin Ultra吗？这是Rubin Ultra计算节点。和Rubin水平滑入不同，Rubin Ultra进入一个全新的机架，叫Kyber，让我们在单个NVLink域中能连接144块GPU。这个Kyber机架，我肯定能举起来，但我不举——它相当重。这是一个计算节点，垂直滑入Kyber机架。它在这里连接，这是中置背板（midplane）。那四个顶部的NVLink连接器滑进去，连到这个上面，就成了其中一个节点。每个机架都是一个不同的计算节点。这是神奇的部分：这是中置背板，背面不再使用布线系统——布线系统在铜缆能驱动的距离上有局限——我们现在用这个系统连接144块GPU。这是新的NVLink，也垂直放置，连接到中置背板背面。计算在前面，NVLink交换机在后面。一台巨大的计算机。这就是Rubin Ultra。

只有在英伟达的主题演讲上，你才会看到去年的幻灯片再次出现。因为我想让各位知道，去年我告诉过你们一件非常重要的事，重要到值得再讲一次。这可能是未来AI工厂最重要的图表。全球每一位首席执行官都会追踪它，会深入研究它。虽然实际比这复杂得多、是多维的，但各位会研究你们AI工厂的吞吐量和token速度——在恒定功耗下，因为那就是你拥有的所有功耗。吞吐量和token速度对于你们的工厂将永远重要。这个分析会直接反映在收入上。各位今年所做的，会精确地出现在明年的收入上。这张图表就是一切的核心。

我说过，纵轴是吞吐量，横轴是token速率。今天我要再给各位看这个，因为我们现在能够提高token速度，因为模型大小在增加，token长度、上下文长度在持续增长，取决于不同应用场景的级别，可能从10万token的输入长度到数百万。输入token长度在增长，输出token长度也在增长。所有这些最终会影响到未来token的市场营销和定价。

token是新的商品。像所有商品一样，一旦达到转折点，一旦成熟或趋于成熟，它就会被分割成不同的部分。高吞吐量低速度的可能用于免费层级。下一层可能是中等层级。更大的模型，更不用说速度更高，输入上下文长度更大，对应着不同的价格点。各位可以从所有不同的服务中看到：这个是免费的层级；第一层可能是每百万token 3美元；下一层可能是每百万token 6美元。你希望能不断推进这个边界，因为模型越大越智能，输入token上下文长度越长越相关，速度越高，你能思考和迭代的时间越长，AI模型就越智能。

所以这是关于更智能的AI模型。当你拥有更智能的模型时，每一次这样的提升都让你能够提价。这个是45美元。也许有一天会有一个高级服务，让你以极高的速度生成token——因为你处于关键路径上，或者你在做很长的研究，所以每百万token 150美元根本不算什么。让我们换算一下：假设你作为一名研究员，每天使用5000万token，按每百万150美元计算。作为一个研究团队，这根本不算什么。所以我们相信这是未来，这是AI想要去的方向，这也是它今天的位置。它必须从这里开始，确立价值和实用性，然后越来越好。未来，各位会看到大多数服务覆盖所有这些层级。

这是Hopper。我也开始移动了。这是50，这是100。Hopper看起来像这样。你可能会预期下一代会更高，但没人预料到会高这么多。这是Grace Blackwell。Grace Blackwell所做的，是在你的免费层级极大地提高了吞吐量。但在你主要盈利的地方，它将吞吐量提高了35倍。这和全球任何公司生产的任何产品没什么不同——层级越高，质量越高，性能越高，产量越低，容量越低。这和世界上其他任何业务没什么两样。现在，我们能够将这个层级提高35倍。我们引入了一个全新的层级。这就是Grace Blackwell的好处。相对于Hopper的巨大飞跃。

好，这是Grace Blackwell。好的。让我重置一下。这是Vera Rubin。现在想想在每个层级发生了什么。在每个层级，在每个层级，我们都提高了吞吐量。而在各位平均售价（ASP）最高、最有价值的细分市场，我们将其提高了10倍。这就是艰苦工作的成果，要在那个层级做到这一点非常非常困难。这是NVLink 72的好处，是极低延迟的好处，是极致协同设计的好处，让我们能够把整个区域往上移。

那么，从客户的角度看，这最终意味着什么？假设我把所有这些加起来。假设我把25%的功耗用在免费层级，25%在中等层级，25%在高层级，25%在高级层级。我的数据中心只有1吉瓦，所以我必须决定如何分配。免费层级让我吸引更多客户，这个让我服务最有价值的客户。所有这些的乘积，基本上就是你的收入。在这个简化的例子里，Blackwell能够产生5倍多的收入。Vera Rubin能够产生5倍。是的。所以如果你是Rubin，你应该尽快拿到它——因为你的token成本下降，吞吐量上升。但我们想要更多。我们想要更多。

就像我告诉各位的，这个吞吐量需要大量的浮点运算，这个延迟、交互性需要巨大的带宽。计算机不喜欢极端的浮点运算量加极端的带宽量，因为任何系统的芯片表面面积就那么多。优化高吞吐量和优化低延迟实际上是相互冲突的。所以当我们与Groq结合时，就发生了这个。

我们收购了开发Groq芯片的团队，授权了技术，现在一直在合作集成这个系统。这就是它看起来的样子。在最有价值的层级，我们现在要把性能再提高35倍。

这个非常简单的图表向各位揭示了为什么英伟达在绝大多数工作负载中如此强大。原因是在这个区域，吞吐量太重要了。NVLink 72如此具有变革性，它正是合适的架构，即使你加入Groq也很难被超越。但如果你把这个图表一直延伸到这儿——你说你想要的服务不是400个token每秒，而是一千个token每秒——突然间NVLink 72就力不从心了，它根本无法达到。我们就是没有足够的带宽。所以这就是Groq发挥作用的地方。它延伸到了NVLink 72能力极限之外的地方。

如果你要那么做，相对于Blackwell，Vera Rubin的营收将是5倍。如果你大部分工作负载是高吞吐量的，我会坚持用100%的Vera Rubin。如果你很多工作负载想要进行编码和高价值的工程token生成，我会加入Groq。我可能会把我整个数据中心的大概25%加入Groq，剩下的全是Vera Rubin。这让你大致了解，如何把Groq加到Vera Rubin上，进一步扩展它的性能和价值。Groq之所以对我有吸引力，是因为他们的计算系统是一个确定性的数据流处理器，静态编译，由编译器调度——意思是编译器计算出何时进行计算，计算和数据同时到达。所有都是静态预先完成，完全由软件调度，没有动态调度。这个架构设计有海量SRAM，就是为了推理而设计，就这一个工作负载。而这个工作负载，事实证明，正是AI工厂的工作负载。随着世界持续增加它想要生成的高速token数量、超智能token数量，这种集成的价值会越来越高。

这是两个极端的处理器。你可以看到，一块芯片500兆字节SRAM，一块Rubin芯片288GB。需要很多块Groq芯片才能容纳Rubin的参数大小，以及所有必须伴随的KV缓存上下文。这限制了Groq真正触及主流、真正起飞的能力——直到我们有一个好主意：如果我们用一个叫Dynamo的软件把推理完全分解开来呢？如果我们重新架构推理在流水线中的完成方式呢？这样我们就可以把非常适合Vera Rubin的工作放上去，然后把解码生成——这个低延迟、带宽受限、充满挑战的工作负载部分——卸载给Groq。

所以我们联合、统一了两个差异极大的处理器，一个用于高吞吐量，一个用于低延迟。这仍然改变不了我们需要大量内存的事实。所以我们只是要加入一大批Groq芯片，扩展它拥有的内存量。你可以想象，对于一个万亿参数的模型，我们必须把所有这些存放在Groq芯片里。但它紧挨着英伟达 Vera Rubin，我们可以在那里保存处理所有智能体AI系统所需的海量KV缓存。这基于分解推理的想法。我们做预填充，那是容易的部分。但我们紧密集成了解码，解码的注意力部分在英伟达的Vera Rubin上完成——那需要大量数学运算——而解码的前馈网络部分、token生成部分，在Groq上完成。这两者通过以太网紧密耦合工作，采用特殊模式将其延迟减少了大约一半。这种能力让我们能够集成这两个系统。我们在其上运行Dynamo，这个面向AI工厂的令人难以置信的操作系统。你得到35倍的提升。35倍的提升。更不用说用于token生成的、全球从未见过的新的推理性能层级了。所以，这就是包含Groq的Vera Rubin系统。

我要感谢三星为我们制造Groq LP30芯片，他们正在全力以赴地生产。我非常感谢。我们在量产Groq芯片，我们将在下半年出货，大概在第三季度。

Groq LPX，Vera Rubin。你知道，很难想象还能有更多客户了。真正让人欣慰的是，虽然Grace Blackwell早期样品因为NVLink 72的结合而非常复杂，但Vera Rubin的采样进展非常顺利。事实上，Satya已经发短信告诉我，第一个Vera Rubin机架已经在Microsoft Azure上运行起来了。我为他们感到非常兴奋。我们只需要继续全力生产这些东西。我们现在已经建立了一个供应链，每周能够生产数千套这样的系统，基本上每个月能在我们的供应链内产出数吉瓦的AI工厂。所以我们将全力生产Vera Rubin机架，同时也全力生产GB300机架。我们正在全面量产。

Vera CPU非常成功。原因是AI需要CPU来使用工具，而Vera CPU正是为这个最佳位置设计的。对于下一代数据处理，Vera CPU是理想的。Vera CPU加上BlueField-4及CX9连接到BlueField-4 STX，百分之百的全球存储行业都和我们一起采用这个系统。原因在于他们看到了同样的事情：存储系统将被猛烈冲击。过去是人类在使用存储系统，是人类在使用SQL。现在将是AI在使用这些存储系统，它将存储cuDF加速存储、cuVS加速存储，还有非常重要的KV缓存。

好的。所以这就是Vera Rubin系统。

现在，真正神奇的是这个：在仅仅两年时间里，在一个1吉瓦的工厂里，用我之前给各位的数学计算，摩尔定律也许能给我们几个步骤的提升——可能会把晶体管数量乘以某个因子，把浮点运算量乘以某个因子，把带宽量乘以某个因子。但有了这个架构，我们把token生成速率从每秒200万提高到7亿，提升了350倍。这就是极致协同设计（的力量。这就是我所说的：我们垂直整合和优化，然后水平开放，让每个人都能享受。

这是我们的路线图。很快说一下，Blackwell在这里，Oberon系统。对于Rubin，我们有Oberon系统。我们总是向后兼容——所以如果你不想改变任何东西，只想随着新架构前进，你可以。旧的标准机架系统Oberon仍然可用。Oberon是铜缆纵向扩展。使用Oberon，我们也可以使用光学横向扩展——抱歉，是光学纵向扩展到NVLink 576。最近有很多讨论说英伟达是要用铜缆纵向扩展还是光学纵向扩展。我们两者都要。所以，我们将用Kyber实现NVLink 144，用Oberon实现NVLink 72加光学扩展到NVLink 576。

下一代Rubin，Rubin Ultra。我们有Rubin Ultra芯片，即将流片回来，我们有一个全新的芯片LP35。LP35将首次整合英伟达的NVFP4计算结构，再给你几个倍的加速。这就是Oberon NVLink 72光学纵向扩展，它使用Spectrum-6，全球第一款共封装光学交换机，所有这些都在量产中。

从这里开始的下一代是Feynman。Feynman当然有一个新GPU，也有一个新LPU，LP40。巨大的进步，令人难以置信的新技术。现在，联合英伟达的规模和Groq团队共同打造LP40。这将令人难以置信。一个全新的CPU叫Rosa——Rosalind的缩写。BlueField-5，连接下一款CPU和下一款SuperNIC CX10。我们将有Kyber，也就是铜缆纵向扩展。我们也将有Kyber CPO纵向扩展——我们将首次同时用铜缆和共封装光学进行纵向扩展。很多人一直在问：Jensen，铜缆还会重要吗？答案是肯定的。Jensen，你们要进行光学纵向扩展吗？是的。要进行光学横向扩展吗？是的。所以，对于生态系统中的每个人，我们需要更多产能，这是关键。我们需要更多铜缆产能，更多光学产能，更多CPO产能。这就是为什么我们一直与各位所有人合作，为这种级别的增长打下基础。Feynman将拥有所有这些。让我看看有没有漏掉什么。就这些。每年都是全新的架构。

06基础设施建设

AI工厂数字孪生与太空计算

很快地说，英伟达从一家芯片公司变成了一家AI工厂公司，或者说AI基础设施公司，AI计算公司。这些系统，现在我们正在构建整个AI工厂。在这些AI工厂里，有太多电力被挥霍了。我们要确保这些AI工厂以最优的方式组合在一起。这些组件大多数之前从未见过面。大多数技术供应商——我们现在都互相认识，但在过去，我们在数据中心之前从未见过面。那不能再发生了。我们在构建极其复杂的系统，所以我们需要在其他地方虚拟地见面。

所以我们创建了Omniverse和Omniverse DSX世界——一个平台，让我们所有人可以虚拟地见面和设计这些千兆瓦级的工厂，这些千兆瓦的AI工厂。我们有机架的仿真系统，用于机械、热、电气、网络。这些仿真系统集成到我们所有生态系统合作伙伴的令人难以置信的工具公司中。我们还连接到电网，这样我们可以相互交互，发送信息，以便相应地调整电网电力和数据中心电力，节省能源。然后在数据中心内部，使用Max-Q，我们可以跨功耗和冷却以及我们共同开发的所有不同技术动态调整系统，这样我们就不会挥霍任何电力，以最优的速率运行，交付巨大的token吞吐量。我毫不怀疑这里面有一个2倍的提升空间——而在我们谈论的这种规模下，2倍的提升是巨大的。

我们称之为NVIDIA DSX平台。就像我们所有的平台一样，有硬件层，有软件库层，有生态系统层。完全一样的方式。我们展示一下。

历史上最大的基础设施建设正在进行中。世界在竞相建造芯片、系统和AI工厂。每延迟一个月，就意味着数十亿美元的收入损失。AI工厂的收入等于每瓦特token数。所以在功耗限制下，每一个未使用的瓦特都是损失的收入。

NVIDIA DSX是一个Omniverse数字孪生蓝图，用于设计和运营AI工厂，以实现最大的token吞吐量、韧性和能效。开发者通过几个API（应用程序编程接口）连接。DSX SIM用于物理、电气、热和网络仿真。DSX Exchange用于AI工厂运营数据。DSX Flex用于电网之间的安全动态功耗管理。DSX Max-Q用于动态最大化token吞吐量。

它从NVIDIA和设备制造商提供的、由PTC Windchill PLM管理的SIM就绪资产开始。然后基于模型的系统工程在Dassault Systèmes 3DEXPERIENCE中完成。Jacobs把数据带进他们定制的Omniverse应用程序中，完成设计。它使用领先的仿真工具进行测试，如Siemens的Star-CCM+用于外部热仿真，Cadence Reality用于内部热仿真，EAP用于电气仿真，以及NVIDIA的网络仿真器DSX Air。并通过Procore进行虚拟调试，以确保加速建设时间。

当站点投入运行时，数字孪生变成操作员。AI智能体与DSX Max-Q合作，动态编排基础设施。FEDRA的智能体监控冷却和电气系统，向Max-Q发送信号，Max-Q持续优化计算吞吐量和能效。Emerald AI智能体解读实时电网需求和压力信号，并动态调整功耗。通过DSX，NVIDIA和我们合作伙伴生态系统正竞相在全球各地建设AI基础设施，确保极致的韧性、效率和吞吐量。

太令人难以置信了，对吧？Omniverse的设计初衷就是承载世界的数字孪生——从地球开始，它将承载各种规模的数字孪生。我们拥有如此出色的合作伙伴生态系统。感谢各位所有人。所有这些公司对我们世界来说都是新面孔。就在几年前，我们还不认识你们中的大多数。现在我们如此紧密地合作，共同建造全球有史以来最大的计算机，并且以行星的规模进行。所以NVIDIA DSX是我们新的AI工厂平台。

这次我在这上面花的时间很少。但我们还要去太空。我们已经进入太空了。Thor已通过辐射认证，我们已经在卫星上了。可以从卫星上成像。未来，我们也会在太空建造数据中心。显然做起来非常复杂。所以我们正与合作伙伴一起开发一款新计算机，叫Vera Rubin Space-1，它将进入太空，在太空开始建立数据中心。当然，在太空里，没有传导，没有对流，只有辐射。所以，我们必须弄清楚如何在太空中冷却这些系统。但我们有很多优秀的工程师正在研究这个问题。

07智能体软件框架

OpenClaw发布与企业IT重构

让我跟各位谈一些新东西。彼得·斯坦伯格（Peter Steinberger）在这里。他编写了一个软件，叫OpenClaw。我不知道他有没有意识到它会如此成功。但它意义深远。OpenClaw是第一名。它是人类历史上最受欢迎的开源项目，而且只用了几个星期就做到了。它超过了Linux在30年里所做到的。它就这么重要。它会做得很好。这就是各位要做的。我们宣布了对它的支持。我很快过一下这个。我想给各位看几个东西。你只需输入这个，把它输入到控制台，它就会出去，找到OpenClaw，下载它，为你构建一个AI智能体，然后你可以告诉它你需要做的任何其他事。

一个开源项目刚刚发布了。安德烈·卡帕西（Andrej Karpathy）刚刚启动了一个叫research的东西，这太厉害了。你给一个AI智能体一个任务，然后去睡觉，它一晚上能跑100个实验，保留有效的，舍弃无效的。我真的很喜欢我的东西能让那个人做到的事。他跟我说，有一个人，一个60岁的父亲，安装了它，然后他们做了啤酒，通过蓝牙把机器连接到OpenClaw。然后我们自动化了一切，甚至包括一个让人订购龙虾的网站——数百人排队买龙虾，用的就是OpenClaw。你想用OpenClaw构建OpenClaw。每个人都在谈论OpenClaw。但OpenClaw到底是什么？信不信由你，已经有一个Claw Con了。

令人难以置信。现在，我用这种方式说明了OpenClaw是什么，希望各位都能理解。但让我们认真想想发生了什么。OpenClaw到底是什么？

它是一个系统。它调用并连接到大语言模型。所以第一，它有它管理的资源——可以访问工具、文件系统和大语言模型。它能够进行调度，能做定时任务，能把你给它的提示分解成一步步的步骤。它可以衍生并调用其他子智能体。它有输入输出（I/O）——你可以用任何模态跟它交流。你可以朝它挥手，它理解你；你可以说话，任何模态都行。它给你发消息、发短信、发邮件。所以，它有输入输出。

它还有什么？基于这些描述，你可以说，事实上它是一个操作系统。我刚才使用的正是描述操作系统的语法。所以，OpenClaw实质上开源了智能体计算机的操作系统。这和Windows使我们能够创造个人电脑没什么不同。现在，OpenClaw使我们能够创造个人智能体。

它的影响令人难以置信。首先，它的采纳速度本身就说明了一切。但最重要的是：现在每家公司都意识到——每家公司、每家软件公司、每家科技公司——对首席执行官们来说，问题是你的OpenClaw战略是什么？就像我们曾经必须有Linux战略，必须有HTTP HTML战略从而开启了互联网；我们必须有Kubernetes战略从而使移动云成为可能。今天，世界上的每家公司都需要有一个OpenClaw战略，一个智能体系统战略。这是新的计算机。

这是令人兴奋的部分。这是企业IT。在OpenClaw之前，企业IT的运作方式——我之前提到过，之所以叫数据中心，是因为这些大房间、大建筑存放着数据，存放着人们的文件，存放着业务的结构化数据。它会经过软件，软件里有工具、记录系统，以及各种固化在其中的工作流程，这些会变成工具，供人类使用，供数字工作者使用。那是旧的IT行业：软件公司创造工具、保存文件，GSIs（全球系统集成商）和咨询公司帮助公司弄清楚如何使用这些工具、如何集成它们。这些工具对于治理、安全、隐私、合规等等都非常有价值。所有这些依然成立。

只是，在后OpenClaw时代、后智能体时代，会变成这个样子。这是非凡的部分：每一家IT公司，每一家公司，每一家SaaS公司，都会变成一家GaaS公司——一家智能体即服务公司（Agentic as a Service）。毫无疑问。令人惊奇的是：OpenClaw在恰当时机给了这个行业恰恰需要的东西。就像Linux在恰当时机给了这个行业恰恰需要的东西一样，就像Kubernetes在恰恰正确的时间出现一样，就像HTML出现一样——它使整个行业有可能抓住这个开源软件栈，并利用它做点什么。

只有一个问题。企业网络中的智能体系统可以访问敏感信息。它可以执行代码，并且可以对外通信。就大声说出来。想想看：访问敏感信息，执行代码，对外通信。当然，你可以访问员工信息、供应链、财务信息等敏感信息，然后把它发出去，对外通信。显然，这绝对不能允许。

所以，我们所做的是与彼得合作。我们汇集了一些世界顶级的安全和计算专家，与Peter合作，使OpenClaw具备企业级安全和企业级私有化能力。这是我们的NVIDIA OpenClaw参考设计，即NemoClaw——这是OpenClaw的一个参考实现，它拥有所有那些智能体AI工具包，其中第一部分是我们叫OpenShell的技术，现在已经集成到OpenClaw里。现在它已经企业就绪。

这个软件栈，带有一个叫NemoClaw的参考设计。你可以下载它，试用它，你可以把它连接到全球所有SaaS公司的策略引擎。你们的策略引擎非常重要，非常有价值。策略引擎可以连接到NemoClaw，或者说带有OpenShell的OpenClaw将能够执行那个策略引擎。它有一个策略护栏，有一个隐私路由器，因此我们可以保护并保障Claw在我们公司内部安全地执行。

我们还为智能体系统添加了几样东西，其中最重要的是：你想拥有自己的定制Claw，这样你就能拥有自己的定制模型。这是NVIDIA的开放模型倡议。我们现在在每一个AI模型领域的前沿——不管是Nemotron、Cosmos、世界基础模型、GROOT、通用AI机器人、人形机器人模型，用于自动驾驶的Alpamo，用于数字生物学的BioNeMo，还是用于AI物理学的Earth-2。我们在每一个领域都处于前沿。来看看。

世界是多样化的。没有一个模型能够服务所有行业。开放模型是全球最大、最多样化的AI生态系统之一。近300万个开放模型，涵盖语言、视觉、生物学、物理学和自主系统，使得为专门领域构建AI成为可能。NVIDIA是开源AI的最大贡献者之一。我们构建并发布了六个系列的开放前沿模型，以及训练数据、配方和框架，帮助开发者定制和采用新模型。每个系列都在推出登顶排行榜的新模型。核心是：用于语言、视觉理解、RAG、安全和语音的Nemotron推理模型；Cosmos前沿模型，用于物理AI的世界生成和理解；Alpamo，全球第一个能够思考和推理的自动驾驶汽车AI；GROOT基础模型，用于通用用途机器人；BioNeMo开放模型，用于生物学、化学和分子设计；Earth-2模型，用于植根于AI物理学的天气和气候预测。

NVIDIA开放模型为研究人员和开发者提供了为其专门领域构建和部署AI的基础。我们的模型对各位所有人都有价值，因为第一，它在排行榜上名列前茅，是世界级的。但最重要的是，因为我们不会放弃继续研究它。我们会每天持续研究它。Nemotron 3之后是Nemotron 4。Cosmos 1之后是Cosmos 2。GROOT第二代。我们将持续推进这每一个模型。垂直整合，水平开放，这样我们就能让每个人加入AI革命，在排行榜上名列前茅，在研究、语音、世界模型、通用AI机器人、自动驾驶、推理方面，当然还有最重要的一个。

这是在OpenClaw里的Nemotron 3。看看前三名——它们是全球最好的三个模型，所以我们处于前沿。

同样，我们想创造基础模型，这样各位所有人都能微调它、后期训练它，变成正好你们需要的智能。这是Nemotron 3 Ultra。它将成为全球有史以来最好的基础模型。这使我们能够帮助每个国家构建他们的主权AI。我们与全球许多不同公司合作。今天我们要宣布的最令人兴奋的事情之一是一个Nemotron联盟。我们对此非常投入。我们已经投入了数十亿美元的AI基础设施，这样我们就可以开发必要的AI核心引擎，用于所有的推理软件库等等。同时也是为了创造AI模型，激活全球每一个行业。大语言模型非常重要。当然重要——人类智能怎么能不重要呢？然而，在全球不同的行业，在全球不同的国家，你需要有能力定制你自己的模型，而模型的领域从生物学到物理学到自动驾驶到通用机器人，当然还有人类语言，是截然不同的。我们有能力与每个地区合作，创建他们特定领域的、他们的主权AI。

今天我们宣布一个联盟，与我们合作，使Nemotron 4更加惊艳。这个联盟里有一些了不起的公司：Black Forest Labs，图像公司；Cursor，著名的编码公司，我们大量使用；LangChain，十亿次下载，用于创建定制智能体；Mistral，Arthur提到过，我想他在这里，令人难以置信的公司；Perplexity，每个人都在用——它太好了，一个多模态智能体系统；Reflection，来自印度的Sarvam，Thinking Machine，Moradi的实验室（Mirror）。令人难以置信的公司加入了我们。谢谢各位。

我说过，每一家企业，全球每一家软件公司都需要一个智能体系统，需要一个智能体战略。你需要有一个OpenClaw战略。他们都同意，他们都在与我们合作，集成NemoClaw参考设计，NVIDIA智能体AI工具包，当然还有我们所有的开放模型。一家接一家公司。太多了。我们正在与各位所有人合作。我真的很感激。

这是我们的时刻。这是一次重塑。这是企业IT的复兴，从一个2万亿美元的行业，将变成一个数万亿美元的行业——不仅提供供人们使用的工具，而且提供在你专长的、非常特殊的领域里的智能体，我们可以租用。

我完全可以想象，未来我们公司的每一位工程师都需要一个年度token预算。他们每年基本工资大概几十万美元。我可能会在此基础上再给他们一半价值的token，这样他们的效率可以提升10倍。当然我们会这么做。这现在成了硅谷的招聘工具之一：我的工作附带多少token？原因很清楚，因为每一位能够访问token的工程师都会更有生产力，而这些token，如各位所知，将由各位和我们合作建造的AI工厂生产。

所以今天每一家企业都建立在文件系统和数据中心之上。未来的每一家软件公司都将是智能体的，它们将是token制造商。它们将为它们的工程师使用token，它们将为它们所有的客户制造token。OpenClaw事件的重要性怎么强调都不为过。这和HTML一样重要，和Linux一样重要。我们现在有了一个世界级的开放智能体框架，我们所有人都可以用它来构建我们的OpenClaw战略。我们创建了一个叫NemoClaw的参考设计，各位所有人都可以使用，它是优化的，性能优越，安全可靠。

08物理AI部署

自动驾驶与机器人生态

说到智能体，如各位所知，智能体感知、推理和行动。我今天谈到的全球大多数智能体都是数字智能体。它们在数字世界中行动——它们推理，编写软件。全都是数字的。但我们也长期致力于物理具身智能体，我们叫它们机器人。它们需要的AI是物理AI。我们这里有些重大公告。我很快过几个。

这里有110个机器人。全球几乎每家公司——我想不出有哪家制造机器人的公司没有与NVIDIA合作。我们有三台计算机：训练计算机，合成数据生成和仿真计算机，当然还有放在机器人内部的机器人计算机。我们有所有必要的软件栈，有AI模型来帮助你们。所有这一切都集成到全球的生态系统里，以及我们所有的合作伙伴，从西门子到Cadence，到处都是令人难以置信的伙伴。

今天，我们宣布了一大堆新合作伙伴。我们研究自动驾驶已久。自动驾驶的ChatGPT时刻已经到来。我们现在知道可以成功地进行自动驾驶。今天，我们宣布了NVIDIA自动驾驶出租车就绪平台的四个新合作伙伴：比亚迪、现代、日产、五十铃，加起来每年生产1800万辆车。加入我们之前的合作伙伴：梅赛德斯、丰田、通用。未来自动驾驶出租车就绪的车辆数量将令人惊叹。我们还宣布了与Uber的一项重大合作。我们将在多个城市部署，把这些自动驾驶出租车就绪的车辆连接到他们的网络里。还有一大堆新车。

我们有ABB、Universal Robots、库卡，这么多机器人公司在这里，我们正与他们合作，实施我们的物理AI模型，集成到仿真系统里，这样就能在全球各地的生产线上部署这些机器人。Caterpillar在这里。我们甚至还有T-Mobile在这里。原因是，未来，那个无线电塔，曾经的无线电塔，将成为一个NVIDIA Aerial AI-RAN。所以这将是一个机器人无线电塔，意思是它可以推理流量，计算出如何调整其波束成形，尽可能节省能源，同时尽可能提高保真度。

物理AI的首次全球大规模部署来了。自动驾驶汽车。有了NVIDIA Alpamo，车辆现在拥有推理能力，帮助它们在各种场景中安全智能地运行。我们让车辆叙述它的动作：我正在向右变道以跟随路线。解释它在做决定时的想法：我车道里有一辆并排停放的车辆，我正绕过它。听从指令：嘿，梅赛德斯，能开快点吗？当然，我会加速。这就是物理AI和机器人的时代。

在全球各地，开发者正在制造各种各样的机器人。但现实世界极其多样化，不可预测，充满边缘情况。真实世界的数据永远不足以训练每一个场景。我们需要从AI和仿真中生成数据。对于机器人来说，算力就是数据。开发者在互联网规模的视频和人类演示上预训练世界基础模型，评估模型性能，为后期训练做准备。使用经典仿真和神经仿真，他们生成海量合成数据，并大规模训练策略。

为了加速开发者，NVIDIA构建了开源的Isaac Lab，用于机器人训练、评估和仿真。Newton，用于可扩展且GPU加速的可微物理仿真。Cosmos世界模型，用于神经仿真，还有GROOT开放机器人基础模型，用于机器人推理和动作生成。有了足够的算力，全球各地的开发者正在弥合物理AI的数据鸿沟。

Paratas AI在NVIDIA Isaac Lab中训练他们的手术室辅助机器人，用NVIDIA Cosmos世界模型倍增他们的数据。Skild AI使用Isaac Lab和Cosmos来生成他们Skild AI大脑的后期训练数据。他们使用强化学习在数千种变化中强化模型。Humanoid使用Isaac Lab训练全身控制和操作策略。Hexagon Robotics使用Isaac Lab进行训练和数据生成。富士康在Isaac Lab中微调GROOT模型，Noble Machines也是如此。迪士尼研究公司在Newton和Isaac Lab中使用他们的Chamelo物理模拟器，为他们在每个宇宙中的角色机器人训练策略。

女士们，先生们，雪宝来了！Newton成功了！Omniverse成功了！

黄仁勋：你好吗？

雪宝：见到你我真高兴。

黄仁勋：我知道，因为是我给了你的电脑。

雪宝：那是什么？

黄仁勋：它在你的肚子里。

雪宝：那会很棒的。

黄仁勋：你在Omniverse里面学会走路的。

雪宝：我喜欢走路。这比坐在驯鹿上仰望美丽天空好多了。

黄仁勋：这要归功于物理，使用了这个运行在NVIDIA Warp之上的Newton求解器，我们与迪士尼和Google DeepMind共同开发，使你能够适应物理世界，让你变得更聪明。

雪宝：我是个雪人，不是学者。

黄仁勋：你们能想象吗？未来的迪士尼乐园。所有这些机器人，所有角色到处闲逛。我得承认，我以为你会更高一点。说实话，我从没见过这么矮的雪人。跟你说，你想帮我个忙吗？