黄仁勋GTC演讲全文：推理时代到来，2027营收至少万亿美元，龙虾就是新操作系统|英伟达|gpu|nvidia

分享至

2026年3月16日，英伟达GTC 2026大会正式开幕，英伟达创始人兼CEO黄仁勋发表了主题演讲。

在这场被视为“AI行业年度朝圣”的大会上，黄仁勋阐述了英伟达从一家“芯片公司”向“AI基础设施和工厂公司”的蜕变。面对市场最关心的业绩持续性与增长空间问题，黄仁勋详细拆解了驱动未来增长的底层商业逻辑——“Token工厂经济学”。

业绩指引极度乐观，“2027年至少1万亿美元的需求”

过去两年，全球AI计算需求呈指数级爆炸。随着大模型从“感知”、“生成”进化到“推理”与“行动（执行任务）”，算力的消耗量急剧攀升。针对市场高度关注的订单与营收天花板，黄仁勋给出了极为强劲的预期。

黄仁勋在演讲中直言：

去年这个时候，我说过，我们看到了5000亿美元的高确信度需求，覆盖Blackwell和Rubin直到2026年。现在，就在此时此地，我看到到2027年至少有1万亿美元的需求（at least $1 trillion）。

黄仁勋的万亿预期一度推动英伟达股价涨超4.3%。

不仅如此，他更是对这一数字做出了补充：

这合理吗？这就是我接下来要讲的。事实上，我们甚至会供不应求。我确定，实际的计算需求会比这高得多。

黄仁勋指出，如今的英伟达系统已经证明了自己是全球“成本最低的基础设施”。由于英伟达能运行几乎所有领域的AI模型，这种通用性使得客户投入的这1万亿美元能够被充分利用并保持长久的生命周期。

目前，英伟达60%的业务来自排名前五的超大型云服务商，而另外40%的业务则广泛分布于主权云、企业、工业、机器人和边缘计算等各个领域。

Token工厂经济学，每瓦性能决定商业命脉

为了解释这1万亿需求的合理性，黄仁勋向全球企业CEO展示了一套全新的商业思维。他指出，未来的数据中心不再是存储文件的仓库，而是生产Token（AI生成的基本单位）的“工厂”。

黄仁勋强调：

每一座数据中心、每一座工厂，从定义上来说都是受电力限制的。一座1GW（吉瓦）的工厂永远不会变成2GW，这是物理和原子的定律。在固定的功率下，谁的每瓦Token吞吐量最高，谁的生产成本就最低。

黄仁勋将未来的AI服务分为四个商业层级：

免费层（高吞吐、低速度）
中级层（~每百万token 3美元）
高级层（~每百万token 6美元）
高速层（~每百万token 45美元）
超高速层（~每百万token 150美元）

他指出，随着模型越来越大、上下文越来越长，AI会变得更聪明，但Token的生成速率会降低。黄仁勋表示：

在这个Token工厂里，你的吞吐量和Token生成速度，将直接转化为你明年的精确收入。

黄仁勋强调英伟达的架构能够让客户在免费层实现极高的吞吐量，同时在最高价值的推理层级上，将性能提升惊人的35倍。

Vera Rubin两年实现350倍加速，Groq填补极速推理

在这个物理极限的约束下，英伟达介绍其有史以来最复杂的AI计算系统，Vera Rubin。黄仁勋表示：

过去提到Hopper，我会举起一块芯片，那很可爱。但提到Vera Rubin，大家想到的是整个系统。在这个100%液冷、完全消灭了传统线缆的系统中，过去需要两天安装的机架，现在只需两小时。

黄仁勋指出，通过极致的端到端软硬件协同设计，Vera Rubin在同一座1GW数据中心里创造了惊人的数据跨越：

在短短两年时间内，我们将Token的生成速率从2200万提升到了7亿，实现了350倍的增长。摩尔定律在同时期仅能带来约1.5倍的提升。

为了解决极速推理（如1000 Tokens/秒）条件下的带宽瓶颈，英伟达给出了整合被收购公司Groq的最终方案：非对称式的分离推理。黄仁勋解释：

这两款处理器的特点截然不同。Groq芯片拥有500MB的SRAM，而一颗Rubin芯片拥有288GB的内存。

黄仁勋指出，英伟达通过Dynamo软件系统，将需要海量计算和显存的“预填充（Pre-fill）”阶段交给Vera Rubin，将对延迟极度敏感的“解码”阶段交给Groq。黄仁勋还对企业算力配置给出了建议：

如果你的工作主要是高吞吐，100%使用Vera Rubin；如果你有大量高价值的编程级别的Token生成需求，拿出25%的数据中心规模给Groq。

据透露，由三星代工的Groq LP30芯片已在量产，预计第三季度出货，而首个Vera Rubin机架已在微软Azure云上运行。

此外，针对光互联技术，黄仁勋展示了全球首款量产的共封装光学（CPO）交换机Spectrum X，并平息了市场对于“铜退光进”的路线之争：

我们需要更多的铜缆产能，更多的光芯片产能，更多的CPO产能。

Agent终结传统SaaS，“年薪+Token”成硅谷标配

除了硬件壁垒，黄仁勋把大量篇幅留给了AI软件和生态的革命，特别是Agent（智能体）的爆发。

他将开源项目OpenClaw形容为“人类历史上最受欢迎的开源项目”，称其仅用几周时间就超越了Linux在过去30年取得的成就。黄仁勋直言，OpenClaw本质上就是Agent计算机的“操作系统”。

黄仁勋断言：

每一个SaaS（软件即服务）公司都将变成AaaS（Agent-as-a-Service，智能体即服务）公司。毫无疑问，为了让这种具备访问敏感数据和执行代码能力的智能体安全落地，英伟达推出了企业级的NeMo Claw参考设计，增加了策略引擎和隐私路由器。

对于普通职场人，这场变革同样近在咫尺。黄仁勋描绘了未来的职场新形态：

在未来，我们公司的每一位工程师都需要一个年度Token预算。他们的基础年薪可能是几十万美元，我会在此基础上再拿出大约一半的金额作为Token额度给他们，让他们实现10x的效率提升。这已经是硅谷的新招聘筹码了：你的offer里带多少Token？

演讲最后，黄仁勋还“剧透”了下一代计算架构Feynman，它将首次实现铜线与CPO的共同水平扩展。更引人遐想的是，英伟达正在研发部署在太空的数据中心计算机“Vera Rubin Space-1”，彻底打开了AI算力向地球之外延伸的想象空间。

黄仁勋GTC 2026演讲全文，全文翻译如下（AI工具辅助）：

主持人：欢迎英伟达创始人兼首席执行官黄仁勋上台。
黄仁勋，创始人兼首席执行官：
欢迎来到GTC。我想提醒大家，这是一场技术大会。能看到这么多人一大早排队入场，能看到在座的各位，我感到非常高兴。
在GTC，我们将聚焦三大主题：技术、平台和生态系统。英伟达目前拥有三大平台：CUDA-X平台、系统平台，以及我们最新推出的AI工厂平台。
在正式开始之前，我要感谢我们的预热环节主持人——Conviction的Sarah Guo、红杉资本的Alfred Lin（英伟达的第一位风险投资人），以及英伟达的第一位主要机构投资人Gavin Baker。这三位对技术有深刻的洞见，在整个技术生态系统中拥有极广的影响力。当然，我还要感谢今天所有我亲自邀请出席的贵宾们。感谢这支全明星团队。
我同样要感谢今天到场的所有企业。英伟达是一家平台公司，我们拥有技术、平台和丰富的生态系统。今天到场的企业代表了价值100万亿美元行业中几乎全部的参与者，共有450家公司赞助了本次活动，在此深表感谢。
本次大会共设有1,000场技术论坛、2,000位演讲嘉宾，将覆盖人工智能"五层蛋糕"架构的每一个层级——从土地、电力与机房等基础设施，到芯片、平台、模型，以及最终推动整个行业腾飞的各类应用。
CUDA：二十年的技术积淀
一切的起点，就在这里。今年是CUDA诞生二十周年。
二十年来，我们始终致力于这一架构的研发。CUDA是一项革命性的发明——SIMT（单指令多线程）技术允许开发者以标量代码编写程序，并将其扩展为多线程应用，其编程难度远低于此前的SIMD架构。我们最近还新增了Tiles功能，帮助开发者更便捷地编程张量核心（Tensor Core），以及当今人工智能所依赖的各类数学运算结构。目前，CUDA已拥有数千种工具、编译器、框架和库，在开源社区中存在数十万个公开项目，并已深度集成到每一个技术生态系统之中。
这张图表揭示了英伟达100%的战略逻辑，我从最初就一直在讲这张幻灯片。其中最难实现、也是最核心的要素，是图表底部的"装机量"。历经二十年，我们已在全球范围内积累了数亿块运行CUDA的GPU和计算系统。
我们的GPU覆盖所有云平台，服务于几乎所有计算机厂商和行业。CUDA庞大的装机量，正是这个飞轮不断加速的根本原因。装机量吸引开发者，开发者创造新算法并取得突破，突破催生全新市场，新市场形成新生态并吸引更多企业加入，进而扩大装机量——这个飞轮正在持续加速。
英伟达库的下载量正以惊人的速度增长，规模庞大且增速不断提升。这个飞轮使我们的计算平台能够支撑海量应用和层出不穷的新突破。
更重要的是，它还赋予了这些基础设施极长的使用寿命。原因显而易见：NVIDIA CUDA上可运行的应用极为丰富，涵盖AI生命周期的每个阶段、各类数据处理平台，以及各种科学原理求解器。因此，一旦安装了英伟达GPU，其实际使用价值极高。这也是为何我们六年前发布的Ampere架构GPU，其云端价格反而在上涨。
这一切的根本原因在于：装机量庞大，飞轮强劲，开发者生态广泛。当这些因素共同发挥作用，加之我们持续更新软件，计算成本便会不断下降。加速计算在大幅提升应用性能的同时，随着我们长期维护和迭代软件，用户不仅能在初期获得性能跃升，还能持续享受计算成本的下降。我们愿意为全球每一块GPU提供长期支持，因为它们在架构上完全兼容。
我们之所以愿意这样做，是因为装机量如此庞大——每发布一次新的优化，便能惠及数百万用户。这种动态组合，使得英伟达架构在持续扩大覆盖范围、加速自身成长的同时，不断压低计算成本，最终刺激新的增长。CUDA是这一切的核心。
从GeForce到CUDA：二十五年的演进之路
而我们与CUDA的旅程，实际上早在二十五年前就已开始。
GeForce——相信在座有很多人是伴随着GeForce长大的。GeForce是英伟达最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户，年复一年地购买我们的产品，直到有一天，你们成长为优秀的计算机科学家，成为真正意义上的客户和开发者。
这是二十五年前GeForce奠定的基业。二十五年前，我们发明了可编程着色器——这是让加速器实现可编程化的一项显而易见却意义深远的发明，也是世界上第一款可编程加速器，即像素着色器。这五年后，我们创造了CUDA——这是我们有史以来最重要的投资之一。当时公司财力有限，但我们将绝大部分利润押注于此，致力于将CUDA从GeForce延伸到每一台计算机。我们之所以如此坚定，是因为我们深信其潜力。尽管初期历经艰辛，公司坚守这一信念长达13代、整整二十年，如今CUDA已无处不在。
正是像素着色器推动了GeForce的革命。而大约八年前，我们推出了RTX——为现代计算机图形时代对架构进行了全面革新。GeForce将CUDA带给了全世界，也正因如此，让Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton、Andrew Ng等众多学者发现，GPU可以成为加速深度学习的利器，由此点燃了十年前人工智能的大爆炸。
十年前，我们决定将可编程着色与两个全新理念相融合：一是硬件光线追踪（Ray Tracing），这在技术上极具挑战；二是一个当时颇具前瞻性的想法——大约十年前，我们就预见到AI将彻底变革计算机图形。正如GeForce将AI带给了全世界，AI如今也将反过来重塑整个计算机图形的实现方式。
今天，我要向大家展示未来。这是我们的下一代图形技术，我们称之为神经渲染（Neural Rendering）——3D图形与人工智能的深度融合。这就是DLSS 5，请看。
神经渲染：结构化数据与生成式AI的融合
这是不是令人叹为观止？计算机图形就此焕发生机。
我们做了什么？我们将可控的3D图形（虚拟世界的真实基础）与其结构化数据相结合，再融入生成式AI和概率计算。一个完全确定性，另一个概率性却高度逼真——我们将这两种理念融为一体，通过结构化数据实现精准可控，同时进行实时生成。最终，内容既美观惊艳，又完全可控。
结构化信息与生成式AI融合这一理念，将在一个又一个行业中不断复现。结构化数据是可信AI的基石。
结构化数据与非结构化数据的加速平台
现在我要带大家看一张技术架构图。
结构化数据——大家熟悉的SQL、Spark、Pandas、Velox，以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google BigQuery等重要平台，都在处理数据框（Data Frame）。这些数据框就像巨型电子表格，承载着商业世界的全部信息，是企业计算的基本事实（Ground Truth）。
在AI时代，我们需要让AI来使用结构化数据，并对其实现极致加速。过去，加速结构化数据处理是为了让企业更高效地运转。而未来，AI将以远超人类的速度使用这些数据结构，AI智能体也将大量调用结构化数据库。
非结构化数据方面，向量数据库、PDF、视频、音频等构成了世界上绝大多数的数据形态——每年生成的数据中，约90%是非结构化数据。过去，这些数据几乎完全无法被利用：我们读取它们，存入文件系统，仅此而已。我们无法查询，也难以检索，原因在于非结构化数据缺乏简单的索引方式，必须理解其含义与语境。而现在，AI可以做到这一点——借助多模态感知与理解技术，AI能够读取PDF文档、理解其含义，并将其嵌入可供查询的更大结构之中。
英伟达为此创建了两个基础库：
cuDF：用于数据框、结构化数据的加速处理
cuVS：用于向量存储、语义数据和非结构化AI数据的处理
这两个平台将成为未来最重要的基础平台之一。
今天，我们宣布与多家企业达成合作。IBM——SQL语言的发明者，将使用cuDF加速其WatsonX Data平台。Dell与我们联合打造了Dell AI数据平台，整合cuDF与cuVS，并在NTT Data的实际项目中实现了大幅性能提升。Google Cloud方面，我们现在不仅加速Vertex AI，还加速BigQuery，并与Snapchat合作将其计算成本降低了近80%。
加速计算带来的好处是三位一体的：速度、规模、成本。这与摩尔定律的逻辑一脉相承——通过加速计算实现性能飞跃，同时持续优化算法，让所有人都能享受到持续下降的计算成本。
英伟达构建了加速计算平台，其上汇聚了众多库：RTX、cuDF、cuVS等等。这些库整合进全球云服务和OEM体系，共同触达全球用户。
与云服务商的深度合作
与主要云服务商的合作
Google Cloud：我们加速Vertex AI和BigQuery，与JAX/XLA深度集成，同时在PyTorch上表现卓越——英伟达是全球唯一一家在PyTorch和JAX/XLA上均表现出色的加速器。我们将Base10、CrowdStrike、Puma、Salesforce等客户引入Google Cloud生态。
AWS：我们加速EMR、SageMaker和Bedrock，与AWS有着深度集成。今年令我格外兴奋的是，我们将把OpenAI引入AWS，这将大幅推动AWS云计算的消耗增长，帮助OpenAI扩展区域部署和计算规模。
Microsoft Azure：英伟达100 PFLOPS超算是我们构建的第一台超级计算机，也是第一台部署在Azure上的超算，这奠定了与OpenAI合作的重要基础。我们加速Azure云服务和AI Foundry，合作推进Azure区域扩展，并在Bing搜索上深度协作。值得一提的是，我们的**保密计算（Confidential Computing）**能力——确保即便是运营商也无法查看用户数据和模型——英伟达GPU是全球首批支持保密计算的GPU，可支持OpenAI和Anthropic模型在全球各地区云环境中的保密部署。以Synopsys为例，我们加速其全部EDA和CAD工作流，并部署于Microsoft Azure。
Oracle：我们是Oracle的第一个AI客户，我为能够第一次向Oracle解释AI云的概念感到自豪。此后他们发展迅猛，我们也为其引入了Cohere、Fireworks、OpenAI等众多合作伙伴。
CoreWeave：全球第一家AI原生云，专为GPU托管和AI云服务而生，拥有出色的客户群，增长势头强劲。
Palantir + Dell：三方联合打造了全新的AI平台，基于Palantir的本体论平台（Ontology Platform）和AI平台，可在任何国家、任何气隙隔离环境下、完全本地化地部署AI——从数据处理（向量化或结构化）到AI的完整加速计算栈，无所不包。
英伟达与全球云服务商建立了这种特殊的合作关系——我们将客户引入云端，这是一种互利共赢的生态。
垂直整合，横向开放：英伟达的核心战略
英伟达是全球第一家垂直整合、横向开放的公司。
这一模式的必要性非常简单：加速计算不是芯片问题，也不是系统问题，其完整表述应为应用加速。CPU可以让计算机整体运行得更快，但这条路已走到瓶颈。未来，唯有通过应用或领域特定的加速，才能持续带来性能飞跃和成本下降。
这正是英伟达必须深耕一个又一个库、一个又一个领域、一个又一个垂直行业的原因。我们是一家垂直整合的计算公司，没有其他路可走。我们必须理解应用，理解领域，深刻理解算法，并能够将其部署在任何场景下——数据中心、云端、本地、边缘乃至机器人系统。
同时，英伟达保持横向开放，愿意将技术整合进任何合作伙伴的平台，让全世界都能享受到加速计算的红利。
本届GTC的参会者结构充分体现了这一点。本次参会者中，金融服务行业的比例最高——希望来的是开发者，不是交易员。我们的生态系统覆盖了上游和下游供应链。无论是成立50年、70年还是150年的企业，去年都迎来了历史最佳年份。我们正处于某件非常、非常重大的事情的起点。
CUDA-X：各行业的加速计算引擎
在各个垂直领域，英伟达均已深度布局：
自动驾驶：覆盖范围广泛，影响深远
金融服务：量化投资正从人工特征工程转向超级计算机驱动的深度学习，迎来其"Transformer时刻"
医疗健康：正在迎来属于自己的"ChatGPT时刻"，涵盖AI辅助药物发现、AI智能体支持诊断、医疗客服等方向
工业：全球规模最大的建设浪潮正在展开，AI工厂、芯片厂、数据中心厂纷纷落地
娱乐与游戏：实时AI平台支持翻译、直播、游戏互动，以及智能购物代理
机器人：深耕十余年，三大计算机架构（训练计算机、仿真计算机、机载计算机）齐备，本次展会共有110款机器人亮相
电信：约2万亿美元规模的行业，基站将从单一通信功能演进为AI基础设施平台，相关平台名为Aerial，与诺基亚、T-Mobile等企业均有深度合作
以上所有领域的核心，正是我们的CUDA-X库——这是英伟达作为算法公司的根本所在。这些库是公司最核心的资产，让计算平台得以在各个行业发挥实际价值。
其中最重要的库之一，是cuDNN（CUDA深度神经网络库），它彻底革新了人工智能，引发了现代AI的大爆炸。
（播放CUDA-X演示视频）
大家刚才看到的一切都是仿真——包括基于物理原理的求解器、AI代理物理模型，以及物理AI机器人模型。一切均为仿真，没有任何手工动画或关节绑定。这正是英伟达的核心能力所在：通过对算法的深刻理解与计算平台的有机结合，解锁这些机遇。
AI原生企业与新计算时代
你们刚才看到了沃尔玛、欧莱雅、摩根大通、罗氏、丰田等定义当今社会的行业巨头，也有一大批大家从未听说过的公司——我们称之为AI原生企业。这份名单极为庞大，里面有OpenAI、Anthropic，以及众多服务于不同垂直领域的新兴企业。
过去两年，这一行业经历了惊人的腾飞。风险投资流入初创企业的资金规模达到1,500亿美元，创人类历史之最。更重要的是，单笔投资规模首次从数百万美元跃升至数亿乃至数十亿美元。原因只有一个：这是史上第一次，每一家此类公司都需要大量计算资源和大量token。这个行业正在创造、生成token，或者为来自Anthropic、OpenAI等机构的token增值。
正如PC革命、互联网革命、移动云革命各自孕育出一批划时代的企业，这一代计算平台变革同样将诞生一批极具影响力的公司，成为未来世界的重要力量。
推动这一切的三大历史性突破
过去两年究竟发生了什么？三件大事。
第一：ChatGPT，开启生成式AI时代（2022年底至2023年）
它不仅能感知和理解，还能生成独特内容。我展示了生成式AI与计算机图形的融合。生成式AI从根本上改变了计算的方式——计算从检索式转变为生成式，这深刻影响着计算机架构、部署方式和整体意义。
第二：推理AI（Reasoning AI），以o1为代表
推理能力使AI能够自我反思、规划、分解问题——将它无法直接理解的问题拆解为可处理的步骤。o1让生成式AI变得可信，能够依据真实信息进行推理。为此，输入context的token量和用于思考的输出token量大幅增加，计算量随之显著提升。
第三：Claude Code，首个智能体模型
它能读取文件、编写代码、编译、测试、评估并迭代。Claude Code彻底革新了软件工程——英伟达100%的工程师都在使用Claude Code、Codex和Cursor中的一种或多种，没有一位软件工程师不借助AI助力。
这是一个全新的拐点——你不再是询问AI"是什么、在哪里、怎么做"，而是让它"创建、执行、构建"，让它主动使用工具、读取文件、分解问题、付诸行动。AI从感知，到生成，到推理，再到如今真正能够完成工作。
过去两年，推理所需的计算量增长了约10,000倍，使用量增长了约100倍。我一直认为，过去两年计算需求增长了100万倍——这是所有人的共同感受，是OpenAI的感受，是Anthropic的感受。如果能获得更多算力，就能生成更多token，收入就会提升，AI就会变得更智能。推理拐点已然到来。
万亿美元的AI基础设施时代
去年此时，我在这里表示，我们对Blackwell和Rubin在2026年之前的需求和采购订单有高度信心，规模约为5,000亿美元。今天，在GTC一年之后，我站在这里告诉大家：展望到2027年，我看到的数字至少是1万亿美元。而且我确信，实际的计算需求将远不止于此。
2025：英伟达推理年
2025年是英伟达的推理年（Year of Inference）。我们希望确保，在训练和后训练之外，也能在AI生命周期的每个阶段都保持卓越，使已投资的基础设施能够持续高效运转，且有效使用寿命越长，单位成本越低。
与此同时，Anthropic和Meta正式加入NVIDIA平台，与此共同代表了全球三分之一的AI算力需求。开源模型已接近前沿水平，无处不在。
英伟达是目前全球唯一一个能够运行所有AI领域——语言、生物学、计算机图形、计算机视觉、语音、蛋白质与化学、机器人等——所有AI模型的平台，无论边缘还是云端，无论何种语言。英伟达架构对所有这些场景均具备通用性，这使我们成为成本最低、置信度最高的平台。
目前，英伟达60%的业务来自全球前五大超大规模云服务商，剩余40%遍布区域云、主权云、企业、工业、机器人、边缘计算等各个领域。AI的覆盖广度本身就是其韧性所在——这毫无疑问是一次全新的计算平台变革。
Grace Blackwell与NVLink 72：大胆的架构革新
在Hopper架构还处于鼎盛时期，我们就决定彻底重新架构系统，将NVLink从8路扩展为NVLink 72，对计算系统进行全面分解重构。Grace Blackwell NVLink 72是一次巨大的技术押注，对所有合作伙伴而言都不容易，在此向所有人表示诚挚感谢。
同时，我们推出了NVFP4——不只是普通的FP4，而是一种全新类型的张量核心和计算单元。我们已经证明，NVFP4可以在无精度损失的情况下实现推理，同时带来巨大的性能提升和能效提升，并且同样适用于训练。此外，Dynamo和TensorRT-LLM等一系列新算法相继问世，我们甚至为优化内核而专门投入数十亿美元建造了一台超级计算机，称之为DGX Cloud。
结果证明，我们的推理性能令人瞩目。来自Semi Analysis的数据——这是迄今为止最全面的AI推理性能评测——显示英伟达在每瓦token数和每token成本两个维度上均遥遥领先。原本摩尔定律可能给H200带来1.5倍的性能提升，但我们做到了35倍。Semi Analysis的Dylan Patel甚至说："黄仁勋保守了，实际上是50倍。"他说得没错。
我在此援引他的话："Jensen sandbagged（黄仁勋保守报数）。"
英伟达的每token成本是全球最低，目前无人能及。原因正在于极致协同设计（Extreme Co-design）。
以Fireworks为例，在英伟达更新全套软件和算法之前，其平均token速度约为每秒700个；更新后接近每秒5,000个，提升约7倍。这就是极致协同设计的力量。
AI工厂：从数据中心到token工厂
数据中心过去是存储文件的地方，现在它是生产token的工厂。每一家云服务商、每一家AI公司，未来都将以"token工厂效率"作为核心经营指标。
这是我的核心论点：
纵轴：吞吐量（Throughput）——在固定功率下每秒生成的token数
横轴：交互速度（Token Speed）——每次推理的响应速度，速度越快，可使用的模型越大、context越长，AI越智能
token是新的大宗商品，一旦成熟，将分层定价：
免费层（高吞吐、低速度）
中级层（~每百万token 3美元）
高级层（~每百万token 6美元）
高速层（~每百万token 45美元）
超高速层（~每百万token 150美元）
与Hopper相比，Grace Blackwell在最高价值层提升了35倍吞吐量，并引入全新层级。以简化模型估算，将25%功率分别分配给四个层级，Grace Blackwell可比Hopper多产生5倍的收入。
Vera Rubin：下一代AI计算系统
（播放Vera Rubin系统介绍视频）
Vera Rubin是一个完整的、端到端优化的系统，专为智能体（Agentic）工作负载设计：
大型语言模型计算核心：NVLink 72 GPU集群，处理前填充（Prefill）和KV Cache
全新Vera CPU：专为极高单线程性能设计，采用LPDDR5内存，兼具卓越能效，是全球唯一使用LPDDR5的数据中心CPU，适合AI智能体工具调用
存储系统：BlueField 4 + CX 9，面向AI时代的全新存储平台，全球存储行业100%加入
CPO Spectrum X交换机：全球首款共封装光学以太网交换机，已全面量产
Kyber机架：全新机架系统，支持144块GPU组成单一NVLink域，前端计算、后端NVLink交换，形成一台巨型计算机
Rubin Ultra：下一代超算节点，竖插式设计，配合Kyber机架，支持更大规模NVLink互联
Vera Rubin已100%液冷，安装时间从两天缩短至两小时，采用45°C热水冷却，大幅降低数据中心冷却压力。这次Satya（纳德拉）已发文确认，首台Vera Rubin机架已在微软Azure上线运行，我为此深感振奋。
Groq整合：推理性能的极致延伸
我们收购了Groq团队并获得其技术授权。Groq是一种确定性数据流处理器（Deterministic Dataflow Processor），采用静态编译和编译器调度，拥有大量SRAM，专为推理单一工作负载优化，具备极低延迟和极高token生成速度。
然而，Groq的内存容量有限（500MB片上SRAM），难以独立承载大模型的参数和KV Cache，限制了其大规模应用。
解决方案正是Dynamo——一套推理调度软件。我们通过Dynamo将推理管线解聚（Disaggregate）：
**前填充（Prefill）及注意力机制的解码（Decode）**在Vera Rubin上完成（需要大量算力和KV Cache存储）
**前馈网络解码（Feed-Forward Network Decode）**即token生成部分，在Groq上完成（需要极高带宽和低延迟）
两者通过以太网紧密耦合，借助特殊模式将延迟减少约一半。在Dynamo这一"AI工厂操作系统"的统一调度下，整体性能提升35倍，并开辟了NVLink 72此前无法触及的全新推理性能层级。
Groq与Vera Rubin的组合建议：
若工作负载以高吞吐为主，使用100% Vera Rubin
若大量工作负载为代码生成等高价值token生成，可引入Groq，建议比例约为25% Groq + 75% Vera Rubin
Groq LP30由三星代工，目前已进入量产，预计Q3开始出货。感谢三星的全力配合。
推理性能的历史性飞跃
将此前技术进步量化：在2年时间内，1吉瓦AI工厂的token生成速率将从2,200万token/秒提升至7亿token/秒，提升350倍。这就是极致协同设计的力量。
技术路线图
Blackwell：当前在产，Oberon标准机架系统，铜缆扩展至NVLink 72，可选光学扩展至NVLink 576
Vera Rubin（当前）：Kyber机架，NVLink 144（铜缆）；Oberon机架，NVLink 72 + 光学，扩展至NVLink 576；Spectrum 6，全球首款CPO交换机
Vera Rubin Ultra（即将推出）：新一代Rubin Ultra GPU，LP35芯片（首次集成NVFP4），进一步提升数倍性能
Feynman（下一代）：全新GPU，LP40芯片（由英伟达与Groq团队联合打造，集成NVFP4）；全新CPU——Rosa（Rosalyn）；BlueField 5；CX 10；同时支持铜缆和CPO两种扩展方式的Kyber机架
路线图明确：铜缆扩展、光学扩展（Scale-Up）、光学扩展（Scale-Out）三条路线并行推进，我们需要所有合作伙伴在铜缆、光纤和CPO方面持续扩产。
NVIDIA DSX：AI工厂的数字孪生平台
AI工厂越来越复杂，但组成它的各类技术供应商过去从未在设计阶段相互协作，直到在数据中心才"相遇"——这显然不够。
为此，我们创建了Omniverse，以及基于其上的NVIDIA DSX平台——一个供所有合作伙伴在虚拟世界中共同设计和运营吉瓦级AI工厂的平台。DSX提供：
机架级机械、热学、电气、网络仿真系统
与电网的连接，实现协同节能调度
数据中心内基于Max-Q的动态功耗和冷却优化
保守估计，这套系统可将能源利用效率提升约2倍，在我们谈论的规模上，这是非常可观的收益。Omniverse从数字地球开始，将承载各种规模的数字孪生，我们正与全球合作伙伴共同构建人类历史上最大的计算机。
此外，英伟达正在进军太空。Thor芯片已通过辐射认证，正在卫星中运行。我们正与合作伙伴开发Vera Rubin Space-1，用于建设太空数据中心。在太空中只能依靠辐射散热，热管理是核心挑战，我们正集结顶尖工程师攻关。
OpenClaw：智能体时代的操作系统
Peter Steinberger开发了一款名为OpenClaw的软件。这是人类历史上最受欢迎的开源项目，在短短几周内便超越了Linux三十年的成就。
OpenClaw本质上是一个智能体系统（Agentic System），能够：
管理资源，访问工具、文件系统和大型语言模型
执行调度、定时任务
将问题逐步分解，并调用子智能体
支持任意模态的输入输出（语音、视频、文字、邮件等）
用操作系统的语法来描述，它确实就是一个操作系统——智能体计算机的操作系统。Windows让个人计算机成为可能，OpenClaw让个人智能体成为可能。
每一家企业都需要制定自己的OpenClaw战略，正如我们都需要Linux策略、HTML策略、Kubernetes策略一样。
企业IT的全面重塑
OpenClaw之前的企业IT：数据和文件进入系统，流经工具和工作流，最终变成供人类使用的工具。软件公司创建工具，系统集成商（GSI）和咨询公司帮助企业使用这些工具。
OpenClaw之后的企业IT：每一家SaaS公司都将转变为AaaS（Agentic as a Service，智能体即服务）公司——不只是提供工具，而是提供专精特定领域的AI智能体。
但这里有一个关键挑战：企业内部的智能体可以访问敏感数据、执行代码、与外部通信。这在企业环境中必须得到严格管控。
为此，我们与Peter合作，将安全性融入企业级版本，推出了：
NeMo Claw（参考设计）：基于OpenClaw的企业级参考框架，集成NVIDIA的全套智能体AI工具包
Open Shield（安全层）：已集成至OpenClaw，提供策略引擎、网络护栏、隐私路由，确保企业数据安全
NeMo Cloud：可下载使用，并与所有SaaS企业的策略引擎对接
这是企业IT的文艺复兴，一个原本2万亿美元规模的产业，即将成长为数万亿美元规模，从提供工具转向提供专业化的AI智能体服务。
我完全可以预见：未来，公司里的每一位工程师都将拥有年度token预算。他们年薪可能是几十万美元，我会额外给他们相当于薪资一半的token配额，让他们的产出放大10倍。"入职附带多少token配额"已经成为硅谷的新晋招聘话题。
每一家企业未来都将既是token的使用者（供工程师使用），也是token的生产者（为其客户提供服务）。OpenClaw的意义不可低估，它和HTML、Linux一样重要。
NVIDIA开放模型倡议
在自定义智能体（Custom Claw）方面，我们提供了NVIDIA自研的前沿模型：
模型领域Nemotron大型语言模型Cosmos世界基础模型（World Foundation Model）GROOT通用人形机器人模型Alpamayo自动驾驶BioNeMo数字生物学Phys-AIAI物理
我们在每一个领域都处于技术前沿，并承诺持续迭代——Nemotron 3之后有Nemotron 4，Cosmos 1之后有Cosmos 2，Groq也将迭代到第二代。
Nemotron 3在OpenClaw中名列全球三大最佳模型之列，处于前沿水平。Nemotron 3 Ultra将成为有史以来最强的基础模型，支持各国构建主权AI。
今天，我们宣布成立Nemotron联盟，投资数十亿美元推进AI基础模型研发。联盟成员包括：BlackForest Labs、Cursor、LangChain、Mistral、Perplexity、Reflection、Sarvam（印度）、Thinking Machines（Mira Murati的实验室）等。一个又一个企业软件公司加入，将NeMo Claw参考设计和NVIDIA智能体AI工具包整合到自身产品中。
物理AI与机器人
数字智能体在数字世界中行动——撰写代码、分析数据；而物理AI则是具身化的智能体，也就是机器人。
本次GTC共有110款机器人亮相，几乎囊括了全球所有机器人研发企业。英伟达提供三台计算机（训练计算机、仿真计算机、机载计算机）和完整的软件栈及AI模型。
自动驾驶方面，自动驾驶的"ChatGPT时刻"已经到来。今天，我们宣布四家新合作伙伴加入英伟达RoboTaxi Ready平台：比亚迪、现代、日产、吉利，合计年产量1,800万辆。加上此前的奔驰、丰田、通用，阵容进一步壮大。我们同时宣布与Uber达成重大合作，将在多个城市部署并接入RoboTaxi Ready车辆。
工业机器人方面，ABB、Universal Robotics、KUKA等众多机器人企业与我们合作，将物理AI模型与仿真系统相结合，推动机器人在全球制造产线的落地。
电信方面，卡特彼勒（Caterpillar）和T-Mobile也在其列。未来，无线基站将不再只是一个通信节点，而是一个NVIDIA Aerial AI RAN——能够实时感知流量、调整波束成形，实现节能增效的智能化边缘计算平台。
特别环节：Olaf机器人亮相
（播放Disney Olaf机器人演示视频）
黄仁勋：雪人登场！Newton运行正常！Omniverse也运行正常！Olaf，你好吗？
Olaf：见到你我真的太开心了。
黄仁勋：是的，因为是我给了你计算机——Jetson！
Olaf：那是什么？
黄仁勋：就在你的肚子里。
Olaf：太神奇了。
黄仁勋：你是在Omniverse里学会走路的。
Olaf：我喜欢走路。这比骑驯鹿仰望美丽的天空好多了。
黄仁勋：这正是因为物理仿真——基于NVIDIA Warp运行的Newton求解器，这是我们与Disney和DeepMind联合开发的，让你能够适应真实的物理世界。
Olaf：我正想说这个。
黄仁勋：这就是你聪明的地方。我是雪人，不是雪球。
黄仁勋：你能想象吗？未来的迪士尼乐园——所有这些机器人角色在园区里自由漫步。不过说实话，我以为你会更高一些。我从没见过这么矮的雪人。
Olaf：（不置可否）
黄仁勋：来帮我结束今天的演讲好吗？
Olaf：太棒啦！
主题演讲总结
黄仁勋：今天，我们共同探讨了以下核心主题：
推理拐点的到来：推理已成为AI最核心的工作负载，token是新的大宗商品，推理性能直接决定收入
AI工厂时代：数据中心已从文件存储设施演变为token生产工厂，未来每家公司都将以"AI工厂效率"来衡量自身竞争力
OpenClaw智能体革命：OpenClaw开启了智能体计算时代，企业IT正在从工具时代走向智能体时代，每家企业都需要制定OpenClaw战略
物理AI与机器人：具身智能正在规模化落地，自动驾驶、工业机器人、人形机器人共同构成物理AI的下一个重大机遇
感谢大家，GTC愉快！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.