网易首页 > 网易号 > 正文 申请入驻

黄仁勋GTC演讲全文:推理时代到来,2027营收至少万亿美元,龙虾就是新操作系统

0
分享至


2026年3月16日,英伟达GTC 2026大会正式开幕,英伟达创始人兼CEO黄仁勋发表了主题演讲。

在这场被视为“AI行业年度朝圣”的大会上,黄仁勋阐述了英伟达从一家“芯片公司”向“AI基础设施和工厂公司”的蜕变。面对市场最关心的业绩持续性与增长空间问题,黄仁勋详细拆解了驱动未来增长的底层商业逻辑——“Token工厂经济学”。

业绩指引极度乐观,“2027年至少1万亿美元的需求”

过去两年,全球AI计算需求呈指数级爆炸。随着大模型从“感知”、“生成”进化到“推理”与“行动(执行任务)”,算力的消耗量急剧攀升。针对市场高度关注的订单与营收天花板,黄仁勋给出了极为强劲的预期。

黄仁勋在演讲中直言:

去年这个时候,我说过,我们看到了5000亿美元的高确信度需求,覆盖Blackwell和Rubin直到2026年。现在,就在此时此地,我看到到2027年至少有1万亿美元的需求(at least $1 trillion)。


黄仁勋的万亿预期一度推动英伟达股价涨超4.3%。


不仅如此,他更是对这一数字做出了补充:

这合理吗?这就是我接下来要讲的。事实上,我们甚至会供不应求。我确定,实际的计算需求会比这高得多。

黄仁勋指出,如今的英伟达系统已经证明了自己是全球“成本最低的基础设施”。由于英伟达能运行几乎所有领域的AI模型,这种通用性使得客户投入的这1万亿美元能够被充分利用并保持长久的生命周期。

目前,英伟达60%的业务来自排名前五的超大型云服务商,而另外40%的业务则广泛分布于主权云、企业、工业、机器人和边缘计算等各个领域。

Token工厂经济学,每瓦性能决定商业命脉

为了解释这1万亿需求的合理性,黄仁勋向全球企业CEO展示了一套全新的商业思维。他指出,未来的数据中心不再是存储文件的仓库,而是生产Token(AI生成的基本单位)的“工厂”。


黄仁勋强调:

每一座数据中心、每一座工厂,从定义上来说都是受电力限制的。一座1GW(吉瓦)的工厂永远不会变成2GW,这是物理和原子的定律。在固定的功率下,谁的每瓦Token吞吐量最高,谁的生产成本就最低。

黄仁勋将未来的AI服务分为四个商业层级:

  • 免费层(高吞吐、低速度)
  • 中级层(~每百万token 3美元)
  • 高级层(~每百万token 6美元)
  • 高速层(~每百万token 45美元)
  • 超高速层(~每百万token 150美元)

他指出,随着模型越来越大、上下文越来越长,AI会变得更聪明,但Token的生成速率会降低。黄仁勋表示:

在这个Token工厂里,你的吞吐量和Token生成速度,将直接转化为你明年的精确收入。

黄仁勋强调英伟达的架构能够让客户在免费层实现极高的吞吐量,同时在最高价值的推理层级上,将性能提升惊人的35倍。


Vera Rubin两年实现350倍加速,Groq填补极速推理

在这个物理极限的约束下,英伟达介绍其有史以来最复杂的AI计算系统,Vera Rubin。黄仁勋表示:

过去提到Hopper,我会举起一块芯片,那很可爱。但提到Vera Rubin,大家想到的是整个系统。在这个100%液冷、完全消灭了传统线缆的系统中,过去需要两天安装的机架,现在只需两小时。

黄仁勋指出,通过极致的端到端软硬件协同设计,Vera Rubin在同一座1GW数据中心里创造了惊人的数据跨越:

在短短两年时间内,我们将Token的生成速率从2200万提升到了7亿,实现了350倍的增长。摩尔定律在同时期仅能带来约1.5倍的提升。

为了解决极速推理(如1000 Tokens/秒)条件下的带宽瓶颈,英伟达给出了整合被收购公司Groq的最终方案:非对称式的分离推理。黄仁勋解释:

这两款处理器的特点截然不同。Groq芯片拥有500MB的SRAM,而一颗Rubin芯片拥有288GB的内存。


黄仁勋指出,英伟达通过Dynamo软件系统,将需要海量计算和显存的“预填充(Pre-fill)”阶段交给Vera Rubin,将对延迟极度敏感的“解码”阶段交给Groq。黄仁勋还对企业算力配置给出了建议:

如果你的工作主要是高吞吐,100%使用Vera Rubin;如果你有大量高价值的编程级别的Token生成需求,拿出25%的数据中心规模给Groq。

据透露,由三星代工的Groq LP30芯片已在量产,预计第三季度出货,而首个Vera Rubin机架已在微软Azure云上运行。

此外,针对光互联技术,黄仁勋展示了全球首款量产的共封装光学(CPO)交换机Spectrum X,并平息了市场对于“铜退光进”的路线之争:

我们需要更多的铜缆产能,更多的光芯片产能,更多的CPO产能。
Agent终结传统SaaS,“年薪+Token”成硅谷标配

除了硬件壁垒,黄仁勋把大量篇幅留给了AI软件和生态的革命,特别是Agent(智能体)的爆发。

他将开源项目OpenClaw形容为“人类历史上最受欢迎的开源项目”,称其仅用几周时间就超越了Linux在过去30年取得的成就。黄仁勋直言,OpenClaw本质上就是Agent计算机的“操作系统”。

黄仁勋断言:

每一个SaaS(软件即服务)公司都将变成AaaS(Agent-as-a-Service,智能体即服务)公司。毫无疑问,为了让这种具备访问敏感数据和执行代码能力的智能体安全落地,英伟达推出了企业级的NeMo Claw参考设计,增加了策略引擎和隐私路由器。

对于普通职场人,这场变革同样近在咫尺。黄仁勋描绘了未来的职场新形态:

在未来,我们公司的每一位工程师都需要一个年度Token预算。他们的基础年薪可能是几十万美元,我会在此基础上再拿出大约一半的金额作为Token额度给他们,让他们实现10x的效率提升。这已经是硅谷的新招聘筹码了:你的offer里带多少Token?

演讲最后,黄仁勋还“剧透”了下一代计算架构Feynman,它将首次实现铜线与CPO的共同水平扩展。更引人遐想的是,英伟达正在研发部署在太空的数据中心计算机“Vera Rubin Space-1”,彻底打开了AI算力向地球之外延伸的想象空间。

黄仁勋GTC 2026演讲全文,全文翻译如下(AI工具辅助):

主持人:欢迎英伟达创始人兼首席执行官黄仁勋上台。
黄仁勋,创始人兼首席执行官:
欢迎来到GTC。我想提醒大家,这是一场技术大会。能看到这么多人一大早排队入场,能看到在座的各位,我感到非常高兴。
在GTC,我们将聚焦三大主题:技术、平台和生态系统。英伟达目前拥有三大平台:CUDA-X平台、系统平台,以及我们最新推出的AI工厂平台。
在正式开始之前,我要感谢我们的预热环节主持人——Conviction的Sarah Guo、红杉资本的Alfred Lin(英伟达的第一位风险投资人),以及英伟达的第一位主要机构投资人Gavin Baker。这三位对技术有深刻的洞见,在整个技术生态系统中拥有极广的影响力。当然,我还要感谢今天所有我亲自邀请出席的贵宾们。感谢这支全明星团队。
我同样要感谢今天到场的所有企业。英伟达是一家平台公司,我们拥有技术、平台和丰富的生态系统。今天到场的企业代表了价值100万亿美元行业中几乎全部的参与者,共有450家公司赞助了本次活动,在此深表感谢。
本次大会共设有1,000场技术论坛、2,000位演讲嘉宾,将覆盖人工智能"五层蛋糕"架构的每一个层级——从土地、电力与机房等基础设施,到芯片、平台、模型,以及最终推动整个行业腾飞的各类应用。
CUDA:二十年的技术积淀
一切的起点,就在这里。今年是CUDA诞生二十周年。
二十年来,我们始终致力于这一架构的研发。CUDA是一项革命性的发明——SIMT(单指令多线程)技术允许开发者以标量代码编写程序,并将其扩展为多线程应用,其编程难度远低于此前的SIMD架构。我们最近还新增了Tiles功能,帮助开发者更便捷地编程张量核心(Tensor Core),以及当今人工智能所依赖的各类数学运算结构。目前,CUDA已拥有数千种工具、编译器、框架和库,在开源社区中存在数十万个公开项目,并已深度集成到每一个技术生态系统之中。
这张图表揭示了英伟达100%的战略逻辑,我从最初就一直在讲这张幻灯片。其中最难实现、也是最核心的要素,是图表底部的"装机量"。历经二十年,我们已在全球范围内积累了数亿块运行CUDA的GPU和计算系统。
我们的GPU覆盖所有云平台,服务于几乎所有计算机厂商和行业。CUDA庞大的装机量,正是这个飞轮不断加速的根本原因。装机量吸引开发者,开发者创造新算法并取得突破,突破催生全新市场,新市场形成新生态并吸引更多企业加入,进而扩大装机量——这个飞轮正在持续加速。
英伟达库的下载量正以惊人的速度增长,规模庞大且增速不断提升。这个飞轮使我们的计算平台能够支撑海量应用和层出不穷的新突破。
更重要的是,它还赋予了这些基础设施极长的使用寿命。原因显而易见:NVIDIA CUDA上可运行的应用极为丰富,涵盖AI生命周期的每个阶段、各类数据处理平台,以及各种科学原理求解器。因此,一旦安装了英伟达GPU,其实际使用价值极高。这也是为何我们六年前发布的Ampere架构GPU,其云端价格反而在上涨。
这一切的根本原因在于:装机量庞大,飞轮强劲,开发者生态广泛。当这些因素共同发挥作用,加之我们持续更新软件,计算成本便会不断下降。加速计算在大幅提升应用性能的同时,随着我们长期维护和迭代软件,用户不仅能在初期获得性能跃升,还能持续享受计算成本的下降。我们愿意为全球每一块GPU提供长期支持,因为它们在架构上完全兼容。
我们之所以愿意这样做,是因为装机量如此庞大——每发布一次新的优化,便能惠及数百万用户。这种动态组合,使得英伟达架构在持续扩大覆盖范围、加速自身成长的同时,不断压低计算成本,最终刺激新的增长。CUDA是这一切的核心。
从GeForce到CUDA:二十五年的演进之路
而我们与CUDA的旅程,实际上早在二十五年前就已开始。
GeForce——相信在座有很多人是伴随着GeForce长大的。GeForce是英伟达最成功的市场推广项目。我们从你们还买不起产品的时候就开始培养未来的客户——是你们的父母代替你们成为了英伟达最早的用户,年复一年地购买我们的产品,直到有一天,你们成长为优秀的计算机科学家,成为真正意义上的客户和开发者。
这是二十五年前GeForce奠定的基业。二十五年前,我们发明了可编程着色器——这是让加速器实现可编程化的一项显而易见却意义深远的发明,也是世界上第一款可编程加速器,即像素着色器。这五年后,我们创造了CUDA——这是我们有史以来最重要的投资之一。当时公司财力有限,但我们将绝大部分利润押注于此,致力于将CUDA从GeForce延伸到每一台计算机。我们之所以如此坚定,是因为我们深信其潜力。尽管初期历经艰辛,公司坚守这一信念长达13代、整整二十年,如今CUDA已无处不在。
正是像素着色器推动了GeForce的革命。而大约八年前,我们推出了RTX——为现代计算机图形时代对架构进行了全面革新。GeForce将CUDA带给了全世界,也正因如此,让Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton、Andrew Ng等众多学者发现,GPU可以成为加速深度学习的利器,由此点燃了十年前人工智能的大爆炸。
十年前,我们决定将可编程着色与两个全新理念相融合:一是硬件光线追踪(Ray Tracing),这在技术上极具挑战;二是一个当时颇具前瞻性的想法——大约十年前,我们就预见到AI将彻底变革计算机图形。正如GeForce将AI带给了全世界,AI如今也将反过来重塑整个计算机图形的实现方式。
今天,我要向大家展示未来。这是我们的下一代图形技术,我们称之为神经渲染(Neural Rendering)——3D图形与人工智能的深度融合。这就是DLSS 5,请看。
神经渲染:结构化数据与生成式AI的融合
这是不是令人叹为观止?计算机图形就此焕发生机。
我们做了什么?我们将可控的3D图形(虚拟世界的真实基础)与其结构化数据相结合,再融入生成式AI和概率计算。一个完全确定性,另一个概率性却高度逼真——我们将这两种理念融为一体,通过结构化数据实现精准可控,同时进行实时生成。最终,内容既美观惊艳,又完全可控。
结构化信息与生成式AI融合这一理念,将在一个又一个行业中不断复现。结构化数据是可信AI的基石。
结构化数据与非结构化数据的加速平台
现在我要带大家看一张技术架构图。
结构化数据——大家熟悉的SQL、Spark、Pandas、Velox,以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google BigQuery等重要平台,都在处理数据框(Data Frame)。这些数据框就像巨型电子表格,承载着商业世界的全部信息,是企业计算的基本事实(Ground Truth)。
在AI时代,我们需要让AI来使用结构化数据,并对其实现极致加速。过去,加速结构化数据处理是为了让企业更高效地运转。而未来,AI将以远超人类的速度使用这些数据结构,AI智能体也将大量调用结构化数据库。
非结构化数据方面,向量数据库、PDF、视频、音频等构成了世界上绝大多数的数据形态——每年生成的数据中,约90%是非结构化数据。过去,这些数据几乎完全无法被利用:我们读取它们,存入文件系统,仅此而已。我们无法查询,也难以检索,原因在于非结构化数据缺乏简单的索引方式,必须理解其含义与语境。而现在,AI可以做到这一点——借助多模态感知与理解技术,AI能够读取PDF文档、理解其含义,并将其嵌入可供查询的更大结构之中。
英伟达为此创建了两个基础库:
  • cuDF:用于数据框、结构化数据的加速处理
  • cuVS:用于向量存储、语义数据和非结构化AI数据的处理
这两个平台将成为未来最重要的基础平台之一。
今天,我们宣布与多家企业达成合作。IBM——SQL语言的发明者,将使用cuDF加速其WatsonX Data平台。Dell与我们联合打造了Dell AI数据平台,整合cuDF与cuVS,并在NTT Data的实际项目中实现了大幅性能提升。Google Cloud方面,我们现在不仅加速Vertex AI,还加速BigQuery,并与Snapchat合作将其计算成本降低了近80%。
加速计算带来的好处是三位一体的:速度、规模、成本。这与摩尔定律的逻辑一脉相承——通过加速计算实现性能飞跃,同时持续优化算法,让所有人都能享受到持续下降的计算成本。
英伟达构建了加速计算平台,其上汇聚了众多库:RTX、cuDF、cuVS等等。这些库整合进全球云服务和OEM体系,共同触达全球用户。
与云服务商的深度合作
与主要云服务商的合作
Google Cloud:我们加速Vertex AI和BigQuery,与JAX/XLA深度集成,同时在PyTorch上表现卓越——英伟达是全球唯一一家在PyTorch和JAX/XLA上均表现出色的加速器。我们将Base10、CrowdStrike、Puma、Salesforce等客户引入Google Cloud生态。
AWS:我们加速EMR、SageMaker和Bedrock,与AWS有着深度集成。今年令我格外兴奋的是,我们将把OpenAI引入AWS,这将大幅推动AWS云计算的消耗增长,帮助OpenAI扩展区域部署和计算规模。
Microsoft Azure:英伟达100 PFLOPS超算是我们构建的第一台超级计算机,也是第一台部署在Azure上的超算,这奠定了与OpenAI合作的重要基础。我们加速Azure云服务和AI Foundry,合作推进Azure区域扩展,并在Bing搜索上深度协作。值得一提的是,我们的**保密计算(Confidential Computing)**能力——确保即便是运营商也无法查看用户数据和模型——英伟达GPU是全球首批支持保密计算的GPU,可支持OpenAI和Anthropic模型在全球各地区云环境中的保密部署。以Synopsys为例,我们加速其全部EDA和CAD工作流,并部署于Microsoft Azure。
Oracle:我们是Oracle的第一个AI客户,我为能够第一次向Oracle解释AI云的概念感到自豪。此后他们发展迅猛,我们也为其引入了Cohere、Fireworks、OpenAI等众多合作伙伴。
CoreWeave:全球第一家AI原生云,专为GPU托管和AI云服务而生,拥有出色的客户群,增长势头强劲。
Palantir + Dell:三方联合打造了全新的AI平台,基于Palantir的本体论平台(Ontology Platform)和AI平台,可在任何国家、任何气隙隔离环境下、完全本地化地部署AI——从数据处理(向量化或结构化)到AI的完整加速计算栈,无所不包。
英伟达与全球云服务商建立了这种特殊的合作关系——我们将客户引入云端,这是一种互利共赢的生态。
垂直整合,横向开放:英伟达的核心战略
英伟达是全球第一家垂直整合、横向开放的公司。
这一模式的必要性非常简单:加速计算不是芯片问题,也不是系统问题,其完整表述应为应用加速。CPU可以让计算机整体运行得更快,但这条路已走到瓶颈。未来,唯有通过应用或领域特定的加速,才能持续带来性能飞跃和成本下降。
这正是英伟达必须深耕一个又一个库、一个又一个领域、一个又一个垂直行业的原因。我们是一家垂直整合的计算公司,没有其他路可走。我们必须理解应用,理解领域,深刻理解算法,并能够将其部署在任何场景下——数据中心、云端、本地、边缘乃至机器人系统。
同时,英伟达保持横向开放,愿意将技术整合进任何合作伙伴的平台,让全世界都能享受到加速计算的红利。
本届GTC的参会者结构充分体现了这一点。本次参会者中,金融服务行业的比例最高——希望来的是开发者,不是交易员。我们的生态系统覆盖了上游和下游供应链。无论是成立50年、70年还是150年的企业,去年都迎来了历史最佳年份。我们正处于某件非常、非常重大的事情的起点。
CUDA-X:各行业的加速计算引擎
在各个垂直领域,英伟达均已深度布局:
  • 自动驾驶:覆盖范围广泛,影响深远
  • 金融服务:量化投资正从人工特征工程转向超级计算机驱动的深度学习,迎来其"Transformer时刻"
  • 医疗健康:正在迎来属于自己的"ChatGPT时刻",涵盖AI辅助药物发现、AI智能体支持诊断、医疗客服等方向
  • 工业:全球规模最大的建设浪潮正在展开,AI工厂、芯片厂、数据中心厂纷纷落地
  • 娱乐与游戏:实时AI平台支持翻译、直播、游戏互动,以及智能购物代理
  • 机器人:深耕十余年,三大计算机架构(训练计算机、仿真计算机、机载计算机)齐备,本次展会共有110款机器人亮相
  • 电信:约2万亿美元规模的行业,基站将从单一通信功能演进为AI基础设施平台,相关平台名为Aerial,与诺基亚、T-Mobile等企业均有深度合作
以上所有领域的核心,正是我们的CUDA-X库——这是英伟达作为算法公司的根本所在。这些库是公司最核心的资产,让计算平台得以在各个行业发挥实际价值。
其中最重要的库之一,是cuDNN(CUDA深度神经网络库),它彻底革新了人工智能,引发了现代AI的大爆炸。
(播放CUDA-X演示视频)
大家刚才看到的一切都是仿真——包括基于物理原理的求解器、AI代理物理模型,以及物理AI机器人模型。一切均为仿真,没有任何手工动画或关节绑定。这正是英伟达的核心能力所在:通过对算法的深刻理解与计算平台的有机结合,解锁这些机遇。
AI原生企业与新计算时代
你们刚才看到了沃尔玛、欧莱雅、摩根大通、罗氏、丰田等定义当今社会的行业巨头,也有一大批大家从未听说过的公司——我们称之为AI原生企业。这份名单极为庞大,里面有OpenAI、Anthropic,以及众多服务于不同垂直领域的新兴企业。
过去两年,这一行业经历了惊人的腾飞。风险投资流入初创企业的资金规模达到1,500亿美元,创人类历史之最。更重要的是,单笔投资规模首次从数百万美元跃升至数亿乃至数十亿美元。原因只有一个:这是史上第一次,每一家此类公司都需要大量计算资源和大量token。这个行业正在创造、生成token,或者为来自Anthropic、OpenAI等机构的token增值。
正如PC革命、互联网革命、移动云革命各自孕育出一批划时代的企业,这一代计算平台变革同样将诞生一批极具影响力的公司,成为未来世界的重要力量。
推动这一切的三大历史性突破
过去两年究竟发生了什么?三件大事。
第一:ChatGPT,开启生成式AI时代(2022年底至2023年)
它不仅能感知和理解,还能生成独特内容。我展示了生成式AI与计算机图形的融合。生成式AI从根本上改变了计算的方式——计算从检索式转变为生成式,这深刻影响着计算机架构、部署方式和整体意义。
第二:推理AI(Reasoning AI),以o1为代表
推理能力使AI能够自我反思、规划、分解问题——将它无法直接理解的问题拆解为可处理的步骤。o1让生成式AI变得可信,能够依据真实信息进行推理。为此,输入context的token量和用于思考的输出token量大幅增加,计算量随之显著提升。
第三:Claude Code,首个智能体模型
它能读取文件、编写代码、编译、测试、评估并迭代。Claude Code彻底革新了软件工程——英伟达100%的工程师都在使用Claude Code、Codex和Cursor中的一种或多种,没有一位软件工程师不借助AI助力。
这是一个全新的拐点——你不再是询问AI"是什么、在哪里、怎么做",而是让它"创建、执行、构建",让它主动使用工具、读取文件、分解问题、付诸行动。AI从感知,到生成,到推理,再到如今真正能够完成工作。
过去两年,推理所需的计算量增长了约10,000倍,使用量增长了约100倍。我一直认为,过去两年计算需求增长了100万倍——这是所有人的共同感受,是OpenAI的感受,是Anthropic的感受。如果能获得更多算力,就能生成更多token,收入就会提升,AI就会变得更智能。推理拐点已然到来。
万亿美元的AI基础设施时代
去年此时,我在这里表示,我们对Blackwell和Rubin在2026年之前的需求和采购订单有高度信心,规模约为5,000亿美元。今天,在GTC一年之后,我站在这里告诉大家:展望到2027年,我看到的数字至少是1万亿美元。而且我确信,实际的计算需求将远不止于此。
2025:英伟达推理年
2025年是英伟达的推理年(Year of Inference)。我们希望确保,在训练和后训练之外,也能在AI生命周期的每个阶段都保持卓越,使已投资的基础设施能够持续高效运转,且有效使用寿命越长,单位成本越低。
与此同时,Anthropic和Meta正式加入NVIDIA平台,与此共同代表了全球三分之一的AI算力需求。开源模型已接近前沿水平,无处不在。
英伟达是目前全球唯一一个能够运行所有AI领域——语言、生物学、计算机图形、计算机视觉、语音、蛋白质与化学、机器人等——所有AI模型的平台,无论边缘还是云端,无论何种语言。英伟达架构对所有这些场景均具备通用性,这使我们成为成本最低、置信度最高的平台。
目前,英伟达60%的业务来自全球前五大超大规模云服务商,剩余40%遍布区域云、主权云、企业、工业、机器人、边缘计算等各个领域。AI的覆盖广度本身就是其韧性所在——这毫无疑问是一次全新的计算平台变革。
Grace Blackwell与NVLink 72:大胆的架构革新
在Hopper架构还处于鼎盛时期,我们就决定彻底重新架构系统,将NVLink从8路扩展为NVLink 72,对计算系统进行全面分解重构。Grace Blackwell NVLink 72是一次巨大的技术押注,对所有合作伙伴而言都不容易,在此向所有人表示诚挚感谢。
同时,我们推出了NVFP4——不只是普通的FP4,而是一种全新类型的张量核心和计算单元。我们已经证明,NVFP4可以在无精度损失的情况下实现推理,同时带来巨大的性能提升和能效提升,并且同样适用于训练。此外,Dynamo和TensorRT-LLM等一系列新算法相继问世,我们甚至为优化内核而专门投入数十亿美元建造了一台超级计算机,称之为DGX Cloud。
结果证明,我们的推理性能令人瞩目。来自Semi Analysis的数据——这是迄今为止最全面的AI推理性能评测——显示英伟达在每瓦token数和每token成本两个维度上均遥遥领先。原本摩尔定律可能给H200带来1.5倍的性能提升,但我们做到了35倍。Semi Analysis的Dylan Patel甚至说:"黄仁勋保守了,实际上是50倍。"他说得没错。
我在此援引他的话:"Jensen sandbagged(黄仁勋保守报数)。"
英伟达的每token成本是全球最低,目前无人能及。原因正在于极致协同设计(Extreme Co-design)。
以Fireworks为例,在英伟达更新全套软件和算法之前,其平均token速度约为每秒700个;更新后接近每秒5,000个,提升约7倍。这就是极致协同设计的力量。
AI工厂:从数据中心到token工厂
数据中心过去是存储文件的地方,现在它是生产token的工厂。每一家云服务商、每一家AI公司,未来都将以"token工厂效率"作为核心经营指标。
这是我的核心论点:
  • 纵轴:吞吐量(Throughput)——在固定功率下每秒生成的token数
  • 横轴:交互速度(Token Speed)——每次推理的响应速度,速度越快,可使用的模型越大、context越长,AI越智能
token是新的大宗商品,一旦成熟,将分层定价:
  • 免费层(高吞吐、低速度)
  • 中级层(~每百万token 3美元)
  • 高级层(~每百万token 6美元)
  • 高速层(~每百万token 45美元)
  • 超高速层(~每百万token 150美元)
与Hopper相比,Grace Blackwell在最高价值层提升了35倍吞吐量,并引入全新层级。以简化模型估算,将25%功率分别分配给四个层级,Grace Blackwell可比Hopper多产生5倍的收入。
Vera Rubin:下一代AI计算系统
(播放Vera Rubin系统介绍视频)
Vera Rubin是一个完整的、端到端优化的系统,专为智能体(Agentic)工作负载设计:
  • 大型语言模型计算核心:NVLink 72 GPU集群,处理前填充(Prefill)和KV Cache
  • 全新Vera CPU:专为极高单线程性能设计,采用LPDDR5内存,兼具卓越能效,是全球唯一使用LPDDR5的数据中心CPU,适合AI智能体工具调用
  • 存储系统:BlueField 4 + CX 9,面向AI时代的全新存储平台,全球存储行业100%加入
  • CPO Spectrum X交换机:全球首款共封装光学以太网交换机,已全面量产
  • Kyber机架:全新机架系统,支持144块GPU组成单一NVLink域,前端计算、后端NVLink交换,形成一台巨型计算机
  • Rubin Ultra:下一代超算节点,竖插式设计,配合Kyber机架,支持更大规模NVLink互联
Vera Rubin已100%液冷,安装时间从两天缩短至两小时,采用45°C热水冷却,大幅降低数据中心冷却压力。这次Satya(纳德拉)已发文确认,首台Vera Rubin机架已在微软Azure上线运行,我为此深感振奋。
Groq整合:推理性能的极致延伸
我们收购了Groq团队并获得其技术授权。Groq是一种确定性数据流处理器(Deterministic Dataflow Processor),采用静态编译和编译器调度,拥有大量SRAM,专为推理单一工作负载优化,具备极低延迟和极高token生成速度。
然而,Groq的内存容量有限(500MB片上SRAM),难以独立承载大模型的参数和KV Cache,限制了其大规模应用。
解决方案正是Dynamo——一套推理调度软件。我们通过Dynamo将推理管线解聚(Disaggregate):
  • **前填充(Prefill)及注意力机制的解码(Decode)**在Vera Rubin上完成(需要大量算力和KV Cache存储)
  • **前馈网络解码(Feed-Forward Network Decode)**即token生成部分,在Groq上完成(需要极高带宽和低延迟)
两者通过以太网紧密耦合,借助特殊模式将延迟减少约一半。在Dynamo这一"AI工厂操作系统"的统一调度下,整体性能提升35倍,并开辟了NVLink 72此前无法触及的全新推理性能层级。
Groq与Vera Rubin的组合建议:
  • 若工作负载以高吞吐为主,使用100% Vera Rubin
  • 若大量工作负载为代码生成等高价值token生成,可引入Groq,建议比例约为25% Groq + 75% Vera Rubin
Groq LP30由三星代工,目前已进入量产,预计Q3开始出货。感谢三星的全力配合。
推理性能的历史性飞跃
将此前技术进步量化:在2年时间内,1吉瓦AI工厂的token生成速率将从2,200万token/秒提升至7亿token/秒,提升350倍。这就是极致协同设计的力量。
技术路线图
  • Blackwell:当前在产,Oberon标准机架系统,铜缆扩展至NVLink 72,可选光学扩展至NVLink 576
  • Vera Rubin(当前):Kyber机架,NVLink 144(铜缆);Oberon机架,NVLink 72 + 光学,扩展至NVLink 576;Spectrum 6,全球首款CPO交换机
  • Vera Rubin Ultra(即将推出):新一代Rubin Ultra GPU,LP35芯片(首次集成NVFP4),进一步提升数倍性能
  • Feynman(下一代):全新GPU,LP40芯片(由英伟达与Groq团队联合打造,集成NVFP4);全新CPU——Rosa(Rosalyn);BlueField 5;CX 10;同时支持铜缆和CPO两种扩展方式的Kyber机架
路线图明确:铜缆扩展、光学扩展(Scale-Up)、光学扩展(Scale-Out)三条路线并行推进,我们需要所有合作伙伴在铜缆、光纤和CPO方面持续扩产。
NVIDIA DSX:AI工厂的数字孪生平台
AI工厂越来越复杂,但组成它的各类技术供应商过去从未在设计阶段相互协作,直到在数据中心才"相遇"——这显然不够。
为此,我们创建了Omniverse,以及基于其上的NVIDIA DSX平台——一个供所有合作伙伴在虚拟世界中共同设计和运营吉瓦级AI工厂的平台。DSX提供:
  • 机架级机械、热学、电气、网络仿真系统
  • 与电网的连接,实现协同节能调度
  • 数据中心内基于Max-Q的动态功耗和冷却优化
保守估计,这套系统可将能源利用效率提升约2倍,在我们谈论的规模上,这是非常可观的收益。Omniverse从数字地球开始,将承载各种规模的数字孪生,我们正与全球合作伙伴共同构建人类历史上最大的计算机。
此外,英伟达正在进军太空。Thor芯片已通过辐射认证,正在卫星中运行。我们正与合作伙伴开发Vera Rubin Space-1,用于建设太空数据中心。在太空中只能依靠辐射散热,热管理是核心挑战,我们正集结顶尖工程师攻关。
OpenClaw:智能体时代的操作系统
Peter Steinberger开发了一款名为OpenClaw的软件。这是人类历史上最受欢迎的开源项目,在短短几周内便超越了Linux三十年的成就。
OpenClaw本质上是一个智能体系统(Agentic System),能够:
  • 管理资源,访问工具、文件系统和大型语言模型
  • 执行调度、定时任务
  • 将问题逐步分解,并调用子智能体
  • 支持任意模态的输入输出(语音、视频、文字、邮件等)
用操作系统的语法来描述,它确实就是一个操作系统——智能体计算机的操作系统。Windows让个人计算机成为可能,OpenClaw让个人智能体成为可能。
每一家企业都需要制定自己的OpenClaw战略,正如我们都需要Linux策略、HTML策略、Kubernetes策略一样。
企业IT的全面重塑
OpenClaw之前的企业IT:数据和文件进入系统,流经工具和工作流,最终变成供人类使用的工具。软件公司创建工具,系统集成商(GSI)和咨询公司帮助企业使用这些工具。
OpenClaw之后的企业IT:每一家SaaS公司都将转变为AaaS(Agentic as a Service,智能体即服务)公司——不只是提供工具,而是提供专精特定领域的AI智能体。
但这里有一个关键挑战:企业内部的智能体可以访问敏感数据、执行代码、与外部通信。这在企业环境中必须得到严格管控。
为此,我们与Peter合作,将安全性融入企业级版本,推出了:
  • NeMo Claw(参考设计):基于OpenClaw的企业级参考框架,集成NVIDIA的全套智能体AI工具包
  • Open Shield(安全层):已集成至OpenClaw,提供策略引擎、网络护栏、隐私路由,确保企业数据安全
  • NeMo Cloud:可下载使用,并与所有SaaS企业的策略引擎对接
这是企业IT的文艺复兴,一个原本2万亿美元规模的产业,即将成长为数万亿美元规模,从提供工具转向提供专业化的AI智能体服务。
我完全可以预见:未来,公司里的每一位工程师都将拥有年度token预算。他们年薪可能是几十万美元,我会额外给他们相当于薪资一半的token配额,让他们的产出放大10倍。"入职附带多少token配额"已经成为硅谷的新晋招聘话题。
每一家企业未来都将既是token的使用者(供工程师使用),也是token的生产者(为其客户提供服务)。OpenClaw的意义不可低估,它和HTML、Linux一样重要。
NVIDIA开放模型倡议
在自定义智能体(Custom Claw)方面,我们提供了NVIDIA自研的前沿模型:
模型领域Nemotron大型语言模型Cosmos世界基础模型(World Foundation Model)GROOT通用人形机器人模型Alpamayo自动驾驶BioNeMo数字生物学Phys-AIAI物理
我们在每一个领域都处于技术前沿,并承诺持续迭代——Nemotron 3之后有Nemotron 4,Cosmos 1之后有Cosmos 2,Groq也将迭代到第二代。
Nemotron 3在OpenClaw中名列全球三大最佳模型之列,处于前沿水平。Nemotron 3 Ultra将成为有史以来最强的基础模型,支持各国构建主权AI。
今天,我们宣布成立Nemotron联盟,投资数十亿美元推进AI基础模型研发。联盟成员包括:BlackForest Labs、Cursor、LangChain、Mistral、Perplexity、Reflection、Sarvam(印度)、Thinking Machines(Mira Murati的实验室)等。一个又一个企业软件公司加入,将NeMo Claw参考设计和NVIDIA智能体AI工具包整合到自身产品中。
物理AI与机器人
数字智能体在数字世界中行动——撰写代码、分析数据;而物理AI则是具身化的智能体,也就是机器人。
本次GTC共有110款机器人亮相,几乎囊括了全球所有机器人研发企业。英伟达提供三台计算机(训练计算机、仿真计算机、机载计算机)和完整的软件栈及AI模型。
自动驾驶方面,自动驾驶的"ChatGPT时刻"已经到来。今天,我们宣布四家新合作伙伴加入英伟达RoboTaxi Ready平台:比亚迪、现代、日产、吉利,合计年产量1,800万辆。加上此前的奔驰、丰田、通用,阵容进一步壮大。我们同时宣布与Uber达成重大合作,将在多个城市部署并接入RoboTaxi Ready车辆。
工业机器人方面,ABB、Universal Robotics、KUKA等众多机器人企业与我们合作,将物理AI模型与仿真系统相结合,推动机器人在全球制造产线的落地。
电信方面,卡特彼勒(Caterpillar)和T-Mobile也在其列。未来,无线基站将不再只是一个通信节点,而是一个NVIDIA Aerial AI RAN——能够实时感知流量、调整波束成形,实现节能增效的智能化边缘计算平台。
特别环节:Olaf机器人亮相
(播放Disney Olaf机器人演示视频)
黄仁勋: 雪人登场!Newton运行正常!Omniverse也运行正常!Olaf,你好吗?
Olaf: 见到你我真的太开心了。
黄仁勋: 是的,因为是我给了你计算机——Jetson!
Olaf: 那是什么?
黄仁勋: 就在你的肚子里。
Olaf: 太神奇了。
黄仁勋: 你是在Omniverse里学会走路的。
Olaf: 我喜欢走路。这比骑驯鹿仰望美丽的天空好多了。
黄仁勋: 这正是因为物理仿真——基于NVIDIA Warp运行的Newton求解器,这是我们与Disney和DeepMind联合开发的,让你能够适应真实的物理世界。
Olaf: 我正想说这个。
黄仁勋: 这就是你聪明的地方。我是雪人,不是雪球。
黄仁勋: 你能想象吗?未来的迪士尼乐园——所有这些机器人角色在园区里自由漫步。不过说实话,我以为你会更高一些。我从没见过这么矮的雪人。
Olaf: (不置可否)
黄仁勋: 来帮我结束今天的演讲好吗?
Olaf: 太棒啦!
主题演讲总结
黄仁勋:今天,我们共同探讨了以下核心主题:
  1. 推理拐点的到来:推理已成为AI最核心的工作负载,token是新的大宗商品,推理性能直接决定收入
  2. AI工厂时代:数据中心已从文件存储设施演变为token生产工厂,未来每家公司都将以"AI工厂效率"来衡量自身竞争力
  3. OpenClaw智能体革命:OpenClaw开启了智能体计算时代,企业IT正在从工具时代走向智能体时代,每家企业都需要制定OpenClaw战略
  4. 物理AI与机器人:具身智能正在规模化落地,自动驾驶、工业机器人、人形机器人共同构成物理AI的下一个重大机遇
感谢大家,GTC愉快!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
迟先生哭了,陈丽华追悼会现场,儿子儿媳接待众人,孙子罕见露面

迟先生哭了,陈丽华追悼会现场,儿子儿媳接待众人,孙子罕见露面

TVB的四小花
2026-04-10 16:39:06
脑梗最怕的三种维生素,不妨了解!

脑梗最怕的三种维生素,不妨了解!

药师方健
2026-04-10 22:05:32
乌克兰开始收复失土,即将进行大反攻?俄军为何打不过乌军?

乌克兰开始收复失土,即将进行大反攻?俄军为何打不过乌军?

番外行
2026-04-02 08:52:59
医生发现:能活到80岁的糖尿病患者,大多在60岁,就不做这几事了

医生发现:能活到80岁的糖尿病患者,大多在60岁,就不做这几事了

健康之光
2026-04-10 20:20:09
汤姆·哈迪带老婆海滩放风!穿“毒液短裤”裸上身,身材明显发福

汤姆·哈迪带老婆海滩放风!穿“毒液短裤”裸上身,身材明显发福

星野娱乐天地
2026-04-09 21:35:10
南京一中刚刚传来喜报!

南京一中刚刚传来喜报!

南京择校
2026-04-10 20:46:04
伊朗抢通遭美以袭击铁路桥 仅用三天修复通车

伊朗抢通遭美以袭击铁路桥 仅用三天修复通车

新华社
2026-04-10 21:50:23
CBA最新排名大调整,上海已经无敌,广东重大隐患,辽篮没机会

CBA最新排名大调整,上海已经无敌,广东重大隐患,辽篮没机会

宗介说体育
2026-04-10 10:20:01
郑丽文身边女保镖太吸睛!眼神凌厉,气场全开,身高格外抢眼

郑丽文身边女保镖太吸睛!眼神凌厉,气场全开,身高格外抢眼

TVB的四小花
2026-04-09 17:17:13
北京足协:对中青赛U10组涉假球两队主帅进行市内永久禁足处罚

北京足协:对中青赛U10组涉假球两队主帅进行市内永久禁足处罚

懂球帝
2026-04-10 13:02:58
章若楠的脸,看着人畜无害,实际上承载的东西太重了。

章若楠的脸,看着人畜无害,实际上承载的东西太重了。

小光侃娱乐
2026-04-10 17:05:03
巴萨旧将谈负马竞:少打一人不是问题,问题是我们在和15个人较量

巴萨旧将谈负马竞:少打一人不是问题,问题是我们在和15个人较量

兰亭墨未干
2026-04-10 17:06:04
蔚来ES9开启预售,电池租用方案预售价42 万元起

蔚来ES9开启预售,电池租用方案预售价42 万元起

北京商报
2026-04-09 21:57:09
李镇浩脑溢血栽进ICU:1周前刚被曝酒驾,7000万债务还没还

李镇浩脑溢血栽进ICU:1周前刚被曝酒驾,7000万债务还没还

追星雷达站
2026-04-09 15:31:02
2.4万亿!30万家庭!烂尾2年恒大仍没完,狂徒许家印终于自寻死路

2.4万亿!30万家庭!烂尾2年恒大仍没完,狂徒许家印终于自寻死路

历史伟人录
2026-04-10 18:07:28
11万里程换来的大牌护肤品是假货,南航客服要求消费者先删贴

11万里程换来的大牌护肤品是假货,南航客服要求消费者先删贴

DoNews
2026-04-09 14:09:33
妻子浪漫旅行最尴尬的夫妻,话少还装甜蜜,没李纯马頔自然

妻子浪漫旅行最尴尬的夫妻,话少还装甜蜜,没李纯马頔自然

一盅情怀
2026-04-10 17:02:09
三拒绝结果出炉!杜新枝熊磊喜迎胜利,法院驳回许敏全部诉求

三拒绝结果出炉!杜新枝熊磊喜迎胜利,法院驳回许敏全部诉求

萧狡科普解说
2026-04-10 17:51:36
大选倒计时民调不乐观,特朗普喊话匈牙利选民:出门投票给欧尔班

大选倒计时民调不乐观,特朗普喊话匈牙利选民:出门投票给欧尔班

狗子的爱好
2026-04-10 15:43:14
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

白话电影院
2026-04-07 20:07:56
2026-04-10 22:43:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
144372文章数 2653193关注度
往期回顾 全部

财经要闻

李强主持召开经济形势专家和企业家座谈会

头条要闻

与内塔尼亚胡通话后 特朗普改口了

头条要闻

与内塔尼亚胡通话后 特朗普改口了

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

本地
艺术
游戏
手机
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

于小冬2026年4月油画新作《花季》

数毛社点评批评XSS!《红色沙漠》画面糊成渣

手机要闻

华为Pura90来了!这个外观你喜欢吗?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版