![]()
在 CES 2026 的舞台上,黄仁勋并没有急于用某一款产品“点燃情绪”。
这场长时间的主题演讲,更像一次系统性的时代复盘与方向校准:从 AI 平台的根本性转变,到 Agent 架构、物理 AI、自动驾驶、机器人,再到算力、网络、存储与能源效率,英伟达试图回答的不是“下一代芯片有多强”,而是——未来十年,计算与智能将如何被重新组织。
![]()
(完整实录见文末)
编辑:前沿在线 编辑部
拉斯维加斯,新年快乐。
NVIDIA 创始人兼 CEO 黄仁勋一上台就把 CES 的现场氛围点燃:这个可容纳 3000 人的礼堂坐满了人,外场还有 2000 人围观,甚至楼上也挤满了观众。
![]()
黄仁勋笑称,自己“带了 15 公斤材料要讲”,而全世界将有数以百万计的人通过直播一起进入 2026 的开年第一场科技主题演讲。
但这场演讲的核心并不是“热闹”,而是一个更明确的信号:计算产业又一次来到平台重置点,而且这一次是“双平台转换”同时发生。
![]()
每 10~15 年一次平台重置:这一次,AI 让“软件本身”变了
黄仁勋把计算产业的历史复盘了一遍:从主机到 PC、PC 到互联网、互联网到云、云到移动……每一次平台转换,都会带来一次应用世界的重写。
而今天发生的变化更彻底:不仅平台在变,应用的构建方式也在变。
![]()
过去我们写软件、编译软件、让软件运行在 CPU 上;今天我们在 GPU 上运行模型,应用不再是“预先写好的逻辑”,而是能理解上下文、并在每一次交互中从头生成内容——生成每一个像素、每一个 token。
黄仁勋用“计算五层堆栈”来概括这种变化:从硬件到系统到软件再到应用,整个堆栈正在被 AI 重新塑形。这意味着过去十多年累计的、以“经典计算方式”为基础的巨大技术资产——他用“十万亿美元级别”来形容——正在被整体现代化。
钱从哪里来?黄仁勋给出的答案很直接:来自各行各业的研发预算迁移。经典方法的预算正在转向 AI 方法,这就是这波 AI 现代化的燃料。
![]()
从 ChatGPT 到“推理模型”,再到 Agent:2025 的关键转折已经发生
黄仁勋把 2025 形容为“不可思议的一年”,因为一切都像同时发生。
他回顾了几个关键节点:
2015 年左右,语言模型开始真正产生影响;
2017 年 Transformer 出现;
2022 年“ChatGPT 时刻”让世界被唤醒;
而一年后,一个重要的新阶段到来——推理模型开始成为主角。
![]()
他重点提到一种思路:测试时扩展(test-time scaling)。直白说,就是AI 不仅在训练前学习、训练后再用强化学习学技能;在推理阶段,它也需要“实时思考”——思考越多、计算越大、答案通常越好。
紧接着,2024~2025 年,代理系统(Agent)开始遍地开花:它能查找信息、做研究、使用工具、规划未来、模拟结果,开始解决“以前不可能由一个模型独立完成”的重要问题。
黄仁勋还点名了一个“他很喜欢的代理工具”:Cursor。他说它彻底改变了 NVIDIA 内部的软件编程方式。
![]()
AI不只有语言:物理 AI、世界模型与“开放模型的大爆发”
黄仁勋强调,大语言模型并不是宇宙中唯一重要的信息形态。只要世界里存在结构,就可以训练一种“语言模型式”的系统去理解它的表示并形成智能。
其中最关键的一类,是理解自然规律的物理 AI:它不仅要理解物理定律,还要能与物理世界互动。
![]()
而 2025 年另一个最重要的事件,是开放模型的进步与爆发。黄仁勋认为:一旦开源、开放创新全面启动,智能会在任何地方激增——每个公司、每个行业、每个国家,都能同时被激活。
他特别提到一个让世界震惊的开放推理系统进展,并用“它激活了整个运动”来形容开源推理浪潮的引爆效应。
在他看来,开放模型已经逼近前沿:也许仍落后几个月,但每隔几个月就会出现新一代进展,下载量呈爆炸式增长——因为创业公司、研究者、学生、甚至国家都想参与这场革命。
![]()
NVIDIA 为什么自己建 AI 超算:DGX Cloud、开源模型与Nemo 全家桶
黄仁勋提到,几年前 NVIDIA 开始构建并运营自己的 AI 超级计算机体系(DGX Cloud)。外界常问:你们要做云吗?他的回答是否定的——它是为 NVIDIA 自己而建,用来做前沿模型研发。
![]()
他举了很多例子:数字生物学、蛋白质结构理解与生成、地球与天气预测相关模型、以及一些“能长时间思考或快速思考”的新架构探索。
更关键的是,他强调NVIDIA 不只是开源模型,还开源训练这些模型的一套体系:包括用于数据处理、数据生成、训练、评估、护栏到部署的生命周期管理库——他称之为 Nemo 系列库,并延展到物理、医疗、生物等不同领域版本。
![]()
他把 NVIDIA 定位成一种“前沿 AI 模型构建者”,并强调他们以“尽可能开放”的方式构建,让每家公司、每个行业、每个国家都能参与 AI 革命。
![]()
Agent 的真正形态:多模型、多云、混合部署,以及“意图路由器”
黄仁勋把“现代 AI 应用的基本架构”讲得非常直白:未来的 AI 应用天然就是多模态(语音、图像、文字、视频、3D、甚至蛋白质),也天然是多模型的——因为不同任务需要不同模型。
![]()
因此,它也必然是多云的、混合云的:有的模型在云端,有的要跑在企业内网,有的要在边缘设备上,甚至要在医院、基站或机器人本体旁边跑,以获得实时数据与低延迟。
在这个框架里,他提出一个关键组件:基于意图的模型路由器。路由器像一个“经理”,决定哪个任务该调用哪个模型:该留在本地执行的就留在本地,需要最强前沿模型的再去调用云端。
![]()
他顺势给了一个轻量但完整的示例:做一个个人助理,处理日历、邮件、待办事项,甚至连接家里的设备。为了保护隐私,邮件相关任务可以调用本地运行的开放模型;其它任务再调用前沿模型 API。
![]()
现场还演示了一个“会说话的小机器人助理”,能把待办事项同步给 Jensen,能把草图生成建筑渲染并做视频导览,还能远程看家、提醒宠物不要上沙发。
黄仁勋用一句话概括这种震撼感:几年之前这几乎不可想象,而现在“已经变得微不足道”。
![]()
他随后点名了多家企业平台合作,核心意思是:这种 Agent 架构不仅改变开发方式,也将成为企业平台的全新交互界面——从“填表格、点按钮”转向“像与人对话那样使用系统”。
![]()
下一站:物理 AI。三台计算机、Omniverse、Isaac,以及 Cosmos 的合成数据路线
如果说 Agent 是“软件世界的重构”,那黄仁勋认为,物理 AI将把 AI 从屏幕带进真实世界。
他强调,物理 AI 的难点在于“常识”——物体恒常性、因果关系、摩擦力与重力、惯性……对孩子是常识,对 AI 却是未知。要让 AI 学会这些规律,必须构建一整套系统。
![]()
他用“三台计算机”描述物理 AI 的基础架构:
一台用于训练,一台用于推理部署,还有一台专门用于模拟——因为没有模拟,就无法评估动作与世界反应的一致性,数据也永远不够。
在 NVIDIA 的体系里,模拟是核心:Omniverse 是数字孪生与基于物理的仿真世界;Isaac Sim / Isaac Lab 是机器人学习与训练的关键环境;而数据上最大的突破,是把计算变成数据:通过基于物理规律的合成数据生成,规模化制造训练样本,覆盖长尾与边缘情况。
![]()
黄仁勋在演讲中抛出了一个更强的判断:物理 AI 的 ChatGPT 时刻即将到来。
因为现实世界的数据收集太慢、太贵、永远不够,答案只能是合成数据,而这一切在 Cosmos 上开始成型。
![]()
自动驾驶的“推理 AI”:AlphaMyo 与端到端训练、可解释驾驶
演讲的另一条重要线索,是自动驾驶。
![]()
黄仁勋宣布了AlphaMyo,强调它是端到端训练的自动驾驶 AI:从摄像头输入到控制输出,训练数据包含人类示范驾驶与 Cosmos 生成的大规模合成里程,再叠加大量精细标注样本。
![]()
他特别强调一个“可解释性”的点:AlphaMyo 不只是“做动作”,它会解释它将采取什么行动、为什么这么做,并把行动与轨迹耦合起来。
这在长尾驾驶场景里尤其关键——你不可能收集世界上每一个国家、每一种极端情况的真实数据,但如果能把复杂长尾拆解成若干常见的物理交互片段,推理系统就可能在未见过的情境下做出合理决策。
![]()
他还谈到NVIDIA 为什么做自动驾驶:因为 AI 会重塑整个计算堆栈,NVIDIA 必须理解并构建从芯片到基础设施到模型到应用的完整系统能力,才能引导产业走向未来。
![]()
在他的叙述里,车就是“机器人系统”的一种:它需要为安全设计的处理器、冗余的传感器体系、可追踪的全栈软件,以及一个在低置信场景会回退到更安全护栏系统的“双堆栈镜像”策略。
![]()
机器人登场:在 Omniverse 里学会成为机器人
接下来,他把镜头转向更广义的机器人产业:机械臂、移动机器人、人形机器人……尺寸不同、形态不同,但核心问题相似——都需要物理 AI、仿真与数据。
![]()
现场还出现了多个机器人“朋友”,他开玩笑说“没有谁像你们这么可爱”,并强调 Isaac、Omniverse 这类训练体系,会成为未来机器人产业的通用底座。
![]()
把物理 AI 带进工业:Cadence / Synopsys / Siemens,工业生命周期的 AI 化
黄仁勋把物理 AI 的落点指向工业体系:EDA、系统设计、系统仿真、工厂制造与生产线。
![]()
他点到 Cadence 和 Synopsys 在芯片设计世界中的核心地位,并提出一种未来图景:
![]()
未来我们不仅会有“代理软件工程师”,还会有“代理芯片设计师”和“代理系统设计师”。芯片会在电脑里设计,系统会在电脑里仿真,工厂产线会在电脑里搭建并测试——在真正落到重力世界之前,先在数字世界完成大部分验证。
![]()
随后他引出 Siemens 的合作内容:将 NVIDIA CUDA-X 库、AI 模型与 Omniverse 纳入其工业软件产品组合,把物理 AI 带入整个工业生命周期——从设计与仿真,到生产,再到运营。他把这称为“新工业革命的起点”。
![]()
Vera Rubin:为 AI 新前沿而生的下一代计算平台(以及为什么必须“极端协同设计”)
演讲后半段,黄仁勋把重头戏交给了新一代平台:Vera Rubin。
![]()
他先讲了“为什么叫 Vera Rubin”:这位天文学家通过星系旋转曲线的异常发现暗物质存在。
![]()
黄仁勋借此引出“看不见但影响巨大的东西”,并把它对应到 AI时代的计算挑战:模型规模与推理计算暴涨,token 生成量爆发,成本竞争每年剧烈下探——一切最终都变成计算问题。
![]()
在他看来,摩尔定律放缓意味着:单靠工艺进步,不可能跟上模型规模的增长与 token 需求的增长。要跟上,行业必须做“极端协同设计”——同时在整个堆栈的所有关键芯片上创新。
因此,这一代他们几乎“别无选择”,只能重新设计每一个芯片与系统组件。黄仁勋强调:仅仅系统里每一个芯片拿出来都可以单独开发布会。
![]()
他在台上展示了多个实物部件,讲到了 CPU 与 GPU 的联合设计、极高的 I/O 能力、以及在张量计算上通过新型数值/引擎实现的吞吐与精度平衡
除此之外,他还用大量篇幅谈到数据中心系统工程:
从“线缆地狱”到“零线缆”、从两小时组装到五分钟、从风冷到全液冷、热水冷却(45℃)仍能保持高能效;
![]()
以及 Spectrum-X 以太网在 AI 时代的关键作用、BlueField DPU 在虚拟化与安全卸载上的角色、NVLink 交换与超高带宽互联在“让每个 GPU 同时与所有 GPU 交流”上的意义。
![]()
他给出了一个很具冲击力的系统性判断:在千兆瓦级 AI 工厂里,网络每提升一点吞吐都可能对应数十亿美元的价值;因此网络能力不是“配角”,而是 AI 工厂的关键生产力。
![]()
他最后用一组“给造 AI 超算的人看的图表”来总结 Vera Rubin 的意义:训练吞吐、工厂吞吐、token 成本、能效与成本效益,都被推到了下一阶段。
![]()
他把这归结为NVIDIA 的新定位:从“做芯片的公司”,变成“构建完整 AI 堆栈的公司”,覆盖从芯片到基础设施、从模型到应用的全链路重构。
![]()
黄仁勋的“失控花絮”与 CES 的真实感
演讲结束前,黄仁勋还放了一段“外景/花絮”式的片段:麦克风、摄像、滑稽的台词、卡顿的幻灯片、现场的笑点……他说有一堆内容不得不剪掉,但正是这些不完美,让 CES 的现场变得更“人类”。
![]()
在一片喧闹与掌声里,他以一句朴素的收束结束了当天的叙事:NVIDIA 的工作,是把整个堆栈搭出来,让所有人都能在此之上创造应用,推动 AI 进入下一个前沿。
完整实录如下:
大家好,拉斯维加斯,新年快乐。
欢迎来到 CES。我们今天在这里,其实要“塞进来”的内容非常多,大概有15 公斤那么重。但能在现场看到你们所有人,我真的非常开心。
此刻,这个主会场里坐着3000 人。外面的庭院,还有2000 人在同步观看。据我所知,四楼原本用于视频转播的区域里,也还有1000 人在看这场演讲。
基本上,整栋楼的每一层,都在观看这场主题演讲。当然,还有全世界数以百万计的人,正通过直播,与我们一起开启新的一年。
每10 到 15 年,计算机产业就会迎来一次平台级重置。
我们经历过这样的周期:从大型机到个人电脑;从个人电脑到互联网;从互联网到云计算;再从云计算到移动计算。
每一次变化,都会诞生一个全新的平台。而所谓“平台迁移”,真正的含义在于:应用的目标发生了改变。你不再是为旧的计算机写程序,而是为一套全新的计算范式,重新构建应用。
但这一次,情况有些不同。这一次,并不是一次平台迁移,而是两次平台迁移,同时发生。第一条迁移路径,是我们正在从“传统应用”,走向AI 原生应用。
一开始,人们以为“AI 本身就是应用”。而事实上,AI 确实是应用的一种。但更重要的是:我们正在把应用构建在 AI 之上。AI 正在成为新的应用运行平台。
而第二条迁移路径,则更加根本。它不是“你做什么应用”,而是“你如何开发软件、如何运行软件”。整个计算产业的五层技术栈,正在被彻底重塑。
在这个新世界里:你不再是“编程”软件,而是训练软件。你不再主要运行在 CPU 上,而是运行在GPU上。
过去,应用是预先写好、预先编译的,然后在设备上执行;而现在,应用能够理解上下文,并且在每一次运行时,从零生成每一个像素、每一个 token。
也就是说——每一次运行,都是一次全新的生成。正因为加速计算的出现,正因为人工智能的出现,整个计算体系正在被从底层到顶层,全部重建。这五层“计算蛋糕”的每一层,如今都在被重新发明。
这意味着什么?这意味着,在过去十年中,大约10 万亿美元规模的传统计算基础设施,正在被整体现代化,迁移到这种全新的计算方式之中。
这也解释了为什么:每一年,有数千亿美元的风险投资,持续流入这个行业;为什么,一个总规模达到100 万亿美元的产业,其中相当比例的研发预算,正在从传统方法,转向人工智能方法。
人们经常问我:“这些钱到底是从哪里来的?”答案就在这里。它们来自于:对既有计算体系的现代化改造;来自于研发预算从传统路径,转向 AI 路径;来自于整个世界,正在押注一种全新的计算范式。
这就是为什么,我们会如此忙碌。而过去这一年,也完全不例外。
过去这一年,真的非常不可思议。很多事情几乎是在同一时间同时发生的。回头看,它们并不是巧合,而是一次集中式的技术跃迁。
首先发生的,是规模定律(scaling laws)的持续推进。如果回到 2015 年,我第一次看到一个真正可能改变世界的语言模型。它叫BERT。那是第一次让我意识到,自然语言模型不只是一个研究方向,而是一种即将改变计算方式的技术。
随后,在2017 年,Transformer 架构出现了。但直到五年之后,也就是 2022 年,我们才真正迎来了那个被称为 “ChatGPT 时刻”的转折点。
那一刻,世界第一次被真正唤醒。人们开始意识到,人工智能不只是一个工具,而是一种全新的能力平台。
而在那之后,又发生了一件极其重要的事情。
大约一年后,ChatGPT 推出了第一个O1 推理模型。那是第一个真正意义上的“推理模型”。
它并不是简单地生成答案,而是在生成答案之前,进行内部推理。这一次突破,几乎是革命性的。
它引入了一个新的概念,叫做测试时扩展(test-time scaling)。
从直觉上讲,这其实非常符合常识。我们不仅在预训练阶段让模型学习知识,
也在后训练阶段通过强化学习,让模型学会技能,而现在,我们进一步让模型在推理阶段进行“思考”。
换句话说:模型开始在实时运行中,动态地分配计算资源,用于推理本身。
而这三种阶段——预训练、后训练、测试时推理——每一个阶段,都需要极其庞大的计算资源。
计算定律并没有停止。大语言模型仍在持续变得更强。与此同时,另一个重要突破出现了。这个突破,发生在2024 年,并在2025 年开始迅速扩散、全面渗透。
那就是:智能体系统(Agentic Systems)的出现。智能体模型,具备一整套全新的能力。
它们能够推理,能够查找信息,能够做研究,能够使用工具,能够规划未来,能够模拟不同结果。
突然之间,AI 开始能够解决一大类过去几乎无法自动化的重要问题。在英伟达内部,我个人最喜欢的一个智能体模型,叫做Cursor。
它几乎彻底改变了我们在英伟达内部进行软件开发的方式。
而这,仅仅是开始。从现在开始,智能体系统将真正迎来爆发式增长。
当然,我们也很清楚一件事:大语言模型并不是信息世界的全部。信息并不只存在于文本之中。
只要这个世界中存在信息,存在结构,存在规律,我们就可以训练一种“语言模型”,去理解这种信息的表示方式,并把它转化为 AI。
换句话说,语言模型并不局限于语言。
只要世界中存在“可学习的结构”,就存在 AI 的空间。在所有这些方向中,最重要、也最具挑战性的一个方向,就是——物理 AI(Physical AI)。
物理 AI,是理解自然规律的 AI。它不是只理解符号、文本或图像,而是理解这个世界如何真实运作。
当然,物理 AI 的核心,并不仅仅在于“理解”。更重要的是——与世界交互。当 AI 不再只存在于屏幕中,而是开始与现实世界发生互动时,一切都会改变。
这里,我们需要区分两个相关但不同的概念。
第一种,是物理 AI。也就是那些能够感知、决策、并与物理世界互动的 AI 系统,比如机器人、自动驾驶汽车等。
第二种,是AI Physics(物理规律 AI)。这是理解物理定律本身的 AI,能够学习和推断自然界的基本规则。
这两者是相互配合的。
一个与世界互动的 AI,需要理解物理规律;而一个理解物理规律的 AI,最终也必须被用来指导真实世界中的行动。
而在过去一年中,最重要、也最令人振奋的另一件事情,是开放模型的全面进展。
当模型是开放的,当创新是开放的,当每一家企业、每一个行业、每一个国家,都能够在同一时间参与进来,人工智能就不可能只属于少数人。
正是在这种背景下,AI 才会真正实现无处不在的普及。
去年,开放模型真正迎来了爆发。
其中一个最具代表性的事件,是DeepSeek R1的发布。这是第一个真正意义上的开放推理模型。
它让整个世界感到震惊。
不仅因为它的性能,更因为它证明了一件事:推理能力,并不一定只存在于封闭模型中。
DeepSeek R1 的出现,几乎点燃了整个开放模型生态。一个真正的开放 AI 运动,就此被激活。
从那之后,我们看到世界各地涌现出各种各样的开放模型系统。不同架构、不同规模、不同目标,但共同点只有一个:开放正在加速智能的扩散。
我们现在已经可以非常确定地说:开放模型,已经触及 AI 的技术前沿。
是的,它们仍然落后于最前沿的封闭模型,大约六个月左右。但每过六个月,就会有新的开放模型出现,而且它们变得越来越聪明。
正因为如此,你可以看到一个非常明显的现象:下载量正在爆炸式增长。
初创公司希望参与 AI 革命;大型企业希望构建自己的能力;研究人员希望探索新的边界;学生希望学习;几乎每一个国家,都希望参与其中。
因为一个问题摆在所有人面前:数字形态的智能,怎么可能把任何人留在身后?正是在这样的背景下,开放模型在过去一年中,真正重塑了人工智能产业。而这,也正是我们在英伟达很早之前就隐约意识到的一件事。
几年前,你们可能听说过,我们开始自己构建并运营 AI 超级计算机。我们把它们称为DGX Cloud。当时,很多人问我们:“你们是不是要进入云计算业务?”答案是否定的。
我们构建这些 DGX 超级计算机,并不是为了成为云服务商,而是为了我们自己使用。
事实证明,这是一个非常正确的决定。如今,我们已经在全球范围内,运营着价值数十亿美元的 AI 超级计算机集群。它们的核心用途之一,就是用于开发开放模型。
我对这项工作的进展感到非常自豪。因为它正在吸引来自世界各地、各个行业的关注。
原因很简单:我们正在多个不同领域,同时推进前沿 AI 模型的研究。
在这样的基础之上,我们构建的这些模型,不仅是前沿级的,而且在客观评测中同样处于世界领先位置。我们在多个排行榜上长期名列前茅,这也是我们非常自豪的一点。
这些模型覆盖了多个关键方向:它们能够理解多模态文档——也就是我们每天最常见、也最有价值的内容载体,PDF。世界上大量重要的信息都被封装在 PDF 中,但只有借助人工智能,我们才能真正理解其中的结构、语义和含义,帮助人类高效阅读与使用这些内容。
我们的 PDF 检索模型、PDF 解析模型,都处于世界一流水平。
与此同时,我们的语音识别模型同样是世界级的;我们的检索模型,本质上就是现代 AI 时代的语义搜索与 AI 搜索引擎,其能力也同样位居全球前列。我们几乎在所有关键基准上,都处在领先位置,而这一切,最终都是为了一个目标——让你们能够真正构建 AI 智能体。
这正是一个极其关键、也是极具突破性的阶段。
回想 ChatGPT 刚出现的时候,很多人都会说:“它生成的结果很有意思,但经常会出现幻觉。”而幻觉的根源其实并不复杂。模型可以记住过去,却不可能记住现在和未来发生的一切。
因此,如果它没有被扎根在现实信息之中,没有在回答问题之前进行检索、查证和推理,就必然会产生不可靠的输出。
真正重要的能力,在于模型能否判断:我现在是否需要做研究?是否需要调用工具?是否需要把一个复杂问题拆解成多个步骤?而这些步骤本身,又是否是模型已经学会、可以胜任的任务。
当模型具备了这种能力之后,它就可以把这些步骤组合成一个完整的行动链条,去完成一件它从未被直接训练过的事情。这正是“推理”的本质,也是智能体真正令人惊叹的地方。
人类也是如此。我们经常会遇到从未经历过的情境,但我们可以把它拆解成一系列我们熟悉的规则、经验和知识,并据此做出判断和行动。
如今,AI 模型终于开始具备类似的能力。这种推理能力,为无数新的应用场景打开了大门。我们不再需要在第一天就教会 AI 一切;就像人类一样,它可以在面对具体问题时,通过推理找到解决路径。
大语言模型在这一点上实现了真正的飞跃——强化学习、思维链、搜索、规划,这一整套方法体系,让这种能力第一次变得系统化、可工程化,而且现在,这些能力也正在被逐步开源。
而真正让我感到震撼的,是另一个关键突破。我第一次清楚意识到这一点,是在看到Aravind创办的Perplexity时。
Perplexity 是一家做 AI 搜索的公司,非常具有创新性。当我意识到他们在同一个推理链条中,同时调用多个模型时,我觉得这简直是天才般的设计。
仔细想想,这其实再合理不过了:如果 AI 要解决一个复杂问题,为什么不在推理的不同阶段,调用世界上最适合那个任务的 AI 呢?
这正是为什么,现代 AI 天生就是多模态的——它理解语音、图像、文本、视频、三维结构,甚至蛋白质;
同时,它也是多模型的——它会根据任务选择最合适的模型;它天然是多云的,因为这些模型分布在不同的地方;同时,它也必然是混合云的。
如果你是一家企业,或者你正在构建一台机器人,那么有些计算发生在云端,有些发生在边缘,有些发生在工厂,有些发生在医院——数据必须就在你身边,实时可用。
因此,这正是未来 AI 应用的基本形态。换一种说法:既然未来的应用是构建在 AI 之上的,那么这套智能体架构,就是未来应用的基础结构。正是这种多模型、多模态、可推理、可调用工具的架构,极大地加速了各类 AI 创业公司的成长。
再加上开放模型与开放工具的出现,你现在不仅可以使用最前沿的能力,还可以定制属于你自己的 AI,教会它只有你才掌握的技能——那些来自你所在行业、你所在公司的深度知识。这正是我们在 Nemotron、NeMo,以及整个开放模型体系中所要实现的目标。
在这种架构下,你通常会在前面放置一个智能路由器。这个路由器就像一个管理者,它会根据你给出的提示意图,判断当前任务最适合由哪一个模型来完成。
需要处理邮件的请求,就留在本地运行;需要通用推理的部分,就调用前沿模型。这样一来,你既拥有高度定制化的 AI,又始终站在技术前沿——一端是你独有的领域能力,另一端是不断进化的前沿智能,而这一切,只需要“让它跑起来”即可。
为了让大家真正理解这种智能体架构在现实中的样子,我们做了一件事:把它完整地搭建出来,而且不是作为一个概念演示,而是作为一个真实可运行的系统。
我们把这种可复用的系统设计,称之为Blueprints。Blueprint 并不是某一个模型,而是一整套经过验证的 AI 系统组合方式,它包括模型选择、推理流程、工具调用、数据路径,以及最终如何把结果交付给用户。
其中一个 Blueprint,就是个人 AI 助理。这个助理并不是一个聊天机器人,而是一个能够真正帮你完成任务的系统。它可以帮你读取邮件、总结信息、安排日程、检索资料、生成内容,并在必要时主动调用外部工具。
当你向它提出一个请求时,它不会立刻给你一个答案,而是先判断:这是不是一个需要研究的问题?是不是一个需要多步推理的问题?是不是一个需要访问你个人数据的问题?然后,它会把这个请求拆解成多个子任务,分别交给最合适的模型来完成,最后再把结果整合起来,形成一个你真正能用的输出。
在这个过程中,有些模型运行在云端,有些运行在本地,有些运行在你自己的服务器上。
对你来说,这一切都是透明的;你只看到结果,但背后是一整套复杂而精密的系统在协同运作。这正是我们所说的混合 AI,也是未来所有严肃 AI 应用的基本形态。
为了支持这种架构,我们构建了一整代全新的计算系统。你们可能已经听说过DGX Spark。它并不是一台传统意义上的服务器,而是一个为 AI 原生应用而生的计算节点。它足够小,可以放在办公室、实验室,甚至工厂里;同时,它又足够强,可以支撑本地推理、数据处理和智能体运行。当你把 DGX Spark 与云端的 DGX 系统连接起来时,你就拥有了一套真正意义上的端云协同 AI 基础设施。
这件事之所以重要,是因为物理 AI的时代已经到来。机器人、自动化系统、工业设备,它们不可能把所有计算都放到云端。它们必须在本地感知环境、实时做出决策,同时又能够在需要时,调用云端的更强算力进行规划、学习和更新。这种“本地即智能、云端即大脑”的架构,是物理 AI 唯一可行的路径。
在舞台上,我们展示了多个这样的 Blueprint 示例,包括机器人系统。你会看到,机器人并不是被一行一行代码“写”出来的,而是通过感知、推理、规划和执行,完成复杂动作。
它们可以理解语言指令,把语言映射为物理行动;可以在环境变化时重新规划路径;可以在失败之后进行自我修正。这并不是一个单一模型的能力,而是一整套 AI 系统协同工作的结果。
而这,正是为什么我们如此强调系统级创新。单一模型的性能提升固然重要,但真正改变世界的,是这些模型如何被组合、如何被部署、如何在现实环境中长期稳定运行。Blueprint 的意义就在这里——它把复杂性封装起来,让开发者、企业和研究人员,可以在此基础之上快速构建自己的 AI 应用,而不必从零开始。
当我们真正开始构建这些 AI 系统时,有一件事变得异常清晰:AI 已经不再是某一层的软件问题,而是整个计算体系的问题。如果计算基础设施不能被彻底重构,那么所有关于智能体、物理 AI、自动驾驶和机器人的设想,最终都会卡在现实世界的瓶颈上。
这也是为什么,我们必须从最底层开始重新思考计算。
AI 的计算负载,与传统计算完全不同。它不是稳定、线性的,而是高度动态的;不是以单次执行为主,而是以持续推理为核心。模型在“思考”的时候,会在极短时间内拉满算力、内存和网络带宽,然后又迅速回落。这种计算模式,对芯片、互连、系统、电力和散热,提出了前所未有的要求。
因此,我们不再把 GPU、CPU、网络、存储视为彼此独立的部件,而是把它们当作一个整体系统来设计。这正是我们反复强调的——极限协同设计。
在这个体系中,芯片不再只是追求单点性能,而是为整个系统服务;网络不再只是连接,而是成为计算的一部分;系统不再只是承载,而是主动参与调度与优化。只有在这样的前提下,AI 才能真正扩展到前所未有的规模。
这正是Blackwell 之后,我们为什么必须再向前迈出一大步。
过去几年里,Blackwell 为 AI 训练和推理奠定了一个全新的基线。但很快我们就意识到,如果只是沿着同样的路径继续前进,是远远不够的。模型规模在加速增长,推理复杂度在急剧上升,token 的生成方式正在从“回答”转向“思考”,所有这些变化,都在逼迫我们重新发明整个计算平台。
于是,我们开始设计一个全新的系统。不是一块芯片。不是一台服务器。而是一个完整的 AI 超级计算平台。
这就是Vera Rubin。
Vera Rubin 并不是某一代产品的代号,而是一个象征。它象征着我们已经进入一个阶段:计算的瓶颈,不再在单一部件上,而在系统整体的协同效率上。在这个平台中,每一个决策——从晶体管如何使用,到数据如何流动——都是围绕 AI 的真实负载来做出的。
在设计 Vera Rubin 的过程中,我们面临的最大挑战,并不是“如何把性能再提升一点”,而是:如何在物理极限逐渐逼近的情况下,仍然实现数量级的跃迁。摩尔定律正在放缓,单靠晶体管数量的增长,已经无法支撑 AI 的发展速度。
如果模型规模每年增长 10 倍,如果推理 token 每年增长 5 倍,如果成本还要持续以数量级下降,那么整个计算体系就必须发生质变。
答案只有一个:在整个系统层面进行同时创新。
这也是为什么,在这一代平台中,我们选择重新设计所有关键组件。CPU、GPU、网络芯片、交换机、系统结构、电力与散热——没有任何一层可以保持不变。因为只要其中任何一层跟不上,整个系统都会被拖慢。
Vera Rubin 正是在这样的背景下诞生的。它不是一次渐进式升级,而是一次系统级重构。它的目标非常明确:为 AI 的下一个十年,提供一个足够强大、足够高效、足够可扩展的计算基础。
当我们真正开始定义 Vera Rubin 这个平台时,我们首先要解决的,不是“性能还能不能再快一点”,而是一个更根本的问题:数据在系统中,究竟应该如何流动。
在 AI 计算中,真正昂贵的,并不是计算本身,而是数据的移动。每一次跨芯片、跨节点、跨机架的数据传输,都会带来延迟、功耗和效率损失。而随着模型规模的不断扩大,这个问题会被无限放大。
因此,在 Vera Rubin 中,我们从一开始就选择了一条非常激进的路线:把多个关键计算单元,作为一个整体来协同设计。
这也是为什么,Vera Rubin 并不是一颗“更大的 GPU”,而是一个由六颗核心芯片组成的协同系统。这六颗芯片并不是简单地堆叠在一起,而是通过极高带宽、极低延迟的互连,被设计成一个几乎“不可分割”的整体。
在这个系统中,GPU、CPU、内存控制逻辑、网络接口,不再是松散拼接的模块,而是围绕 AI 负载进行深度融合。它们共享统一的视图,能够以极高效率访问彼此的数据,就像是在同一块硅片上工作一样。
为了实现这一点,我们在互连技术上投入了极大的精力。NVLink 在这一代平台中,已经不再只是 GPU 之间的高速通道,而是整个系统的“神经网络”。数据不需要绕远路,不需要经过多层转发,而是可以在需要的时刻,直接流向需要它的地方。
这件事情听起来很抽象,但它的结果非常直观:模型在推理时,可以更长时间地保持“思考状态”;更多的上下文可以常驻在高速内存中;系统不再频繁地因为等待数据而空转。
与此同时,网络本身也发生了根本变化。
在传统数据中心中,网络只是负责把机器连在一起。但在 AI 数据中心中,网络本身就是计算的一部分。
在 Vera Rubin 平台中,我们把Spectrum-X网络体系深度嵌入到整体设计之中。交换机、网卡、拓扑结构、调度逻辑,全都围绕 AI 的通信模式来优化。模型在训练和推理过程中,会不断进行大规模的梯度同步、参数广播和上下文交换,而这些操作,已经成为系统的主要负载之一。
因此,我们不再允许网络成为瓶颈。在这个平台上,网络的吞吐、延迟和可预测性,必须与计算本身同等重要。
同样重要的,还有内存系统。在 AI 推理时代,内存的角色已经发生了变化。
它不再只是用来“存放权重”,而是用来承载推理过程本身。KV cache、上下文窗口、中间状态,这些内容必须尽可能长时间地留在高速内存中,才能支持更复杂、更长链路的推理。
因此,Vera Rubin 的内存体系,是为“持续推理”而设计的。我们追求的不是峰值容量,而是可持续、高带宽、低延迟的访问能力。只有这样,模型才能真正“停下来思考”,而不是被迫在计算与数据移动之间来回切换。
当你把这些因素放在一起看,就会发现一件事:Vera Rubin 并不是在追求某一个指标的极限,而是在追求整个系统效率的极限。
这也是为什么,我们必须同时重构计算、互连、网络、内存、电力和散热。因为在这个规模上,任何一处效率损失,都会被成千上万倍地放大。
最终,我们得到的,不只是一个更快的平台,而是一个为 AI 原生设计的计算生态系统。它能够随着模型规模的增长而扩展,能够随着推理复杂度的提升而进化,也能够在未来十年中,持续支撑 AI 的发展。
当你把视角从单一系统继续拉远,就会发现,真正的挑战并不止于一台机器,而是在数据中心尺度上,如何让这些系统协同工作。因为一旦 AI 模型开始进入大规模训练与持续推理阶段,问题就不再是“一台系统有多快”,而是“成千上万台系统,能否像一台机器一样工作”。
这正是我们在 Vera Rubin 平台上,必须同时考虑机架级、集群级、数据中心级设计的原因。我们不再把服务器简单地一台一台堆放,而是把整个机架视为一个计算单元。计算、网络、电力和散热,必须在机架层面完成统一设计,才能保证系统在满负载运行时,仍然具备可预测的性能。
在这种架构下,我们构建了所谓的超节点(Supernode)。一个超节点并不是某一台特别强的机器,而是一组通过高速互连、统一调度、共享内存视图的系统集合。在 AI 负载看来,这些系统就像是一块连续扩展的计算资源,而不是彼此独立的节点。这一点,对于大模型训练和长上下文推理来说,至关重要。
当模型规模继续扩大,通信量会呈指数级增长。如果系统在这个阶段出现任何不均衡,哪怕只是极小的延迟抖动,都会被迅速放大,最终拖慢整个训练过程。因此,在超节点层面,我们对拓扑结构、带宽分配和调度策略进行了深度优化,确保数据在系统中始终走最短、最可预测的路径。
当然,所有这些计算能力,最终都会转化为一个非常现实的问题:能耗。
AI 数据中心的功耗规模,已经远远超过了传统数据中心。训练一个前沿模型,所消耗的电力,足以支撑一座中型城市的部分用电需求。如果我们不能在能效上实现突破,那么 AI 的发展本身就会受到物理和经济条件的限制。
因此,在这一代平台中,我们把能效作为系统设计的核心指标之一。每一次数据移动、每一次计算调度、每一次网络通信,都会被纳入整体能耗模型之中进行优化。我们的目标,并不是简单地降低功耗,而是在单位能耗下,完成尽可能多的有效推理与训练工作。
这也直接推动了散热技术的演进。空气冷却已经无法满足如此高密度的计算需求,于是我们大规模引入了液冷系统。通过液冷,我们不仅能够更有效地带走热量,还能够让系统在更稳定的温度区间内运行,从而提高可靠性和寿命。这些看似“工程细节”的东西,实际上决定了 AI 是否能够长期、可持续地运行在现实世界中。
当你把计算、网络、能耗和散热放在一起看,就会发现:现代 AI 数据中心,本身就是一台巨大的计算机。
它不是由零散的服务器拼凑而成,而是一个从底层物理到上层软件高度协同的系统。正是在这样的系统之上,AI 才能以我们今天看到的速度不断进化。
也正因为如此,我们才会反复强调:AI 的未来,不仅仅属于模型研究人员,也属于系统工程师、电力工程师、网络工程师,以及所有参与构建这一基础设施的人。只有当整个系统协同进化,AI 才能真正走向规模化应用。
当这些计算平台真正具备规模之后,一个新的问题就摆在我们面前:这些能力,究竟要以什么形式被使用?
并不是所有 AI 都应该运行在同一个地方。有些 AI 需要运行在超大规模的数据中心中,用来训练前沿模型、进行复杂规划和长期推理;有些 AI 需要运行在企业自己的数据中心里,靠近私有数据和业务系统;还有一些 AI,必须运行在本地设备、工厂、医院、汽车和机器人中,进行实时决策。
因此,AI 的未来,一定是多层次的。
这也是为什么,我们在设计整套平台时,从一开始就假设:AI 会同时存在于云端、企业内部和边缘侧。这并不是权宜之计,而是一种必然结果。数据的生成地点,决定了计算的部署位置;延迟、安全、合规性,这些现实因素,决定了 AI 不可能被集中在某一个地方。
在云端,我们与全球几乎所有主要的云服务商合作。这些云平台,正在成为前沿模型训练与大规模推理的核心载体。而在这些云中运行的,并不仅仅是“通用 AI”,而是越来越多针对行业定制的模型与系统。
在企业侧,我们看到一种非常明确的趋势:企业并不想把最核心的数据完全交给外部。它们希望在自己的环境中,构建、运行并控制 AI。这催生了所谓的企业 AI 工厂——一个专门用来训练、微调、部署和运营 AI 的基础设施。
在这种架构下,企业不再只是“使用 AI”,而是开始拥有 AI。它们可以把自身几十年积累的数据、流程和知识,转化为独有的智能能力,而这正是 AI 真正产生长期价值的方式。
而在越来越多的国家,我们还看到了另一种需求:主权 AI(Sovereign AI)。
每一个国家,都拥有自己的语言、文化、法律体系和社会结构。它们也拥有自己的数据资源和战略目标。
因此,越来越多的国家意识到:如果 AI 成为未来的基础能力,那么它就不应该完全依赖外部。一个国家必须能够在本土训练模型、运行模型、控制数据,并确保这些系统符合本国的价值观和法律体系。
这并不是一个技术问题,而是一个国家级基础设施问题。
而主权 AI 的实现,离不开强大的本地计算能力、开放的模型生态,以及完整的工具链。这正是我们在多个国家与政府、科研机构和本地企业合作的原因。我们的目标,并不是替代任何人,而是赋能各个地区,构建属于他们自己的 AI 能力。
当你把云、企业、本地和主权 AI 放在一起看,就会发现:AI 并不是一个单一形态的产品,而是一整套分布式智能系统。
而支撑这套系统运行的,正是我们前面所讲的那整套计算平台、网络体系和软件工具。无论 AI 运行在哪里,它们背后遵循的都是同样的原则:高效的数据流动、可预测的性能、可扩展的架构,以及长期可持续的运行能力。
这也是为什么,我们并不是在“卖芯片”,而是在构建一个完整的 AI 基础设施生态。
当 AI 真正离开屏幕、进入现实世界时,一切都会变得更加具体,也更加严苛。因为在物理世界中,错误是有成本的,延迟是不可接受的,系统必须在复杂、不确定、持续变化的环境中稳定运行。这正是为什么,汽车与机器人,会成为物理 AI 最重要、也最具代表性的落地场景。
先从汽车开始。自动驾驶,本质上并不是一个“视觉识别问题”,而是一个完整的物理 AI 系统。它需要实时感知环境、理解三维空间结构、预测其他参与者的行为,并在极短时间内做出安全决策。这些能力,并不是通过规则堆叠实现的,而是通过大规模数据训练、仿真和持续学习逐步获得的。
因此,我们从一开始就把自动驾驶视为一个端到端的 AI 系统工程。从车端的感知与推理,到数据中心中的训练与仿真,再到模型的持续迭代,这是一条完整的闭环。
汽车在现实世界中行驶,每一天都会产生海量数据;这些数据被送回数据中心,用于训练更好的模型;而更好的模型,再被部署回车辆之中。这正是 AI 在物理世界中不断进化的方式。
机器人也是如此,甚至更加复杂。
一个机器人面对的,并不是结构化的道路环境,而是高度多样化、充满不确定性的真实空间。地面可能是光滑的,也可能是松软的;物体可能是刚性的,也可能是柔性的;人类的行为更是难以预测。在这样的环境中,机器人如果只依赖预先编程的动作,是不可能规模化的。
因此,我们必须让机器人具备真正的感知、推理和学习能力。
这也是为什么,我们在机器人领域构建的,不是某一个单点模型,而是一整套系统:从感知模型到运动模型,从世界建模到策略规划,再到在仿真环境中进行大规模训练。机器人并不是被“写”出来的,而是被“训练”出来的。它们通过在虚拟世界中反复尝试、失败和修正,逐步学会如何在现实世界中行动。
在这个过程中,仿真扮演着至关重要的角色。
现实世界的数据是昂贵的、缓慢的,而且充满风险;而仿真世界则可以被无限复制、加速和控制。通过高保真的物理仿真,我们可以在虚拟环境中生成海量训练数据,让机器人和自动驾驶系统在“安全的失败”中不断学习。这正是为什么,我们把仿真视为物理 AI 的核心基础设施之一。
而当这些系统真正开始工作时,你会发现一个非常重要的事实:物理 AI 从来不是单点部署的。它们总是运行在一个端云协同的体系中。机器人在本地进行实时感知与决策,而更复杂的规划、模型更新和策略学习,则发生在云端或数据中心中。这种协同,是物理 AI 唯一可行的运行方式。
正因为如此,我们才会看到,越来越多的行业开始真正拥抱物理 AI。制造业、物流、医疗、能源、农业,这些领域都存在着大量需要“理解世界并采取行动”的任务。AI 在这些场景中的价值,并不体现在生成一段文本,而体现在提高效率、降低风险、扩展人类能力。
而这一切的前提,是我们必须拥有足够强大、足够可靠的计算平台,来支撑这些系统长期运行。物理 AI 不是一次性的部署,而是一项持续数十年的工程。系统必须可以更新、可以扩展、可以在真实世界中不断学习和进化。
当我们把所有这些变化放在一起看,就会意识到:人工智能并不是一个短期趋势,而是一场长期、结构性的产业重构。它不仅改变了软件如何被编写,也改变了硬件如何被设计,更改变了企业如何运作、国家如何建设基础设施,以及人类如何与技术协作。
我们正在进入一个新的阶段。在这个阶段里,AI 不再只是提升效率的工具,而是一种新的生产要素。它像电力一样,成为所有行业的基础能力;又像互联网一样,重塑了信息、服务和价值的流动方式。而与以往任何一次技术革命不同的是,这一次,AI 正在同时重构数字世界与物理世界。
这意味着,未来十年中,几乎每一个行业,都会被重新发明。制造、物流、交通、医疗、能源、金融、科研——这些领域中的工作方式,将不再以“人如何操作机器”为核心,而是转向“人如何与智能系统协同”。AI 将承担越来越多的认知与执行任务,而人类则专注于创造、判断与价值选择。
从产业的角度看,这也是一个规模前所未有的机会。我们看到,全球范围内正在形成一个新的产业基础——AI 工厂。这些工厂并不生产实体商品,而是生产智能本身:模型、推理能力、决策系统和自动化流程。它们需要巨大的计算能力、稳定的能源供应、先进的网络体系,以及高度专业化的软件工具。
正是在这样的背景下,我们判断:未来十年,将是AI 基础设施建设的黄金十年。这不仅仅是关于芯片或服务器的需求增长,更是关于整个系统——从数据中心到边缘设备,从云端到本地,从模型到应用——的全面升级。
而在这一过程中,有一点至关重要:这场变革必须是开放的。
如果 AI 只掌握在少数人手中,它就无法真正释放潜力;如果 AI 无法被各行各业、各个国家所使用,它就不可能成为真正的基础能力。
因此,我们始终坚持一个原则:推动开放的平台、开放的模型、开放的生态。我们希望看到的是一个多样化的 AI 世界——不同的模型、不同的架构、不同的应用,共同推动智能向前发展。
对我们来说,这并不是一条容易的路。构建这样的系统,需要巨大的投入、长期的耐心,以及跨越多个学科的协作。
但这也是一条值得走的路。
因为我们相信,人工智能最终的价值,不在于替代人类,而在于扩展人类的能力;不在于制造更多的工具,而在于帮助人类解决那些过去无法解决的问题。
这正是我们在英伟达每天所做的事情。也是我们对未来十年,最坚定的信念。
谢谢大家。新年快乐。
欢迎来到 AI 的新时代。
![]()
前沿动态前沿大会
前沿人物
点「在看」,给前前加鸡腿
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.