“AI春晚”上，DeepSeek回答了一道题，黄仁勋满意地笑了|gpu|机器人|ai春晚|deepseek

“AI春晚”上，DeepSeek回答了一道题，黄仁勋满意地笑了

2025-03-19 13:58:47　来源: 九千光年

浙江举报

分享至

中国科技迷口中“AI春晚”的说法被黄仁勋盖了个章。

今天凌晨，英伟达年度GPU技术大会（以下简称：GTC）上，老黄开场时直言，“去年GTC被称为AI行业的‘伍德斯托克摇滚音乐节’，今年我们搬进了体育场成为AI行业的‘超级碗’”。

这个“喜欢穿皮夹克、把事情重复三次的人”科技大佬，一口气讲了2个多小时，介绍了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。

他强调，AI的发展已经从生成式AI（Generative AI）迈向智能体AI（Agentic AI），后面将是影响物理世界的Physical AI。重点是，这一过程对算力的需求不仅不会下降，还会进一步增长。

被他用来解释这点的，是一夜间让英伟达市值蒸发3万亿美元的DeepSeek。

算力需求

将轻松超过现在的100倍

今年春节前后，横空出世的DeepSeek就打破了英伟达引以为傲的“壁垒” 。与动辄数亿甚至上百亿美元的国外大模型项目相比，DeepSeek以极低的算力成本完成了开发。整个科技圈都在发问：“我们真的需要这么多GPU吗？”

为了回答这个问题，老黄刻意把新品发布的时间往后推，分享了自己对AI发展路径的看法。

他将近些年和不久将来的AI进化路线分成Perception AI（感知人工智能）、Generative AI（生成式AI）、Agentic AI（智能体）、Physical AI（具身AI）四个阶段。目前，Agentic AI方兴未艾。

生成式AI阶段多聚焦于理解，比如让机器知道一段文字表达什么意思，以此来生成图片、视频，而Agentic AI阶段更聚焦于推理，强调的是机器的自主性与复杂问题解决能力，每一步都需要用到“模型推理”。

而后者对算力的需求要大很多。

为了解释这点，黄仁勋现场举了一个例子：“在我的婚宴上，需要7个人围着一张桌子坐，我的父母和岳父岳母不应该坐在一起。而且，我媳妇坚持说她坐在我左边照相时会更好看，但同时我需要坐在伴郎旁边。我们这一轮怎么坐？如果我们邀请牧师和我们坐在一起呢？”

把这一段提示词丢给代表两种技术范式的开源模型——Llama3.3和DeepSeek-R1，看它们所消耗的tokens（指模型处理文本时的基本单位）分别是多少？

最后的结果是：Llama3.3作为上一代大语言模型，用不到500个tokens快速回答，但安排的客人座位并不满足要求；R1作为推理模型，用掉8000多个tokens得出了正确答案。两者的差别在于，前者的大语言模型只尝试了一次，后者的推理模型尝试了所有不同的可能性，然后反思、验证了自己的答案。

也就是说，以强化学习为主导的推理类应用，消耗了更多的tokens、但也让AI应用变得越来越可靠。当AI从生成式AI，迈向Deep Research、Manus这样的Agentic AI应用时，每一层计算都不同，所需要的tokens比想象的多得多。

黄仁勋认为，推理所需算力需求规模增长能“轻松超过现在的100倍”，未来行业需要更多、性能更强的AI芯片。根据他的预测，数据中心的建设投入到2028年将达到1万亿美元，“相当确定很快就会达到这个目标”。

具身智能领域布局初具锋芒

为了达到这一目标，英伟达发布了新款DGX Spark和DGX Station个人AI计算机，被称为“AI时代的超级计算机”，由Grace Blackwell平台支持。

其中，DGX Spark搭载GB10 Blackwell芯片，提供第五代Tensor Core和FP4支持，配有128GB统一内存和高达4TB的NVMe SSD存储，AI计算能力高达每秒1千万亿次运算，今日开启预订，售价3000美元起。

DGX Station可容纳GB300 Blackwell Ultra芯片，能提供每秒20千万亿次运算的AI性能和784GB统一系统内存，目前尚未定价。

为优化AI工作流程，英伟达还推出新的Spectrum-X硅光子以太网交换机，属于Spectrum-X光子以太网和Quantum-X光子InfiniBand平台。该交换机每端口速度达1.6太比特每秒，能为AI工厂节省3.5倍能源，提高10倍弹性。

另外还发布了一款新型的AI 推理服务软件Dynamo。它协调和加速数千个GPU之间的推理通信，并使用分解服务将大型语言模型的处理和生成阶段分离在不同GPU上。这允许每个阶段根据其特定需求进行独立优化，并确保最大程度地利用GPU资源。

大会压轴则是展示了一系列机器人技术成果，其中Isaac GR00T N1是世界首个开放、完全可定制的通用人形推理和技能基础模型。它采用双系统架构，灵感源于人类认知原理，在视觉语言模型支持下可执行多种任务，开发人员能从少量人类演示中生成大量合成动作数据，用于机器人操作训练。

比如，NVIDIA使用Blueprint的首批组件，在11小时内生成了78万个合成轨迹，相当于6500小时（约9个月）的人类演示数据。Isaac GR00T N1的相当一部分数据就来自于此，这些数据使得GR00T N1的性能比仅使用真实数据提高了40%。

换句话说，英伟达悄悄地完成了在具身智能领域算法（模型）、数据和算力的布局和整合。

文 | 刘永丽

VIEW MORE

@杭州城北藏着一个“疯狂星期四” >>

@当阿里不再是“该死的零售商” >>

@华人“芯”事 >>

@浙大先生>>

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.