中国科技迷口中“AI春晚”的说法被黄仁勋盖了个章。
今天凌晨,英伟达年度GPU技术大会(以下简称:GTC)上,老黄开场时直言,“去年GTC被称为AI行业的‘伍德斯托克摇滚音乐节’,今年我们搬进了体育场成为AI行业的‘超级碗’”。
这个“喜欢穿皮夹克、把事情重复三次的人”科技大佬,一口气讲了2个多小时,介绍了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。
他强调,AI的发展已经从生成式AI(Generative AI)迈向智能体AI(Agentic AI),后面将是影响物理世界的Physical AI。重点是,这一过程对算力的需求不仅不会下降,还会进一步增长。
被他用来解释这点的,是一夜间让英伟达市值蒸发3万亿美元的DeepSeek。
算力需求
将轻松超过现在的100倍
今年春节前后,横空出世的DeepSeek就打破了英伟达引以为傲的“壁垒” 。与动辄数亿甚至上百亿美元的国外大模型项目相比,DeepSeek以极低的算力成本完成了开发。整个科技圈都在发问:“我们真的需要这么多GPU吗?”
为了回答这个问题,老黄刻意把新品发布的时间往后推,分享了自己对AI发展路径的看法。
他将近些年和不久将来的AI进化路线分成Perception AI(感知人工智能)、Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)四个阶段。目前,Agentic AI方兴未艾。
生成式AI阶段多聚焦于理解,比如让机器知道一段文字表达什么意思,以此来生成图片、视频,而Agentic AI阶段更聚焦于推理,强调的是机器的自主性与复杂问题解决能力,每一步都需要用到“模型推理”。
而后者对算力的需求要大很多。
为了解释这点,黄仁勋现场举了一个例子:“在我的婚宴上,需要7个人围着一张桌子坐,我的父母和岳父岳母不应该坐在一起。而且,我媳妇坚持说她坐在我左边照相时会更好看,但同时我需要坐在伴郎旁边。我们这一轮怎么坐?如果我们邀请牧师和我们坐在一起呢?”
把这一段提示词丢给代表两种技术范式的开源模型——Llama3.3和DeepSeek-R1,看它们所消耗的tokens(指模型处理文本时的基本单位)分别是多少?
最后的结果是:Llama3.3作为上一代大语言模型,用不到500个tokens快速回答,但安排的客人座位并不满足要求;R1作为推理模型,用掉8000多个tokens得出了正确答案。两者的差别在于,前者的大语言模型只尝试了一次,后者的推理模型尝试了所有不同的可能性,然后反思、验证了自己的答案。
也就是说,以强化学习为主导的推理类应用,消耗了更多的tokens、但也让AI应用变得越来越可靠。当AI从生成式AI,迈向Deep Research、Manus这样的Agentic AI应用时,每一层计算都不同,所需要的tokens比想象的多得多。
黄仁勋认为,推理所需算力需求规模增长能“轻松超过现在的100倍”,未来行业需要更多、性能更强的AI芯片。根据他的预测,数据中心的建设投入到2028年将达到1万亿美元,“相当确定很快就会达到这个目标”。
具身智能领域布局初具锋芒
为了达到这一目标,英伟达发布了新款DGX Spark和DGX Station个人AI计算机,被称为“AI时代的超级计算机”,由Grace Blackwell平台支持。
其中,DGX Spark搭载GB10 Blackwell芯片,提供第五代Tensor Core和FP4支持,配有128GB统一内存和高达4TB的NVMe SSD存储,AI计算能力高达每秒1千万亿次运算,今日开启预订,售价3000美元起。
DGX Station可容纳GB300 Blackwell Ultra芯片,能提供每秒20千万亿次运算的AI性能和784GB统一系统内存,目前尚未定价。
为优化AI工作流程,英伟达还推出新的Spectrum-X硅光子以太网交换机,属于Spectrum-X光子以太网和Quantum-X光子InfiniBand平台。该交换机每端口速度达1.6太比特每秒,能为AI工厂节省3.5倍能源,提高10倍弹性。
另外还发布了一款新型的AI 推理服务软件Dynamo。它协调和加速数千个GPU之间的推理通信,并使用分解服务将大型语言模型的处理和生成阶段分离在不同GPU上。这允许每个阶段根据其特定需求进行独立优化,并确保最大程度地利用GPU资源。
大会压轴则是展示了一系列机器人技术成果,其中Isaac GR00T N1是世界首个开放、完全可定制的通用人形推理和技能基础模型。它采用双系统架构,灵感源于人类认知原理,在视觉语言模型支持下可执行多种任务,开发人员能从少量人类演示中生成大量合成动作数据,用于机器人操作训练。
比如,NVIDIA使用Blueprint的首批组件,在11小时内生成了78万个合成轨迹,相当于6500小时(约9个月)的人类演示数据。Isaac GR00T N1的相当一部分数据就来自于此,这些数据使得GR00T N1的性能比仅使用真实数据提高了40%。
换句话说,英伟达悄悄地完成了在具身智能领域算法(模型)、数据和算力的布局和整合。
文 | 刘永丽
VIEW MORE
@杭州城北藏着一个“疯狂星期四” >>
@当阿里不再是“该死的零售商” >>
@华人“芯”事 >>
@浙大先生>>
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.