网易首页 > 网易号 > 正文 申请入驻

直击GTC:1万亿美元GPU、为龙虾做“CUDA”,老黄就指着你烧 token 了

0
分享至


周一笑 |zhouyixiao@pingwest.com
王兆洋 | wangzhaoyang @pi ngwest.com

今年显然又是英伟达这家33岁公司又一个关键时刻,人们像期待数码产品一样期待它的芯片更新,对超预期的财报甚至都提不起兴趣,眼看有些江郎才尽的时刻,黄仁勋又带来了新的故事。

3月16日,在2026年英伟达GTC大会上,黄仁勋做了万众期待的主旨演讲。人们看待英伟达,关心和担心的都是它的增长。而今年GTC,一个花20亿美金收购来的Groq,一个突然就改变了一切并看起来解决了“应用普及问题”的OpenClaw,成了增长故事里的绝对主角。

Groq的新芯片融入英伟达体系后,英伟达宣称会给它的客户们解锁一个3000亿美金的增量市场;


同时英伟达也会把Groq更深入融入下一代芯片架构Feynmann 里;

而在他绝对不会迟到的“小龙虾”狂热里,黄仁勋要让英伟达变成OpenClaw们的底层,再次上演一出CUDA同样的戏码。

尽管相比GTC最辉煌的那些发布,今年的整个发布的大多时间显得有点乏善可陈,但这些已经足够让黄仁勋信心满满,他表示:

2025年到2027年,英伟达的芯片生意将会继续上涨,涨到1万亿美金。

1

Vera Rubin + Groq,七颗芯片合体

黄仁勋展示了他形容为全新的AI基础设施层的全貌。

他不再举着一颗芯片说“this is our new GPU”了。他把整个Vera Rubin机架搬上了舞台,说这一次英伟达想的是整套系统,从芯片到软件到互连,端到端垂直整合,作为一台超级计算机来优化。


上一代Blackwell Ultra已经实现了对比Hopper 50倍的吞吐效率提升,而Vera Rubin + Groq在此基础上又把前沿推到了新的区间,这套系统由七颗芯片组成。核心Rubin GPU采用台积电3nm工艺,双芯片封装,336B晶体管,配备288GB HBM4内存和22TB/s带宽,NVFP4推理性能达到50 PFLOPs,比上一代Blackwell提升5倍,训练性能35 PFLOPs,提升3.5倍。配套的Vera CPU是88核定制Arm架构(代号Olympus),176线程,全球首款在数据中心采用LPDDR5的CPU,专门为Agent推理场景下的高单线程性能和数据处理做了优化。黄仁勋说这颗CPU独立卖“肯定会成为数十亿美元的业务”。

但今晚真正的新闻是第七颗芯片,Groq 3 LPU。去年圣诞夜英伟达花200亿美元拿下Groq的技术授权和核心团队,今天是首次产品落地,而且已经在量产。


为什么需要Groq?黄仁勋在台上讲得很清楚,GPU擅长高吞吐的并行计算,做prefill和attention很强,但在超高速token生成这个区间会力不从心。他的原话是NVL72在超过400 tokens/s/user的区间“runs out of steam”(跑不动了)。而Groq的LPU是一种完全不同的处理器,确定性数据流架构,芯片上全是SRAM,没有运行时动态调度,编译器在编译阶段就把每个时钟周期的计算和数据搬运全部排好了。这种架构天然适合低延迟的decode和token生成。

问题在于SRAM虽快但容量极小。单颗Groq 3 LPU只有500MB SRAM,而Rubin GPU是288GB HBM4,差了500多倍,根本存不下万亿参数的模型。英伟达的解法是用一套叫Dynamo的软件把推理过程拆成两半,Rubin负责prefill和attention,处理上下文需要大量算力和大容量内存;Groq负责feed-forward部分的decode和token生成,需要极低延迟和极高带宽。两者通过以太网紧耦合,延迟减半。

黄仁勋管这个叫disaggregated inference(解耦推理),并且总结说高吞吐和低延迟本质上enemies of each other(彼此矛盾),而Groq就是解决这个矛盾的那一半拼图。


舞台上的那张对比图视觉冲击很强。

左边一颗Rubin GPU,288GB HBM4、22TB/s带宽、50 PFLOPs。

右边一排8颗Groq 3 LPU组成的阵列,4GB SRAM、1,200TB/s SRAM带宽(Rubin的55倍)、9.6 PFLOPs。

两种极端的处理器,统一成一个推理系统。Groq 3 LPX整机把256颗LPU装进一个机架,提供128GB SRAM、40PB/s带宽、315 PFLOPS推理算力和640TB/s互连带宽。


整套NVL72系统100%液冷,用45度热水冷却,把原来花在空调上的能耗省回来给计算用。安装时间从两天压缩到两小时。第六代NVLink提供3.6TB/s全互连带宽。首款CPO(共封装光学)交换机Spectrum X已经量产。

目前,微软Azure已经跑起了第一套Vera Rubin机架,Satya Nadella在演讲期间直接发消息确认。

黄仁勋还给了一个极其直观的对比,同一个1GW数据中心,两年内token生成速率从2200万提升到7亿,350倍。他说这就是极致协同设计的力量。

1

1万亿GPU,和新的商业模式可能

在演讲里,黄仁勋再次给出数据的指引。

去年GTC他给出的关于英伟达产品的需求估算是5000亿美元(覆盖Blackwell和Rubin到2026年),而今年直接翻倍,他说现在看到的是:

到2027年至少1万亿美元。

驱动力是他反复提到的“推理拐点”,从ChatGPT到o1再到Claude Code,AI从能聊天变成能推理再变成能干活,每一步跳跃都让单次推理需要的算力暴增,而使用量也在同步起飞。黄仁勋说Claude Code是第一个agentic model,英伟达100%的软件工程师都在用。



然后他用一张图把这个宏观判断翻译成了具体的商业逻辑。

整场演讲最值得反复看的就是这张,标题叫inference Performance and Efficiency Drive Company Results。


纵轴是吞吐量(TPS/MW,每兆瓦每秒生成的token数),横轴是交互速度(TPS/User,每用户每秒拿到的token数)。横轴越往右意味着AI越“聪明”,模型更大、上下文更长、思考链更深,但吞吐量会下降,因为资源被单个用户的推理任务占用了更多。高吞吐和低延迟本质上矛盾。

黄仁勋在横轴上切了五档定价。Free层用Qwen 3(235B参数,32K上下文,免费),Medium层用Kimi K2.5(1T参数,128K上下文,3美元/百万token),High层用GPT MoE(2T参数,128K,6美元),Premium层同样是GPT MoE但上下文窗口拉到400K、价格到45美元,Ultra层150美元。

然后他把四代硬件的曲线叠上去。Hopper只能覆盖Free和Medium层,在高交互区间曲线贴着底部。Blackwell大幅上移,让Premium层变得经济可行。Vera Rubin再上一档。加上Groq LPX之后,曲线在400+ TPS/User的高交互区间向右延伸出去,对比Hopper提升35倍,让一个目前还不存在的Ultra层(150美元/百万token)成为可能。

作为一个“首席销售”,在第二张图,黄仁勋直接把这个逻辑翻译成了营收数字。


假设一个1GW数据中心按25%算力分配给每个层级,每GW年营收Blackwell能做300亿美元,Rubin做1500亿(5倍),加上Groq LPX做3000亿(10倍)。

两张图合在一起看,叙事逻辑很清晰:第一张为了告诉大家,Rubin让Premium推理($45/M tokens)变得赚钱,而第二张则证明了,Rubin + LPX可以让一个尚不存在的Ultra推理市场($150/M tokens)成为可能。

黄仁勋借此定义了一套token定价阶梯,并在这最重要的大会上,直接告诉所有客户,这里面每一层的经济可行性都直接绑定在英伟达的硬件代际升级上。

换句话说,没有我的芯片,你到不了下一个价格层级,你的商业模型跑不通。有了我,商业模型的新可能就出现了。

“数据中心是生产token的工厂;推理是工作负载,token是新商品,算力等于营收;未来每个CEO都要盯着自己token工厂的效能看。”

他继续推销英伟达:“用得越多省钱阅多。我们是唯一一个在每一个模型里都在被使用的产品,这让我们成为最强又最便宜的。英伟达的系统是全球范围内你可获取的成本最低的AI基础设施。 ”

黄仁勋甚至直接给了不同客户部署方案:如果工作负载主要是高吞吐的批量推理,100%配Vera Rubin就够了。如果有大量编程、高价值实时推理和Agent交互需求,拿25%数据中心配Groq LPX,其余75%纯Rubin。

1

Feynman剧透,2028年全部换代

在Rubin介绍完后,Feynman的剧透来了。

英伟达给自己路线图节奏锁死,每年一代新架构。当前Blackwell,2026下半年Vera Rubin,2027年Rubin Ultra搭配全新Kyber机架(计算节点改为垂直插入,前置计算后置互连,支持144颗GPU),2028年Feynman。

Feynman是黄仁勋今晚的one more thing式剧透,七个组件全部换代。全新GPU(此前传闻台积电A16 1.6nm),LP40 LPU(黄仁勋说是big step up,Groq团队加入英伟达后共同设计,首次在LPU中加入NVFP4计算能力),Rosa CPU(全名Rosalind,致敬发现DNA结构的Rosalind Franklin),BlueField 5 DPU,ConnectX-10 SuperNIC,NVLink 8。Kyber机架同时支持铜缆和CPO光学互连。

关于铜缆还是光互连的行业争论,黄仁勋一句话终结,铜的要做,光的也要做,CPO也要做,每一种都需要更多的产能。

中间他还顺便提了Vera Rubin Space-1,要把计算模块送上太空做数据中心。太空没有传导和对流只有辐射,散热是个问题,但英伟达已经在做了。


1

为龙虾做“CUDA”,NemoClaw定义Agent时代的操作系统

对于最近疯狂的龙虾热,黄仁勋称Agent是一个全新的计算平台,并直接把OpenClaw的定位拔到了和Windows、Linux、Kubernetes同一级别。

他用操作系统的语法拆解了OpenClaw的本质,管理资源、调度任务、调用工具、连接大模型、多模态IO、派生子Agent。OpenClaw几周内超越Linux 30年的GitHub Star数,是人类历史上增长最快的开源项目。黄仁勋认为它的意义等同于HTML之于互联网、Kubernetes之于移动云,每家公司都需要一个OpenClaw战略。

然后话锋一转,讲了企业场景的致命问题。Agent在公司内网能访问敏感信息、能执行代码、能对外通信。黄仁勋让全场默念了一遍这三条,然后说,这显然不能被允许。

NemoClaw就是英伟达的解法,但它不是另起炉灶,而是给OpenClaw套上一层企业安全壳。核心组件叫OpenShell,已经集成进OpenClaw,包含策略引擎接口(对接企业已有的安全合规系统)、网络护栏(限制Agent网络访问边界)和隐私路由(防止敏感数据外传)。开源,Apache 2.0协议,深度整合NeMo框架、Nemotron模型和NIM推理微服务。

这里的类比关系是,NemoClaw之于OpenClaw生态,就像CUDA之于GPU生态。

CUDA让GPU从游戏显卡变成了通用计算平台,NemoClaw要让龙虾从个人玩具变成企业基础设施。OpenClaw提供了Agent的操作系统,NemoClaw提供了在这个操作系统上安全运行企业应用的开发平台和工具链。

黄仁勋的行业判断是,未来每家SaaS公司都会变成GaaS(Generative-as-a-Service)公司,企业IT从2万亿美元的工具产业升级为多万亿美元的Agent产业。他甚至预测未来每个工程师入职时都会拿到一份年度token预算,基本工资之外再加一半用于购买token,让个人生产力放大10倍。“你的offer带多少token”会成为硅谷新的谈判筹码。


配合Agent生态,英伟达同时宣布了Nemotron Coalition(开源模型联盟)。六大模型家族全部达到前沿水平,Nemotron(语言推理,OpenClaw评测前三)、Cosmos(物理AI世界模型)、Alpamayo(自动驾驶,号称首个会思考推理的自动驾驶AI)、Groot(通用机器人)、BioNeMo(生物化学)、Earth 2(天气气候)。Nemotron 3 Ultra定位为世界最好的基础模型,供各国做主权AI定制。联盟首批成员包括Black Forest Labs、Cursor、LangChain(10亿+下载量)、Mistral、Perplexity、Thinking Machines(Mira Murati创办)等。

英伟达的增长故事不能停。这一次一个可能成为近年英伟达最重要的收购的Groq,和一个突然出现的现象级全民狂热的OpenClaw让这个故事得以继续,黄仁勋也抓住了这些被他形容为“必须抓住的时间窗口”,把大量资源赌在了上面,剩下的,就靠各位一起疯狂烧token了。



点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

泪满过眼
2026-03-21 21:48:10
糖尿病能喝酒吗?医生提醒:喝酒时注意这个病,要喝就要这样喝

糖尿病能喝酒吗?医生提醒:喝酒时注意这个病,要喝就要这样喝

快乐的小大夫
2024-08-22 10:26:01
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

小娱乐悠悠
2026-03-25 10:28:48
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
蓝营一天三大噩耗!柯文哲预言成真,郑丽文陷入辞职危机

蓝营一天三大噩耗!柯文哲预言成真,郑丽文陷入辞职危机

青梅侃史啊
2026-03-25 12:17:08
“花48元请她吃饭,她不让睡只能奸杀”,2016年19岁女孩被奸杀

“花48元请她吃饭,她不让睡只能奸杀”,2016年19岁女孩被奸杀

汉史趣闻
2026-03-26 14:13:20
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

阿策聊实事
2026-03-26 04:16:27
以军一特种部队士兵在黎巴嫩南部死亡

以军一特种部队士兵在黎巴嫩南部死亡

界面新闻
2026-03-26 16:15:25
据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

紫京讲谈
2026-03-26 01:39:04
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
3月25日俄乌:川普再次吹嘘并“许愿”

3月25日俄乌:川普再次吹嘘并“许愿”

山河路口
2026-03-25 16:36:21
主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

狼叔评论
2026-03-25 23:58:05
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

薇说体育
2026-03-26 16:03:59
41岁张雪峰离世后遗产分配上热搜!11岁女儿张姩菡面临跟后妈争产,是否立遗嘱成关键

41岁张雪峰离世后遗产分配上热搜!11岁女儿张姩菡面临跟后妈争产,是否立遗嘱成关键

观星赏月
2026-03-26 03:56:16
FCC把3亿台路由器扔进黑名单,中国厂商连夜改产线

FCC把3亿台路由器扔进黑名单,中国厂商连夜改产线

Ping值焦虑
2026-03-25 13:41:53
2026-03-26 16:48:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10472关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
健康
艺术
军事航空

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版