网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

英伟达仍是王者！GB200贵一倍却暴省15倍，AMD输得彻底

2026-01-03 13:37:31　来源: 新浪财经

天津举报

0

分享至

来源：市场资讯

（来源：新智元）

新智元报道

编辑：桃子

【新智元导读】AI推理游戏规则，正悄然改变。一份最新报告揭示了关键转折：如今决定胜负的，不再是单纯的芯片性能或GPU数量，而是「每一美元能输出多少智能」。

AI推理，现已不只看算力硬指标了！

Signal65一份最新报告中，英伟达GB200 NVL72是AMD MI350X吞吐量28倍。

而且，在高交互场景在，DeepSeek R1每Token成本还能低到15倍。

GB200每小时单价大概是贵一倍左右，但这根本不重要。因为机柜级NVLink互联+软件调度能力，彻底改变了成本结构。

顶级投资人Ben Pouladian称，「目前的关键不再是算力或GPU数量，而是每一美元能买到多少智能输出」。

如今，英伟达仍是王者。其他竞争对手根本做不到这种交互水平，这就是护城河。

最关键的是，这还没有集成200亿刀买入Groq的推理能力。

这里，再mark下老黄至理名言——The more you buy, the more you save！

AI推理重心：一美元输出多少智能？

这篇万字报告，探索了从稠密模型（Dense）到混合专家模型（MoE）推理背后的一些本质现象。

传统的「稠密模型」架构要求：在生成每个Token时都激活模型里的全部参数。

这就意味着：模型越大，运行越慢、成本越高，同时还会带来相应的内存需求增长等问题。

MoE架构，正是为了释放更高水平的智能而生——在每个Token上只激活最相关的「专家」。

搂一眼Artificial Analysis排行榜即可发现，全球TOP 10开源LLM，全部都是MoE推理模型。

它们会在推理阶段额外「加算力」来提高准确性：

LLM不会立刻吐出答案，而是先生成中间的推理Token，再输出，相当于先把请求和解法「想一遍」。

前16名里有12个是MoE模型

这些推理Token往往远多于最终回复，而且可能完全不会展示出来。能否既快又便宜地生成Token，对推理部署来说就变得至关重要。

那么，MoE方法的主要约束在哪里？

一个核心限制在于「通信瓶颈」。

当不同专家分布在多块GPU上时，任何GPU之间通信的延迟，都会让GPU空闲等待数据。

OpenRouter一份近期报告，超50%的Token会被路由到推理模型上

这些「空转时间」（idle time）代表着被浪费的、低效的算力，并且会直接体现在服务提供商的成本底线上。

当评估AI基础设施的「经济性」时，一般会聚焦在三个方面：

基于公开可用的基准测试数据，Signal65对不同LLM架构下AI基础设施方案进行了对比分析。

分析中，团队采用第三方基准测试所提供的性能数据，来估算相对的Token经济性。

具体来说，他们选取了B200、GB200 NVL72，以及AMD MI355X部分结果，用以对比它们在不同模型场景下的真实性能表现及相应的TCO估算。

结果显示，在稠密架构以及较小规模的MoE中，B200性能优于AMD MI355X。

当模型扩展到像DeepSeek-R1这样需跨越单节点的前沿级规模时，GB200 NVL72性能最高可达到MI355X的28倍。

在高交互性的推理工作负载中，NVL72的单位Token成本最低，可降至其他方案的约1/15。

尽管GB200 NVL72的单GPU小时价格几乎是这些竞争平台的2倍，但其机架级能力——从NVLink高速互连，到覆盖72块GPU的软件编排——共同推动了这种显著更优的单位经济性。

价值评估的重心，正在从单纯的原始FLOPs，转向「每一美元所获得的总体智能」。

这一结论非常明确：

随着MoE模型和推理工作负载带来的复杂性与规模持续上升，行业已无法仅依赖芯片层面的性能提升。

能够在系统层面实现峰值性能的端到端平台设计，已经成为实现低成本、高响应AI服务的关键杠杆。

「稠密模型」推理，英伟达领先

Signal65选择了Llama 3.3 70B作为稠密模型的性能基准，结果如下所示：

帕累托曲线清晰显示出，HGX B200-TRT方案在整个吞吐量与交互性区间内，都具备持续的性能优势。

具体到基线交互性水平，B200的性能大约是MI355X的1.8倍，这为交互式应用部署，以及更高的单GPU并发密度提供了显著余量。

再来看，当交互性提升至110 tokens/sec/user时，这一优势进一步被放大：B200吞吐量超过MI355X的6倍。

整体上，在Llama 3.3 70B测试中，AMD MI355X在单位成本性能方面确实具备一定吸引力。

但这种优势并不能代表更现代的推理技术栈，尤其是以MoE架构和高强度推理工作负载构建的系统。

MoE推理，英伟达领先

那么，在MoE架构上，英伟达和AMD表现又如何？

中等规模推理：gpt-oss-120B

Signal65认为，OpenAI gpt-oss-120B是理解MoE部署特性的一个理想「桥梁案例」。

它足够大，可以把MoE的复杂性暴露出来；

但规模又没有大到离谱，仍然是很多团队能现实部署并调优的范围。

它处在一个很有用的中间地带：介于稠密的70B级模型，与市场正在快速转向的、更前沿的推理型MoE架构之间。

在10月下旬数据里，当目标是100 tokens/sec/user时，B200大约比MI355X快1.4倍；

但当目标提高到250 tokens/sec/user时，差距会扩大到约3.5倍，说明越追求「更快的交互」，平台差异越容易被放大。

不过，12月上旬的数据则呈现出不同局面。

得益于软件优化，两边平台的绝对性能都明显提升：英伟达单GPU峰值吞吐从大约7,000 tokens/sec提升到超过14,000；AMD也从约6,000提升到大约8,500。

前沿推理：DeepSeek-R1

在DeepSeek-R1推理上，测试结果正如开篇所介绍那样，英伟达GB200 NVL72大幅领先。

更多数据如下图所示：

基准测试数据展示了一个被重塑的格局：

GB200 NVL72让「超过8块GPU的张量并行配置」也能进入帕累托前沿，达到单节点平台根本无法匹敌的性能。

在25 tokens/sec/user交互性目标下，GB200 NVL72单GPU性能大约是H200的10倍，并且超过MI325X单GPU性能的16倍。

这类性能差距，正是能为AI服务提供商带来「断崖式」TCO改善的那种差距。

当交互性目标提高到60 tokens/sec/user时，GB200 NVL72相比H200带来了超24倍的代际提升，同时也接近MI355X的11.5倍性能。

在同样25 tokens/sec/user下，GB200 NVL72单GPU性能大约是B200的2倍、是MI355X的5.9倍；

而到60 tokens/sec/user时，这些优势进一步扩大：相对单节点B200达到5.3倍、相对MI355X达到11.5倍。

GPU越贵，token成本越低

英伟达从Hopper过渡到Blackwell，并推出GB200 NVL72时，不仅提升了每GPU算力、内存带宽以及NVLink互连带宽，还对底层系统架构做了重新设计。

从8-GPU风冷HGX服务器转向全液冷的机架级系统，并把72块GPU连接在同一个域内，系统成本和复杂度显然都上升了。

据CoreWeave公布的目录价，按单GPU口径，GB200 NVL72价格大约比H200贵1.7倍。

不过，每一代新技术的目标之一，就是压低「每Token成本」。

对推理而言，具体就是：实际交付的Token吞吐提升幅度，要超过底层基础设施成本的提升幅度。

而从公开的性能数据来看，这正是GB200 NVL72相比Hopper所呈现出的结果。

Signal65把本次的tokenomics（Token经济学）分析，锚定在前文建立的DeepSeek-R1性能差距上：

在25 tokens/sec/user时，GB200 NVL72单GPU性能大约是H200的10倍；

在更高的交互点位上，这个差距会更大（24倍）。

下表总结了成本归一化，以及由此得到的「每美元性能」计算：

这些结果一开始可能有点反直觉：更「贵」的GPU反而更省钱——因为它带来的性能提升远大于价格差异，使得它能以更低成本生成Token。

与AMD相比，英伟达系统在推理token成本上的一些数据对比：

按单GPU口径，MI355X价格大约只有GB200 NVL72配置的一半；

但由于GB200 NVL72单GPU性能优势从低端接近6倍，到高交互性时高达28倍不等，英伟达仍然能提供最高15倍的每美元性能优势。

换句话说，英伟达能实现相对每Token成本仅为竞争对手的1/15。

结论

前沿AI模型的未来，会是更大、更复杂的MoE。

随着模型更深地走向MoE与推理架构，最终效果将不再只取决于原始GPU性能或内存容量。

平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力，以及在并发与混合负载下维持高利用率的能力。

从当前趋势看，来自OpenAI、Meta、Anthropic等前沿公司的旗舰模型，很可能会继续沿着MoE与推理方向演进。

如果这一轨迹成立，英伟达将维持关键的性能与经济性优势。

谷歌TPU这类架构也提供机架级方案，但它们对非自家模型的适用性与性能表现仍不明确。

本文记录的性能差异，能够直接转化为可量化的商业结果：

在既定交互性阈值下，每部署一块GPU能服务更多用户，就能降低每个「有用Token」的生成成本，提高每机架的收入潜力（通过规模化交付更高价值的体验），最终AI企业和部署AI的企业获得更好的TCO。

一个具体例子足以说明量级：当一个平台在某个交互性目标下，能提供28倍的单GPU吞吐提升时，它可以在不需要线性扩大硬件规模的情况下，解锁新的产品档位以及更复杂的功能。

这就是AI推理「经济学」，而它会更偏向那些从底层就为MoE与推理时代而设计的平台。

参考资料：

https://x.com/kimmonismus/status/2005753458188771768

https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

女子在长沙丢失30万手表，6天后巧遇捡表大叔，表依旧挂在树上！大叔拒收近万元红包

潇湘晨报 2026-01-05 16:26:22
3913 跟贴 3913
哥伦比亚总统喊话特朗普：如果你想把我关进监狱试试能不能做到

海外网 2026-01-05 13:17:29
44053 跟贴 44053

斯托克顿不拦着历史助攻王也是詹姆斯的

北青网-北京青年报 2026-01-05 12:06:14
436 跟贴 436

特朗普观看突袭实况，主要靠这款无人机

扬子晚报 2026-01-05 09:42:12
284 跟贴 284
一职工长期失联、无法履职，郑州一事业单位发解聘公告

大象新闻 2026-01-05 11:13:03
241 跟贴 241

曼联官方：阿莫林不再担任球队主帅，达伦·弗莱彻将担任代理主教练

极目新闻 2026-01-05 18:26:24
1965 跟贴 1965

越南第四季度国内生产总值同比增长8.46%

每日经济新闻 2026-01-05 16:03:06
6187 跟贴 6187
峨眉山全山寺院永久免费开放

界面新闻 2026-01-02 10:57:39
10881 跟贴 10881

突然通知：马上搬离！上海多处魔方公寓停止运营租客报警：电梯停运押金没着落还可能遭“停水停电”

中国能源网 2026-01-05 14:50:11
1553 跟贴 1553
黑龙江三江口景区现3米高“冰封鱼墙”，中华鲟等20余种江鱼成“冰琥珀”，去年这些鱼展后还被竞拍

极目新闻 2026-01-03 14:18:11
844 跟贴 844
女子0.1元打网约车坐上保时捷卡宴，平台：乘客不能指定车型或品牌，偶然碰到高档车是有可能的

极目新闻 2026-01-05 18:45:59
627 跟贴 627
河北农村取暖问题，不能再耽搁了

齐鲁壹点 2026-01-05 15:20:13
1674 跟贴 1674
别吃！赶紧扔掉！正大量上市，很多深圳人爱吃

环球网资讯 2026-01-05 14:43:23
209 跟贴 209
8件文玩字画寄存文物商店后失踪，当事人称有画作被拍卖？云南文物总店：库房没有，查找需原始单据

大风新闻 2026-01-05 18:44:41
181 跟贴 181
我国首次航天员洞穴训练圆满完成

央视新闻客户端 2026-01-05 07:40:33
8818 跟贴 8818
2026年地方政府发债拉开序幕山东省率先发行723.81亿元

证券时报 2026-01-05 12:03:02
161 跟贴 161
双色球2026002期中出一等奖12注筹集公益金1.35亿元

齐鲁壹点 2026-01-05 15:00:17
134 跟贴 134
字节“豆包”AI眼镜即将进入出货阶段将分版本推出

财联社 2026-01-05 14:54:08
123 跟贴 123
1万多张2元人民币，刚刚拍出83.16万元

都市快报橙柿互动 2026-01-05 13:34:10
216 跟贴 216
新生儿剪脐带时疑被助产士剪断手指，两次转院终于接上断指

都市快报橙柿互动 2026-01-05 17:35:36
315 跟贴 315
格力电器声明

极目新闻 2026-01-05 12:23:30
205 跟贴 205
员工不慎脚滑遭整桶麻酱“淋头” 老板：人没事，清理了一个小时

板扎在线NEWS 2026-01-06 07:34:49
0 跟贴 0
北京一小区21层发生火灾！同一户内相邻房间，有人昏迷有人毫发无伤

环球网资讯 2026-01-06 07:33:59
0 跟贴 0
五年前的“旧账”突袭！多地用户称收到松果出行催缴短信

齐鲁壹点 2026-01-06 07:33:30
0 跟贴 0
张家界一 45 岁家长站护学岗时死亡，工作人员称护学岗是家长自愿参加，如何看待此事?学校要担责吗？

卷阿 2026-01-06 07:35:29
0 跟贴 0

情侣10年前花199元买恋爱保险，领证后决定兑现理赔10000元，保险公司：2017年前购买的可兑换

情侣10年前花199元买恋爱保险，领证后决定兑现理赔10000元，保险公司：2017年前购买的可兑换

观威海

2026-01-05 14:58:06

满是心酸！42岁著名歌手江苏走穴，宾客只顾吃席没人搭理

满是心酸！42岁著名歌手江苏走穴，宾客只顾吃席没人搭理

查尔菲的笔记

2026-01-04 13:13:57

三星掌门人李在镕现身北京朝阳京东MALL，买了拉布布回去，店员：还带了翻译询问沙发、马桶等产品

三星掌门人李在镕现身北京朝阳京东MALL，买了拉布布回去，店员：还带了翻译询问沙发、马桶等产品

极目新闻

2026-01-05 22:40:58

解密抓捕马杜罗惊心动魄全过程，美国下个目标是格陵兰岛？

解密抓捕马杜罗惊心动魄全过程，美国下个目标是格陵兰岛？

码头青年

2026-01-05 17:37:12

姚明观战！上海7连胜大胜终结广厦8连胜张镇麟16分胡金秋22分

姚明观战！上海7连胜大胜终结广厦8连胜张镇麟16分胡金秋22分

醉卧浮生

2026-01-05 21:48:36

王石夫妇婚变风波大反转，最新后续来了

王石夫妇婚变风波大反转，最新后续来了

新浪财经

2026-01-05 19:57:13

沈梦辰和杨迪在跨年发生肢体冲突？本人下场回应，婉称交情依旧

沈梦辰和杨迪在跨年发生肢体冲突？本人下场回应，婉称交情依旧

民间平哥

2026-01-05 19:12:24

马杜罗被抓全过程披露：8名线人，包括总统卫队中校

马杜罗被抓全过程披露：8名线人，包括总统卫队中校

贸易夜航

2026-01-04 10:18:58

李在明到北京的第一件事，不是和中方见面，而是去了另外一个地方

李在明到北京的第一件事，不是和中方见面，而是去了另外一个地方

军机Talk

2026-01-05 10:10:17

越南第四季度国内生产总值同比增长8.46%

越南第四季度国内生产总值同比增长8.46%

每日经济新闻

2026-01-05 16:03:06

广东惠州召开五千人干部警示教育大会后，5天内9名干部主动投案

广东惠州召开五千人干部警示教育大会后，5天内9名干部主动投案

澎湃新闻

2026-01-05 21:48:28

山姆一夜崩盘，3亿中产天塌了！

山姆一夜崩盘，3亿中产天塌了！

广告案例精选

2026-01-05 20:03:11

全球首款可量产全固态电池问世：能量密度400Wh/kg，5分钟充满电

全球首款可量产全固态电池问世：能量密度400Wh/kg，5分钟充满电

IT之家

2026-01-05 16:58:11

23岁中国女导演在柬埔寨坠亡，其父已经赴柬，警方在案发现场栏杆上提取到指纹痕迹

23岁中国女导演在柬埔寨坠亡，其父已经赴柬，警方在案发现场栏杆上提取到指纹痕迹

红星新闻

2026-01-05 23:27:24

韩国第一夫人抵达北京啦！零下的气温光腿穿大衣，双排扣大衣很美

韩国第一夫人抵达北京啦！零下的气温光腿穿大衣，双排扣大衣很美

不写散文诗

2026-01-05 20:58:19

马杜罗即将出庭，或被终身监禁，案件也可能无限拖延，专家：现行国际法无法推翻美国判决

马杜罗即将出庭，或被终身监禁，案件也可能无限拖延，专家：现行国际法无法推翻美国判决

极目新闻

2026-01-05 21:06:11

突然通知：马上搬离！上海多处魔方公寓停止运营租客报警：电梯停运押金没着落还可能遭“停水停电”

突然通知：马上搬离！上海多处魔方公寓停止运营租客报警：电梯停运押金没着落还可能遭“停水停电”

中国能源网

2026-01-05 14:50:11

里子面子都没了，周奇被司晓迪曝开房记录仅1天，向涵之下场倒油

里子面子都没了，周奇被司晓迪曝开房记录仅1天，向涵之下场倒油

阿纂看事

2026-01-05 17:31:04

带走1200万欧！阿莫林获赔剩余所有薪水 14个月共消耗曼联3200万

带走1200万欧！阿莫林获赔剩余所有薪水 14个月共消耗曼联3200万

风过乡

2026-01-05 18:46:52

控制马杜罗后，特朗普与马斯克共进晚餐马斯克：2026将是精彩的一年

控制马杜罗后，特朗普与马斯克共进晚餐马斯克：2026将是精彩的一年

红星新闻

2026-01-05 18:18:14

新浪财经是一家创建于1999年8月的财经平台

1920065文章数 5170关注度

往期回顾全部

数码要闻

戴尔全新XPS 14笔记本发布：顶配酷睿Ultra X9 388H、64GB内存

头条要闻

马杜罗在美首次出庭表示不认罪：我仍是委内瑞拉总统

头条要闻

马杜罗在美首次出庭表示不认罪：我仍是委内瑞拉总统

体育要闻

50年最差曼联主帅！盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡：中美进入相对稳定的竞争共存期

科技要闻

性能涨5倍！黄仁勋CES秀肌肉下代芯片来了

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

手机

游戏

数码

公开课

亲子要闻

五岁小女孩发现家里有小偷，她竟然这么做，太机智了

手机要闻

2699元起！10080mAh+240万跑分，荣耀Power2把性价比卷成天花板了

PS港服节日限定优惠阵容上新！超多游戏低至25折

数码要闻

AirPods Pro 3马年特别款上架，镌刻苹果独家设计Emoji表情

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版