网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

英伟达仍是王者！GB200贵一倍却暴省15倍，AMD输得彻底

2026-01-03 13:28:35　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：桃子

　　【新智元导读】AI推理游戏规则，正悄然改变。一份最新报告揭示了关键转折：如今决定胜负的，不再是单纯的芯片性能或GPU数量，而是「每一美元能输出多少智能」。

　　AI推理，现已不只看算力硬指标了！

　　Signal65一份最新报告中，英伟达GB200 NVL72是AMD MI350X吞吐量28倍。

　　而且，在高交互场景在，DeepSeek R1每Token成本还能低到15倍。

　　GB200每小时单价大概是贵一倍左右，但这根本不重要。因为机柜级NVLink互联+软件调度能力，彻底改变了成本结构。

　　顶级投资人Ben Pouladian称，「目前的关键不再是算力或GPU数量，而是每一美元能买到多少智能输出」。

　　如今，英伟达仍是王者。其他竞争对手根本做不到这种交互水平，这就是护城河。

　　最关键的是，这还没有集成200亿刀买入Groq的推理能力。

　　这里，再mark下老黄至理名言——The more you buy, the more you save！

　　AI推理重心：一美元输出多少智能？

　　这篇万字报告，探索了从稠密模型（Dense）到混合专家模型（MoE）推理背后的一些本质现象。

　　传统的「稠密模型」架构要求：在生成每个Token时都激活模型里的全部参数。

　　这就意味着：模型越大，运行越慢、成本越高，同时还会带来相应的内存需求增长等问题。

　　MoE架构，正是为了释放更高水平的智能而生——在每个Token上只激活最相关的「专家」。

　　搂一眼Artificial Analysis排行榜即可发现，全球TOP 10开源LLM，全部都是MoE推理模型。

　　它们会在推理阶段额外「加算力」来提高准确性：

　　LLM不会立刻吐出答案，而是先生成中间的推理Token，再输出，相当于先把请求和解法「想一遍」。

　　前16名里有12个是MoE模型

　　这些推理Token往往远多于最终回复，而且可能完全不会展示出来。能否既快又便宜地生成Token，对推理部署来说就变得至关重要。

　　那么，MoE方法的主要约束在哪里？

　　一个核心限制在于「通信瓶颈」。

　　当不同专家分布在多块GPU上时，任何GPU之间通信的延迟，都会让GPU空闲等待数据。

　　OpenRouter一份近期报告，超50%的Token会被路由到推理模型上

　　这些「空转时间」（idle time）代表着被浪费的、低效的算力，并且会直接体现在服务提供商的成本底线上。

　　当评估AI基础设施的「经济性」时，一般会聚焦在三个方面：

　　性能（吞吐量与交互性）

　　能效（在既定功耗预算下，可生成的Token数）

　　总体拥有成本（通常以Token/每百万的成本衡量）

　　基于公开可用的基准测试数据，Signal65对不同LLM架构下AI基础设施方案进行了对比分析。

　　分析中，团队采用第三方基准测试所提供的性能数据，来估算相对的Token经济性。

　　具体来说，他们选取了B200、GB200 NVL72，以及AMD MI355X部分结果，用以对比它们在不同模型场景下的真实性能表现及相应的TCO估算。

　　结果显示，在稠密架构以及较小规模的MoE中，B200性能优于AMD MI355X。

　　当模型扩展到像DeepSeek-R1这样需跨越单节点的前沿级规模时，GB200 NVL72性能最高可达到MI355X的28倍。

　　在高交互性的推理工作负载中，NVL72的单位Token成本最低，可降至其他方案的约1/15。

　　尽管GB200 NVL72的单GPU小时价格几乎是这些竞争平台的2倍，但其机架级能力——从NVLink高速互连，到覆盖72块GPU的软件编排——共同推动了这种显著更优的单位经济性。

　　价值评估的重心，正在从单纯的原始FLOPs，转向「每一美元所获得的总体智能」。

　　这一结论非常明确：

　　随着MoE模型和推理工作负载带来的复杂性与规模持续上升，行业已无法仅依赖芯片层面的性能提升。

　　能够在系统层面实现峰值性能的端到端平台设计，已经成为实现低成本、高响应AI服务的关键杠杆。

　　「稠密模型」推理，英伟达领先

　　Signal65选择了Llama 3.3 70B作为稠密模型的性能基准，结果如下所示：

　　帕累托曲线清晰显示出，HGX B200-TRT方案在整个吞吐量与交互性区间内，都具备持续的性能优势。

　　具体到基线交互性水平，B200的性能大约是MI355X的1.8倍，这为交互式应用部署，以及更高的单GPU并发密度提供了显著余量。

　　再来看，当交互性提升至110 tokens/sec/user时，这一优势进一步被放大：B200吞吐量超过MI355X的6倍。

　　整体上，在Llama 3.3 70B测试中，AMD MI355X在单位成本性能方面确实具备一定吸引力。

　　但这种优势并不能代表更现代的推理技术栈，尤其是以MoE架构和高强度推理工作负载构建的系统。

　　MoE推理，英伟达领先

　　那么，在MoE架构上，英伟达和AMD表现又如何？

　　中等规模推理：gpt-oss-120B

　　Signal65认为，OpenAI gpt-oss-120B是理解MoE部署特性的一个理想「桥梁案例」。

　　它足够大，可以把MoE的复杂性暴露出来；

　　但规模又没有大到离谱，仍然是很多团队能现实部署并调优的范围。

　　它处在一个很有用的中间地带：介于稠密的70B级模型，与市场正在快速转向的、更前沿的推理型MoE架构之间。

　　在10月下旬数据里，当目标是100 tokens/sec/user时，B200大约比MI355X快1.4倍；

　　但当目标提高到250 tokens/sec/user时，差距会扩大到约3.5倍，说明越追求「更快的交互」，平台差异越容易被放大。

　　不过，12月上旬的数据则呈现出不同局面。

　　得益于软件优化，两边平台的绝对性能都明显提升：英伟达单GPU峰值吞吐从大约7,000 tokens/sec提升到超过14,000；AMD也从约6,000提升到大约8,500。

　　前沿推理：DeepSeek-R1

　　在DeepSeek-R1推理上，测试结果正如开篇所介绍那样，英伟达GB200 NVL72大幅领先。

　　更多数据如下图所示：

　　基准测试数据展示了一个被重塑的格局：

　　GB200 NVL72让「超过8块GPU的张量并行配置」也能进入帕累托前沿，达到单节点平台根本无法匹敌的性能。

　　在25 tokens/sec/user交互性目标下，GB200 NVL72单GPU性能大约是H200的10倍，并且超过MI325X单GPU性能的16倍。

　　这类性能差距，正是能为AI服务提供商带来「断崖式」TCO改善的那种差距。

　　当交互性目标提高到60 tokens/sec/user时，GB200 NVL72相比H200带来了超24倍的代际提升，同时也接近MI355X的11.5倍性能。

　　在同样25 tokens/sec/user下，GB200 NVL72单GPU性能大约是B200的2倍、是MI355X的5.9倍；

　　而到60 tokens/sec/user时，这些优势进一步扩大：相对单节点B200达到5.3倍、相对MI355X达到11.5倍。

　　GPU越贵，token成本越低

　　英伟达从Hopper过渡到Blackwell，并推出GB200 NVL72时，不仅提升了每GPU算力、内存带宽以及NVLink互连带宽，还对底层系统架构做了重新设计。

　　从8-GPU风冷HGX服务器转向全液冷的机架级系统，并把72块GPU连接在同一个域内，系统成本和复杂度显然都上升了。

　　据CoreWeave公布的目录价，按单GPU口径，GB200 NVL72价格大约比H200贵1.7倍。

　　不过，每一代新技术的目标之一，就是压低「每Token成本」。

　　对推理而言，具体就是：实际交付的Token吞吐提升幅度，要超过底层基础设施成本的提升幅度。

　　而从公开的性能数据来看，这正是GB200 NVL72相比Hopper所呈现出的结果。

　　Signal65把本次的tokenomics（Token经济学）分析，锚定在前文建立的DeepSeek-R1性能差距上：

　　在25 tokens/sec/user时，GB200 NVL72单GPU性能大约是H200的10倍；

　　在更高的交互点位上，这个差距会更大（24倍）。

　　下表总结了成本归一化，以及由此得到的「每美元性能」计算：

　　这些结果一开始可能有点反直觉：更「贵」的GPU反而更省钱——因为它带来的性能提升远大于价格差异，使得它能以更低成本生成Token。

　　与AMD相比，英伟达系统在推理token成本上的一些数据对比：

　　按单GPU口径，MI355X价格大约只有GB200 NVL72配置的一半；

　　但由于GB200 NVL72单GPU性能优势从低端接近6倍，到高交互性时高达28倍不等，英伟达仍然能提供最高15倍的每美元性能优势。

　　换句话说，英伟达能实现相对每Token成本仅为竞争对手的1/15。

　　结论

　　前沿AI模型的未来，会是更大、更复杂的MoE。

　　随着模型更深地走向MoE与推理架构，最终效果将不再只取决于原始GPU性能或内存容量。

　　平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力，以及在并发与混合负载下维持高利用率的能力。

　　从当前趋势看，来自OpenAI、Meta、Anthropic等前沿公司的旗舰模型，很可能会继续沿着MoE与推理方向演进。

　　如果这一轨迹成立，英伟达将维持关键的性能与经济性优势。

　　谷歌TPU这类架构也提供机架级方案，但它们对非自家模型的适用性与性能表现仍不明确。

　　本文记录的性能差异，能够直接转化为可量化的商业结果：

　　在既定交互性阈值下，每部署一块GPU能服务更多用户，就能降低每个「有用Token」的生成成本，提高每机架的收入潜力（通过规模化交付更高价值的体验），最终AI企业和部署AI的企业获得更好的TCO。

　　一个具体例子足以说明量级：当一个平台在某个交互性目标下，能提供28倍的单GPU吞吐提升时，它可以在不需要线性扩大硬件规模的情况下，解锁新的产品档位以及更复杂的功能。

　　这就是AI推理「经济学」，而它会更偏向那些从底层就为MoE与推理时代而设计的平台。

　　参考资料：

　　https://x.com/kimmonismus/status/2005753458188771768

　　https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

一文看懂芯片产业链：谁在撑起AI时代的算力帝国

钛媒体APP 2026-06-09 13:41:35
3 跟贴 3
英伟达转向全液冷，Rubin平台开启液冷“标配”时代

钛媒体APP 2026-07-07 17:56:15
5 跟贴 5

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

机器之心Pro 2026-01-13 12:57:27
0 跟贴 0

AI产业正在围着OpenAI和Anthropic两家公司打转

DeepTech深科技 2026-07-06 21:03:25
0 跟贴 0
英伟达CEO黄仁勋：Token就是资产、已经成为获利的营收单位

每日经济新闻 2026-06-02 06:05:39
0 跟贴 0

继续暴跌？英伟达新玩法！

诚阅ChengYue 2026-07-05 07:54:16
0 跟贴 0

OpenAI造“星际之门”、马斯克送算力“上天”，中国AI基建走出了一条什么路？

智东西 2026-07-06 21:54:07
0 跟贴 0
Steam Machine 自制版便宜 58 美元，这配置合理吗？

山月不知2 2026-07-07 06:03:14
5 跟贴 5

Fable 5手搓首个CUDA「超级内核」！2.5小时狂飙18.7倍

新智元 2026-07-07 14:51:08
39 跟贴 39
“我们没有看空英伟达”！SemiAnalysis又发小作文：“AI央行”英伟达撬动7万亿债务雪球

华尔街见闻官方 2026-07-07 20:49:07
0 跟贴 0
Steam Machine惊现“死亡红线”：开机20分钟遇GPU故障

超能网 2026-07-06 16:16:04
3 跟贴 3
Steam Machine用户遭遇“红色死亡线”故障 GPU疑似失灵后又自行恢复

cnBeta.COM 2026-07-07 08:17:10
0 跟贴 0
黄仁勋：成功需要漫长的苦熬！更要经历漫长的孤独、迷茫、恐惧

网易科技态度见闻 2026-07-07 07:00:00
0 跟贴 0
领先于Transformer！

机器之心Pro 2026-05-06 17:01:48
0 跟贴 0
英伟达x清华Gamma World迅速登顶抱抱脸多智能体世界模型γ-World

量子位 2026-05-30 20:18:29
0 跟贴 0
黄仁勋：AI时代“孩子学什么专业并不重要”

财联社 2026-05-28 10:54:03
0 跟贴 0
英伟达开源个量子AI

机器之心Pro 2026-04-15 12:05:50
0 跟贴 0
内存正在毁掉一切，所有的AI都要算力

爱范儿 2026-05-13 09:43:34
11 跟贴 11
费城半导体指数日内跌7% 英特尔跌超10%

每日经济新闻 2026-07-07 22:43:40
0 跟贴 0
北大研发首款神经动力学芯片比英伟达A100 GPU提速478倍

快科技 2026-07-05 13:40:27
14 跟贴 14
贴脸开大！比利时队嘲讽美国队：来“推翻试试”

鲁中晨报 2026-07-07 17:28:54
10960 跟贴 10960
媒体:官员称欧洲不适合装空调有人提议中国电力输欧

新民周刊 2026-07-07 11:05:50
10338 跟贴 10338
梭哈芯片，江波龙一年猛涨2000亿

财天COVER 2026-07-07 18:14:32
0 跟贴 0
Nvidia都在点赞的LoopWM世界模型

机器之心Pro 2026-06-29 15:21:48
0 跟贴 0
日本这项技术不仅领先中国30年，甚至还能垄断全球？有没有夸张

一饮山河 2026-07-05 16:39:03
0 跟贴 0
前SIE总裁谈PS5：想降价？半导体产能已被AI挤占

队友祭天法力无边 2026-07-06 17:16:16
1 跟贴 1
媒体：逼走中企后接盘工厂美国还吹嘘新能源"复兴"了

澎湃新闻 2026-07-07 11:43:57
3353 跟贴 3353
内存条价格暴涨超300% 硬盘价格水涨船高

财联社 2026-07-07 09:31:37
0 跟贴 0
C罗：在我之前葡萄牙从未获得过任何冠军头衔

中国新闻周刊 2026-07-07 18:45:38
4869 跟贴 4869
Steam Machine首例"死亡红线"是乌龙都怪灯条装反

3DM游戏 2026-07-07 18:20:18
0 跟贴 0
小伙用专业陷阱设备，救助路边流浪猫，猫咪反应快可惜硬件跟不上

动物趣谈汇 2026-07-06 17:34:28
1 跟贴 1
为什么狙击手在现实生活中很少选择爆头？是没那个技术吗

军械百科 2026-07-07 09:39:57
0 跟贴 0
三星平均日赚近44亿元 Q3内存还要涨20% 手机等终端厂日子难过被逼继续提价

快科技 2026-07-08 00:56:57
0 跟贴 0
高市早苗给莫迪“送大礼”！日本最上级最核心的技术，被卖给印度

隐龙天下 2026-07-07 03:25:41
0 跟贴 0
黄仁勋全世界穿皮衣，唯独在中国换上了大花袄

雷科技 2026-01-27 17:19:30
0 跟贴 0
英伟达 & 普渡大学用agent闭环实现文生3D

机器之心Pro 2026-05-08 17:39:43
0 跟贴 0
英伟达x清华丨Gamma World迅速登顶抱抱脸日榜第一

量子位 2026-05-30 18:12:31
0 跟贴 0
HBM之父金正浩：AI的本质是内存，内存需求还将暴增1000倍

财联社 2026-07-07 09:31:31
0 跟贴 0
Breachway第32号补丁：修内存改Flak，更新吗？

雾野寻踪2 2026-07-07 05:48:14
0 跟贴 0
史上最贵“卖飞”，世嘉给英伟达投了500万后，丢了一万亿

机器之心Pro 2025-12-10 14:33:10
0 跟贴 0

夸大灾情信息、蹭炒社会热点、虚构民生政策，多部门联动打击造谣传谣乱象

夸大灾情信息、蹭炒社会热点、虚构民生政策，多部门联动打击造谣传谣乱象

澎湃新闻

2026-07-07 11:16:12

随着阿根廷3-2逆转埃及诞生3个不可思议和1个事实梅西当场哭了

随着阿根廷3-2逆转埃及诞生3个不可思议和1个事实梅西当场哭了

侃球熊弟

2026-07-08 01:40:11

埃及全队围攻梅西：主帅怒指球员鼓掌嘲讽有人直接上手抱住梅西

埃及全队围攻梅西：主帅怒指球员鼓掌嘲讽有人直接上手抱住梅西

风过乡

2026-07-08 03:21:15

恨，大恨，深入骨髓的恨

求实处

2026-07-07 20:05:03

1天4瓜！离婚、全网被封禁、被逼发身体私密照、韩红最让人意外

1天4瓜！离婚、全网被封禁、被逼发身体私密照、韩红最让人意外

观史搜寻着

2026-07-06 20:54:49

中俄代表离开德黑兰后，伊朗才宣布，将美以4个暗杀点一窝端

中俄代表离开德黑兰后，伊朗才宣布，将美以4个暗杀点一窝端

南宗历史

2026-07-07 01:32:18

六蓝水库溃堤真相曝光！网传养殖户为保鱼拒不开闸？官方实情说透

六蓝水库溃堤真相曝光！网传养殖户为保鱼拒不开闸？官方实情说透

砚底沉香LIU

2026-07-07 09:41:36

贴脸开大！比利时队嘲讽美国队：来“推翻试试”

贴脸开大！比利时队嘲讽美国队：来“推翻试试”

鲁中晨报

2026-07-07 17:02:11

埃及前锋齐科赛后哭泣：冠军早就被内定了，祝贺阿根廷拿到世界杯

埃及前锋齐科赛后哭泣：冠军早就被内定了，祝贺阿根廷拿到世界杯

懂球帝

2026-07-08 02:58:18

韩红捐赠急救室起争端！网友：我是乡镇医院院长，现在谁还缺这些

韩红捐赠急救室起争端！网友：我是乡镇医院院长，现在谁还缺这些

火山詩话

2026-07-07 08:09:21

重磅！中方9月访美敲定，时隔11年改写中美关系格局

重磅！中方9月访美敲定，时隔11年改写中美关系格局

果妈聊娱乐

2026-07-07 09:48:29

广西洪水致养蛇场蛇逃出，包括眼镜蛇，网友称已有人被咬伤，当地：救援已达一线

广西洪水致养蛇场蛇逃出，包括眼镜蛇，网友称已有人被咬伤，当地：救援已达一线

潇湘晨报

2026-07-07 12:22:14

黄冈遭遇强对流天气，男子从12楼被大风“吸”出坠落绿化带，家属：还在重症监护室

黄冈遭遇强对流天气，男子从12楼被大风“吸”出坠落绿化带，家属：还在重症监护室

潇湘晨报

2026-07-07 12:12:27

伊朗向通过霍尔木兹海峡的商船发射导弹一油轮、一液化天然气船遭袭起火，国际油价上涨

伊朗向通过霍尔木兹海峡的商船发射导弹一油轮、一液化天然气船遭袭起火，国际油价上涨

每日经济新闻

2026-07-08 00:03:13

浙江大学校徽与阿玛尼Logo存在视觉相似引热议，相关人士辟谣“浙大连夜注册校徽”：商标是2025年12月23日申请的，与阿玛尼没有任何关系

浙江大学校徽与阿玛尼Logo存在视觉相似引热议，相关人士辟谣“浙大连夜注册校徽”：商标是2025年12月23日申请的，与阿玛尼没有任何关系

潇湘晨报

2026-07-07 18:11:14

全部下架！上海警方：张某已被拘留！

全部下架！上海警方：张某已被拘留！

看看新闻Knews

2026-07-07 19:32:11

全线跳水，原因找到了

中国基金报

2026-07-07 16:53:24

比立陶宛还要嚣张！该国邀请赖清德窜访，中国68年的友谊喂了狗

比立陶宛还要嚣张！该国邀请赖清德窜访，中国68年的友谊喂了狗

离离言几许

2026-07-06 22:27:36

39岁球王泪洒赛场失点后传射救赎赛后被阿根廷队友抛向空中致敬

39岁球王泪洒赛场失点后传射救赎赛后被阿根廷队友抛向空中致敬

我爱英超

2026-07-08 02:48:18

巴拉圭政府声明：强烈谴责和反对阿马里利亚对姆巴佩的言论

巴拉圭政府声明：强烈谴责和反对阿马里利亚对姆巴佩的言论

懂球帝

2026-07-07 10:13:18

AI产业主平台领航智能+时代

15631文章数 66949关注度

往期回顾全部

数码要闻

雷蛇为灵刃18申请Ubuntu认证，暂无Linux版雷云计划

头条要闻

让二追三！阿根廷3-2逆转埃及晋级世界杯8强

头条要闻

让二追三！阿根廷3-2逆转埃及晋级世界杯8强

体育要闻

比利时干掉美国：正义必胜大喜剧！

娱乐要闻

私密照流出！曝关晓彤曾两次原谅鹿晗

财经要闻

桔子数科暴雷启示录：合规定生死

科技要闻

全球下载量第一，可阿里AI还没学会赚钱

汽车要闻

试驾全新坦克300 Hi4-Z/激光雷达/全场景NOA

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

时尚

手机

艺术

公开课

房产要闻

洋浦，大量卖地！

夏天别总穿T恤，一件针织短袖时髦度翻倍，温柔舒适又百搭

手机要闻

曝苹果折叠屏iPhone量产，全新形态秋季见！

艺术要闻

人肉单反！美国画家Gottlieb的超写实魔法！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版