网易首页 > 网易号 > 正文 申请入驻

英伟达仍是王者!GB200贵一倍却暴省15倍,AMD输得彻底

0
分享至

  

  新智元报道

  编辑:桃子

  【新智元导读】AI推理游戏规则,正悄然改变。一份最新报告揭示了关键转折:如今决定胜负的,不再是单纯的芯片性能或GPU数量,而是 「每一美元能输出多少智能」。

  AI推理,现已不只看算力硬指标了!

  Signal65一份最新报告中,英伟达GB200 NVL72是AMD MI350X吞吐量28倍。

  而且,在高交互场景在,DeepSeek R1每Token成本还能低到15倍。

  

  GB200每小时单价大概是贵一倍左右,但这根本不重要。因为机柜级NVLink互联+软件调度能力,彻底改变了成本结构。

  顶级投资人Ben Pouladian称,「目前的关键不再是算力或GPU数量,而是每一美元能买到多少智能输出」。

  

  如今,英伟达仍是王者。其他竞争对手根本做不到这种交互水平,这就是护城河。

  

  最关键的是,这还没有集成200亿刀买入Groq的推理能力。

  这里,再mark下老黄至理名言——The more you buy, the more you save!

  

  AI推理重心:一美元输出多少智能?

  这篇万字报告,探索了从稠密模型(Dense)到混合专家模型(MoE)推理背后的一些本质现象。

  

  传统的「稠密模型」架构要求:在生成每个Token时都激活模型里的全部参数。

  这就意味着:模型越大,运行越慢、成本越高,同时还会带来相应的内存需求增长等问题。

  

  MoE架构,正是为了释放更高水平的智能而生——在每个Token上只激活最相关的「专家」。

  搂一眼Artificial Analysis排行榜即可发现,全球TOP 10开源LLM,全部都是MoE推理模型。

  它们会在推理阶段额外「加算力」来提高准确性:

  LLM不会立刻吐出答案,而是先生成中间的推理Token,再输出,相当于先把请求和解法「想一遍」。

  

  前16名里有12个是MoE模型

  这些推理Token往往远多于最终回复,而且可能完全不会展示出来。能否既快又便宜地生成Token,对推理部署来说就变得至关重要。

  那么,MoE方法的主要约束在哪里?

  一个核心限制在于「通信瓶颈」。

  当不同专家分布在多块GPU上时,任何GPU之间通信的延迟,都会让GPU空闲等待数据。

  

  OpenRouter一份近期报告,超50%的Token会被路由到推理模型上

  这些「空转时间」(idle time)代表着被浪费的、低效的算力,并且会直接体现在服务提供商的成本底线上。

  当评估AI基础设施的「经济性」时,一般会聚焦在三个方面:

  性能(吞吐量与交互性)

  能效(在既定功耗预算下,可生成的Token数)

  总体拥有成本(通常以Token/每百万的成本衡量)

  基于公开可用的基准测试数据,Signal65对不同LLM架构下AI基础设施方案进行了对比分析。

  分析中,团队采用第三方基准测试所提供的性能数据,来估算相对的Token经济性。

  具体来说,他们选取了B200、GB200 NVL72,以及AMD MI355X部分结果,用以对比它们在不同模型场景下的真实性能表现及相应的TCO估算。

  

  结果显示,在稠密架构以及较小规模的MoE中,B200性能优于AMD MI355X。

  当模型扩展到像DeepSeek-R1这样需跨越单节点的前沿级规模时,GB200 NVL72性能最高可达到MI355X的28倍。

  

  在高交互性的推理工作负载中,NVL72的单位Token成本最低,可降至其他方案的约1/15。

  尽管GB200 NVL72的单GPU小时价格几乎是这些竞争平台的2倍,但其机架级能力——从NVLink高速互连,到覆盖72块GPU的软件编排——共同推动了这种显著更优的单位经济性。

  价值评估的重心,正在从单纯的原始FLOPs,转向「每一美元所获得的总体智能」。

  这一结论非常明确:

  随着MoE模型和推理工作负载带来的复杂性与规模持续上升,行业已无法仅依赖芯片层面的性能提升。

  能够在系统层面实现峰值性能的端到端平台设计,已经成为实现低成本、高响应AI服务的关键杠杆。

  「稠密模型」推理,英伟达领先

  Signal65选择了Llama 3.3 70B作为稠密模型的性能基准,结果如下所示:

  帕累托曲线清晰显示出,HGX B200-TRT方案在整个吞吐量与交互性区间内,都具备持续的性能优势。

  具体到基线交互性水平,B200的性能大约是MI355X的1.8倍,这为交互式应用部署,以及更高的单GPU并发密度提供了显著余量。

  

  再来看,当交互性提升至110 tokens/sec/user时,这一优势进一步被放大:B200吞吐量超过MI355X的6倍。

  整体上,在Llama 3.3 70B测试中,AMD MI355X在单位成本性能方面确实具备一定吸引力。

  但这种优势并不能代表更现代的推理技术栈,尤其是以MoE架构和高强度推理工作负载构建的系统。

  

  

  MoE推理,英伟达领先

  那么,在MoE架构上,英伟达和AMD表现又如何?

  中等规模推理:gpt-oss-120B

  Signal65认为,OpenAI gpt-oss-120B是理解MoE部署特性的一个理想「桥梁案例」。

  它足够大,可以把MoE的复杂性暴露出来;

  但规模又没有大到离谱,仍然是很多团队能现实部署并调优的范围。

  它处在一个很有用的中间地带:介于稠密的70B级模型,与市场正在快速转向的、更前沿的推理型MoE架构之间。

  

  在10月下旬数据里,当目标是100 tokens/sec/user时,B200大约比MI355X快1.4倍;

  但当目标提高到250 tokens/sec/user时,差距会扩大到约3.5倍,说明越追求「更快的交互」,平台差异越容易被放大。

  不过,12月上旬的数据则呈现出不同局面。

  得益于软件优化,两边平台的绝对性能都明显提升:英伟达单GPU峰值吞吐从大约7,000 tokens/sec提升到超过14,000;AMD也从约6,000提升到大约8,500。

  

  

  前沿推理:DeepSeek-R1

  在DeepSeek-R1推理上,测试结果正如开篇所介绍那样,英伟达GB200 NVL72大幅领先。

  更多数据如下图所示:

  

  基准测试数据展示了一个被重塑的格局:

  GB200 NVL72让「超过8块GPU的张量并行配置」也能进入帕累托前沿,达到单节点平台根本无法匹敌的性能。

  在25 tokens/sec/user交互性目标下,GB200 NVL72单GPU性能大约是H200的10倍,并且超过MI325X单GPU性能的16倍。

  这类性能差距,正是能为AI服务提供商带来「断崖式」TCO改善的那种差距。

  当交互性目标提高到60 tokens/sec/user时,GB200 NVL72相比H200带来了超24倍的代际提升,同时也接近MI355X的11.5倍性能。

  在同样25 tokens/sec/user下,GB200 NVL72单GPU性能大约是B200的2倍、是MI355X的5.9倍;

  而到60 tokens/sec/user时,这些优势进一步扩大:相对单节点B200达到5.3倍、相对MI355X达到11.5倍。

  

  

  GPU越贵,token成本越低

  英伟达从Hopper过渡到Blackwell,并推出GB200 NVL72时,不仅提升了每GPU算力、内存带宽以及NVLink互连带宽,还对底层系统架构做了重新设计。

  从8-GPU风冷HGX服务器转向全液冷的机架级系统,并把72块GPU连接在同一个域内,系统成本和复杂度显然都上升了。

  

  据CoreWeave公布的目录价,按单GPU口径,GB200 NVL72价格大约比H200贵1.7倍。

  不过,每一代新技术的目标之一,就是压低「每Token成本」。

  对推理而言,具体就是:实际交付的Token吞吐提升幅度,要超过底层基础设施成本的提升幅度。

  而从公开的性能数据来看,这正是GB200 NVL72相比Hopper所呈现出的结果。

  Signal65把本次的tokenomics(Token经济学)分析,锚定在前文建立的DeepSeek-R1性能差距上:

  在25 tokens/sec/user时,GB200 NVL72单GPU性能大约是H200的10倍;

  在更高的交互点位上,这个差距会更大(24倍)。

  下表总结了成本归一化,以及由此得到的「每美元性能」计算:

  这些结果一开始可能有点反直觉:更「贵」的GPU反而更省钱——因为它带来的性能提升远大于价格差异,使得它能以更低成本生成Token。

  

  

  与AMD相比,英伟达系统在推理token成本上的一些数据对比:

  

  按单GPU口径,MI355X价格大约只有GB200 NVL72配置的一半;

  但由于GB200 NVL72单GPU性能优势从低端接近6倍,到高交互性时高达28倍不等,英伟达仍然能提供最高15倍的每美元性能优势。

  换句话说,英伟达能实现相对每Token成本仅为竞争对手的1/15。

  结论

  前沿AI模型的未来,会是更大、更复杂的MoE。

  随着模型更深地走向MoE与推理架构,最终效果将不再只取决于原始GPU性能或内存容量。

  平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力,以及在并发与混合负载下维持高利用率的能力。

  从当前趋势看,来自OpenAI、Meta、Anthropic等前沿公司的旗舰模型,很可能会继续沿着MoE与推理方向演进。

  如果这一轨迹成立,英伟达将维持关键的性能与经济性优势。

  谷歌TPU这类架构也提供机架级方案,但它们对非自家模型的适用性与性能表现仍不明确。

  本文记录的性能差异,能够直接转化为可量化的商业结果:

  在既定交互性阈值下,每部署一块GPU能服务更多用户,就能降低每个「有用Token」的生成成本,提高每机架的收入潜力(通过规模化交付更高价值的体验),最终AI企业和部署AI的企业获得更好的TCO。

  一个具体例子足以说明量级:当一个平台在某个交互性目标下,能提供28倍的单GPU吞吐提升时,它可以在不需要线性扩大硬件规模的情况下,解锁新的产品档位以及更复杂的功能。

  这就是AI推理「经济学」,而它会更偏向那些从底层就为MoE与推理时代而设计的平台。

  参考资料:

  https://x.com/kimmonismus/status/2005753458188771768

  https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球十大毒王级垃圾食品曝光, 很多华人天天都在吃! 泡面, 汉堡竟都没上榜

全球十大毒王级垃圾食品曝光, 很多华人天天都在吃! 泡面, 汉堡竟都没上榜

澳微Daily
2026-05-10 15:59:51
心理学上说:永远不要指出你身边人的任何问题,包括你的亲戚朋友。否则只会给你自己带来这两种伤害

心理学上说:永远不要指出你身边人的任何问题,包括你的亲戚朋友。否则只会给你自己带来这两种伤害

心理观察局
2026-05-10 08:08:12
蒯曼输球不可怕,赛后清醒认知才令人担忧

蒯曼输球不可怕,赛后清醒认知才令人担忧

老淸医学科普
2026-05-10 22:13:41
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
张文宏:病毒传播路径异常!中国涉邮轮人员核酸阴性!美英荷等国相继表态

张文宏:病毒传播路径异常!中国涉邮轮人员核酸阴性!美英荷等国相继表态

纵相新闻
2026-05-10 13:56:12
伊朗已回应美国提出的结束战争方案

伊朗已回应美国提出的结束战争方案

新华社
2026-05-10 20:28:27
失业4个月!阿隆索有望再就业:利物浦致电皇马 打探情况

失业4个月!阿隆索有望再就业:利物浦致电皇马 打探情况

叶青足球世界
2026-05-10 20:13:02
夺冠即下课!海因克斯曾遭皇马清洗,如今伯纳乌乱局再现

夺冠即下课!海因克斯曾遭皇马清洗,如今伯纳乌乱局再现

星耀国际足坛
2026-05-10 22:39:09
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
别再被抗战剧骗了!一名日军摄影师,拍下真正的“鬼子进村”照片

别再被抗战剧骗了!一名日军摄影师,拍下真正的“鬼子进村”照片

历史甄有趣
2026-05-04 08:10:22
特斯拉又双叒叕降价了!

特斯拉又双叒叕降价了!

娱乐圈的笔娱君
2026-05-09 17:14:19
世乒赛男团决赛,3-2,3-1,国乒连续翻盘,梁靖崑王楚钦建功

世乒赛男团决赛,3-2,3-1,国乒连续翻盘,梁靖崑王楚钦建功

等等talk
2026-05-11 01:31:10
两自媒体编造传播芯片虚假信息遭重罚

两自媒体编造传播芯片虚假信息遭重罚

每日经济新闻
2026-05-09 20:17:46
每体:姆巴佩缺席国家德比令更衣室不解,队内曾认为他可能首发

每体:姆巴佩缺席国家德比令更衣室不解,队内曾认为他可能首发

懂球帝
2026-05-11 01:02:16
“旨在取代F-16”?外媒:土耳其签署协议,采购20架“可汗”战机

“旨在取代F-16”?外媒:土耳其签署协议,采购20架“可汗”战机

环球网资讯
2026-05-09 22:04:10
教练打压实锤?与王楚钦闹翻?私生活遭质疑,樊振东首次回应谣言

教练打压实锤?与王楚钦闹翻?私生活遭质疑,樊振东首次回应谣言

凡知
2026-04-10 21:00:33
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

千秋文化
2026-02-10 20:55:47
中韩半导体ETF华泰柏瑞(513310)二级市场交易价格出现较大幅度溢价 5月11日开市起至当日10:30停牌

中韩半导体ETF华泰柏瑞(513310)二级市场交易价格出现较大幅度溢价 5月11日开市起至当日10:30停牌

财联社
2026-05-10 20:05:17
梁靖崑再次上演神奇逆转,3-2胜张本智和,为国乒男团拿到宝贵1分

梁靖崑再次上演神奇逆转,3-2胜张本智和,为国乒男团拿到宝贵1分

湘楚风云聊体育
2026-05-11 00:39:27
2026-05-11 02:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66858关注度
往期回顾 全部

数码要闻

Valve老款ZOTAC Steam主机十年后再营业:显存仅3GB 仍能跑通《丝之歌》!

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

科技要闻

DeepSeek融资,改写所有人的估值

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
游戏
房产
公开课
军事航空

亲子要闻

大动脉上长出活胚胎!深圳医生接诊致命妊娠

LPL第二赛段:拒绝让一追二!JDG三局战胜AL,挺进前三

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版