网易首页 > 网易号 > 正文 申请入驻

HBM,碰壁了

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

曾经炙手可热的HBM内存,似乎在一夜之间黯然失色。

最新发布的英伟达Rubin CPX GPU——一款专门针对预填充阶段优化的芯片,出人意料地选择了成本更为亲民的GDDR7内存,而非业界习以为常的高端HBM方案。瞬间在行业内引发一场热议。

回顾过往数年,英伟达的AI芯片几乎无一例外地搭载最新一代HBM内存,以满足AI训练和推理对超高内存带宽的苛刻要求。如今Rubin CPX GPU却反其道而行之,转向带宽相对较低的GDDR7,这不禁让人产生疑问:

曾经的“内存之王”HBM,真的会迎来新的威胁吗?

放弃HBM的AI芯片

先来看看 Rubin CPX GPU 的诞生。

今年 9 月 10 日,英伟达正式推出 Rubin CPX GPU,这是一款专为长上下文 AI 工作负载而设计的 GPU。需要特别强调的是,Rubin CPX 并非普通的 Rubin GPU 简化版,而是一款针对推理性能深度优化的 AI 加速器/GPU,定位于即将登场的 Vera Rubin NVL144 CPX 机架。

随着 AI 应用的不断演进,底层计算架构也必须随之变化。英伟达在此次产品中提出了全新的推理加速理念——“解耦推理”(disaggregated inference)。这一策略的核心,是将不同类型的 GPU 各司其职:

  • 计算型 GPU 负责处理庞大的“上下文阶段”;

  • 高带宽 GPU 则专注于“生成阶段”的吞吐量密集计算。

这种任务分工的设计,正是应对新一代 AI 模型的复杂需求。英伟达指出,涉及多步推理与持久化记忆的前沿 AI 应用——比如视频生成、智能代理——需要持续处理和调用海量上下文信息。如今,大模型推理已取代训练,成为硬件架构优化的前沿战场。

在这个体系中,Rubin CPX GPU 就是上下文阶段的“主力担当”。它在英伟达新引入的 NVFP4 数据格式下,能够提供高达 30 PFLOPs 的原始算力,并搭载 128 GB GDDR7 显存。相比之下,标准版 Rubin GPU 的性能更偏向生成阶段:可实现 50 PFLOPs FP4 算力,并配备 288 GB HBM4 高带宽显存,专门解决带宽瓶颈。

从架构角度看,Rubin CPX GPU 与标准版 Rubin GPU 的差异也十分明显:

  • Rubin CPX 采用单芯片设计,强调成本效率与计算密度;

  • 标准版 Rubin GPU 则采用双芯片 Chiplet 架构,更加复杂昂贵,但能提供更极致的性能。

有分析指出,既然 Rubin GPU 单芯片算力约为 25 PFLOPs FP4,那么 Rubin CPX 很可能是 Rubin GPU 单芯片的“高优化版”,专门针对解耦推理中的计算任务做了调优。

至于落地时间表,英伟达计划在 2026 年随 Vera Rubin NVL144 CPX 机架一起推出 Rubin CPX GPU。该机架的配置堪称“巨兽”:144 块 Rubin GPU + 144 块 Rubin CPX GPU,36 颗 Vera CPU,100 TB 高速内存,1.7 PB/s 内存带宽。

在这种组合下,整体性能将达到 8 ExaFLOPs NVFP4,是现有一代 GB300 NVL72 的 7.5 倍,也超过未配备 CPX 的 Vera Rubin NVL144(3.6 ExaFLOPs)。

这意味着 Rubin CPX 不只是一个补充产品,而是英伟达在 AI 推理解耦架构战略下的关键拼图。

但与此同时,不少人也关注到了HBM4到GDDR7这一“降配”,他们不禁发出疑问:为什么英伟达会转向带宽更低的GDDR7呢?

为什么是 GDDR7

事实上,长期以来内存瓶颈一直是人工智能发展的最大制约因素。在大模型不断膨胀的背景下,如何将更庞大的参数量加载到加速器中,成为产业最关心的问题之一。模型规模越大,对内存容量的要求就越高,而在实际推理和训练中,内存带宽才是限制 token 吞吐量的关键因素。

因此,近几代 GPU 的高带宽内存(HBM)容量和带宽得以快速提升:从 H100 的 80GB、3.4TB/s,到 GB300 的 288GB、8.0TB/s,不到三年时间,容量增长超过两倍,带宽提升约 2.5 倍。这一跃升,也使得 HBM 在加速器 BOM 中的比重不断增加——从 Hopper 到 Blackwell,HBM 已经成为封装成本中占比最大、最昂贵的单一组件。

HBM 对训练和推理都极其重要。但如果把推理拆解为预填充(pre-fill)和解码(decode)两个阶段,就会发现其中的差异:

  • 在计算密集型的预填充阶段,由于并行度高,KVCache 的生成对带宽依赖有限,HBM 的额外带宽并没有被充分利用;

  • 在解码阶段,HBM 的高带宽价值才真正被释放。

也就是说,HBM 并非在整个推理链路中都“物尽其用”。鉴于其价格远高于其他 DRAM,如果带宽闲置,就意味着成本的浪费。

这正是Rubin CPX 选择 GDDR7 而不是 HBM4 的原因。在解耦推理的架构下,Rubin CPX 主要负责上下文的构建任务,此时 GDDR7 的带宽和延迟已完全足够。而在生成阶段,工作会交由 Rubin GPU 执行,HBM 的高带宽特性在这里才发挥决定性作用。通过这种任务分工,既保证了性能,又避免了对昂贵 HBM 的过度依赖。

而选择 GDDR7 的好处也十分明显:

它大幅降低了显存在系统总成本中的比重;

在推理性能近乎相当的前提下,成本优势显著;

为更多企业降低了进入门槛,推动 AI 基础设施更广泛的普及。

当然,采用 GDDR7 并不意味着 HBM 需求会衰减。相反,Rubin CPX 的意义在于降低预填充与 token 的单位成本。当 token 成本下降,用户对推理的需求会随之增加,而更高的需求又会进一步推高对解码阶段的带宽需求。就像许多降低成本的技术创新一样,需求增长往往远远抵消成本下降的影响,最终使整个市场的规模持续扩大。

内存供应商的新机遇

而随着对 GDDR7 的需求激增,内存供应链正在迎来新的格局变化。

在 RTX Pro 6000 以及最新的 Rubin CPX 等产品带动下,英伟达对 GDDR7 的需求急速上升。最初,英伟达曾为 RTX Pro SKU 下达大量订单,计划将其销售到中国市场,以替代当时因出口许可证受限而无法供应的 H20 芯片。这些突发订单主要由三星承接,凭借灵活的产能调配,三星成功满足了需求;而 SK 海力士和美光的晶圆产能则更多被锁定在 HBM 订单上,难以承担额外压力。

近期,英伟达更是要求三星将 GDDR7 产量翻倍。作为回应,三星不仅扩大了生产设施,还增加了必要的材料与组件,目前所有量产准备工作已基本完成,预计最快本月就能启动扩产后的供应链。据业内人士透露,相关产能扩张已满足英伟达的需求,量产即将到来。

而近日还有消息传出,英伟达正准备推出代号“B40”的新产品,将搭载三星 GDDR7 并针对中国大陆市场销售。该产品通过降低数据处理能力来规避美国出口限制,预计将成为中国大陆市场的主要替代方案。

市场分析机构预测,B40 出货量今年可能达到 100 万片,仅 GDDR7 基板需求就高达约 2000 亿韩元。整体订单规模或在数千亿至数万亿韩元之间。摩根士丹利指出,若地缘政治不确定性持续,B40 的市场潜力将进一步释放。由此,三星电子有望凭借大规模订单巩固其在图形 DRAM 市场的地位。

值得注意的是,英伟达仍在从 SK 海力士和美光采购部分图形 DRAM,但在整体采购量上,三星已成为最大受益者。未来,三星与英伟达在 GDDR7 合作能否进一步延伸到 HBM 领域仍有待观察。

目前,三星正积极争取 HBM4 的供应资格,并计划利用其最新 1c 存储单元技术赢得市场转机。业界普遍认为,若这一技术表现如预期,将成为三星在高端存储竞争中实现反超的重要机会。

结语:时代的转折点

虽然英伟达的决定给HBM带来新的威胁。但这并不影响巨头们在这个赛道继续掘金。

日前,SK海力士公司宣布,已完成全球首款超高性能人工智能下一代存储产品HBM4的开发,并已完成量产准备。

SK海力士表示,公司已成功完成开发,并基于这一技术成就,为HBM4大规模量产做好准备,以引领人工智能时代。通过这一势头,公司再次证明了其在全球人工智能存储器领域的领先地位。

“HBM4开发的完成将是行业的一个新里程碑,”领导此次开发的SK海力士HBM开发负责人Joohwan Cho说。“通过及时供应在性能、功耗效率和可靠性方面满足客户需求的产品,公司将实现产品上市时间要求并保持竞争优势。”

通过这个事可以看到,寻找更好性价比,是行业的永恒旋律。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4155期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
洋洋总替小菲道歉!兰姐每月工资两万三,说出为箖箖和玥儿的考量

洋洋总替小菲道歉!兰姐每月工资两万三,说出为箖箖和玥儿的考量

阿坹武器装备科普
2026-03-07 22:31:14
主将重现!

主将重现!

求实处
2026-03-07 23:01:34
特朗普喊话伊朗:只要宣布无条件投降,再炸美军基地也可以不计较

特朗普喊话伊朗:只要宣布无条件投降,再炸美军基地也可以不计较

一簌月光
2026-03-08 07:32:25
董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

董宇辉直播间数据下滑?质疑声与销售奇迹的幕后真相

草莓解说体育
2026-03-07 20:06:45
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
女人嫉妒心强?减肥两年瘦下来的蒋胖胖严重掉粉,恐走上贾玲老路

女人嫉妒心强?减肥两年瘦下来的蒋胖胖严重掉粉,恐走上贾玲老路

吃青菜长高
2026-03-03 19:19:49
戴旭近期又提到一个点,说中国人从晚清到现在,总改不了一个毛病

戴旭近期又提到一个点,说中国人从晚清到现在,总改不了一个毛病

安安说
2026-03-07 13:04:08
上海建工涨停 !旗下金矿传来喜讯,上海爷叔终于“逆袭”

上海建工涨停 !旗下金矿传来喜讯,上海爷叔终于“逆袭”

每日经济新闻
2026-03-07 21:34:40
阿联酋曝猛料!害死哈梅的头号内鬼,竟是伊朗全民崇拜的大英雄

阿联酋曝猛料!害死哈梅的头号内鬼,竟是伊朗全民崇拜的大英雄

热点大放送
2026-03-07 18:30:24
2026年全国高考迎来大地震!今年6月全部落实!家长考生提前了解

2026年全国高考迎来大地震!今年6月全部落实!家长考生提前了解

解说阿洎
2026-03-06 20:17:50
今春,北京将在东西城、海淀等六个区投用花粉固定剂

今春,北京将在东西城、海淀等六个区投用花粉固定剂

大峰
2026-03-06 11:17:53
社保缴满15年在家坐等退休行不行?评论区网友彻底沦陷,炸锅了

社保缴满15年在家坐等退休行不行?评论区网友彻底沦陷,炸锅了

深度报
2026-03-07 22:05:36
俄罗斯被曝向伊朗提供情报,包括美军舰船和飞机的定位,白宫回应!美国准备部署第三艘航母,紧急批准对以色列超1.5亿美元军售

俄罗斯被曝向伊朗提供情报,包括美军舰船和飞机的定位,白宫回应!美国准备部署第三艘航母,紧急批准对以色列超1.5亿美元军售

每日经济新闻
2026-03-07 13:18:09
为了掏空老百姓的口袋、故意捏造出来的5大骗局,早知道早好

为了掏空老百姓的口袋、故意捏造出来的5大骗局,早知道早好

猫叔东山再起
2026-02-28 10:00:03
小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

小时候课本上猛夸的3个历史人物,长大后才发现:他们坏到骨子里

收藏大视界
2026-03-07 18:11:42
伊朗总统最新发声,宣布重要消息

伊朗总统最新发声,宣布重要消息

新民周刊
2026-03-07 18:26:59
记者:狄龙被逮捕并不是涉嫌酒驾,而是因为吸食大麻

记者:狄龙被逮捕并不是涉嫌酒驾,而是因为吸食大麻

懂球帝
2026-03-07 10:41:15
女海王约男海王缠绵时,他们对彼此不满意,2012年2人打起来死1个

女海王约男海王缠绵时,他们对彼此不满意,2012年2人打起来死1个

汉史趣闻
2026-03-07 20:01:23
调仓!牛市或重演历史

调仓!牛市或重演历史

郭小凡财经
2026-03-05 12:54:07
26分6板!广东队20岁小将收获全明星MVP,球迷:能力不输胡明轩

26分6板!广东队20岁小将收获全明星MVP,球迷:能力不输胡明轩

体育哲人
2026-03-07 22:48:03
2026-03-08 08:24:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13090文章数 34840关注度
往期回顾 全部

数码要闻

苹果搞怪营销MacBook Neo,甚至有人怀疑被盗号

头条要闻

中国货船通过霍尔木兹海峡后 美国宣布200亿美元计划

头条要闻

中国货船通过霍尔木兹海峡后 美国宣布200亿美元计划

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

科技要闻

OpenClaw最大的推手是闲鱼和小红书

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

手机
旅游
时尚
教育
数码

手机要闻

vivo X300 Max真机曝光,圆形后摄方案

旅游要闻

不看这条推文,你真的要错过大理的春天~

2026春夏一定要拥有的6只包,好看又百搭

教育要闻

教育部部长:去年高中阶段教育毛入学率92%

数码要闻

苹果MacBook Neo跑分出炉:A18 Pro少了一个核心 GPU被反杀

无障碍浏览 进入关怀版