不知道你有没有想过一个问题:
为什么存储一直涨,为什么AI突然需要那么多存储?
我仔细想了想,
根本原因还是智能体AI的兴起,
一年前你用GPT,问问题,它给你回答,对话结束,
然后等下次开始,大多数时候是会重新开启一个对话的,
那么背后的KV缓存可以直接丢弃的。
现在不一样了。
Agent跑起来是循环的,它要自己观察结果、反思、再调整,
没有人在用agent的时候,每次开启任务都想把前因后果再讲一遍,
对于GPU来说也是浪费,
对于Agent来说,上下文越多,表现越好,
所以才要“记住”。
上下文从"用完即弃的临时工"变成了"必须持久保留的战略资产"。
这就是存储从"可选"变成"刚需"的根源。
那为什么是HBM?
因为它直接绑定GPU,最紧缺、最贵、最绕不开,
是整个AI服务器的“咽喉”,
没有HBM,H100/B200/Rubin再强也跑不起来,
它的故事是最性感的。
然后就直接导致了,
三星、SK海力士、美光把自身七八成的产能都调去做HBM了,
普通DRAM和NAND被大幅压缩,全品类缺货涨价,
可以说,
HBM就像一只蝴蝶扇动翅膀,扇出了整个存储行业的涨价风暴,
才有了这一波HBM带来的存储热。
澜起的分歧
其实不是“市场不炒澜起是因为被HBM盖住了”,
而是,澜起它根本不参与HBM。
它做的是CPU侧的内存接口芯片和PCIe信号连接芯片。
这两个东西跟HBM是两条线。
所以当市场说"存储超级周期来了",
第一个被提到的永远是HBM产业链上的公司
三星、SK海力士、美光、以及给它们供材料的、做封测的。
说白了,就是“没站在HBM里”。
分歧的关键不是“被盖住”,
而是“你到底属于哪个叙事”。
澜起还是那个澜起。
陈立武说AI推理时代CPU和GPU的比例从1:8变成1:1。
因为Agent要编排、调度、管理上下文,这些都是CPU的活。
CPU多了,CPU侧的内存带宽需求就暴增。
每一台AI服务器都需要更多内存接口芯片、更高带宽的MRDIMM模组。
英伟达在今年的GTC 2026上推出了一个新的存储层——CMX。
什么是CMX?
AI推理产生了海量KV缓存,
HBM放不下,本地SSD别的GPU够不着,网络存储又太慢……
英伟达干脆造了一个新架构叫CMX。
一个Pod内所有GPU都能高速访问的共享存储池。
问题是数据在GPU和SSD之间高速传输,PCIe通道越来越多、速率越来越快,信号衰减成了大问题。
这时候就需要PCIe Retimer来放大信号。
然后CMX虽然底层用的是定制闪存,但闪存的速度再快,也无法直接和GPU的计算速度匹敌。
因此,在CMX架构中,必须有一层“温缓存”来做桥梁,这就是CXL MXC的舞台。
这些才是澜起的叙事,只是相较于HBM,没有那么性感。
文章就到这里啦。
如果你有不同角度的思考,欢迎留言探讨,这是对我最好的反馈,也是我持续输出的最大动力。
PS:本文仅记录自己的学习和思考过程,不构成任何投资建议。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.