「1%的闲置就意味着上亿元的浪费。」当IBM吴磊说出这句话时,存储行业的底层逻辑已经彻底变了。
2024年到2026年,中国日均Token调用量从1000亿飙升至140万亿。两年千倍增长,AI正从实验室训练全面杀入生产生活。但这组疯狂数字背后,藏着一个被忽视的瓶颈——存储。
![]()
过去存储是"数据保险箱",现在成了"算力水龙头"。GPU集群动辄千卡万卡,投资以亿甚至十亿计。存储一旦卡壳,昂贵的GPU集体空转。这不是性能优化,是生死线。
一、存储使命的"基因重组":从保护数据到喂养GPU
浪潮信息郭海峰用一句话点破本质:「原来的企业存储是做数据保护,现在AI存储的第一目标是效率提升——如何充分满足GPU对于数据的需求,而不让它空转。」
这不仅是产品定位调整,是技术架构的底层重写。
传统企业级存储是"通算架构"——CPU为核心,数据经CPU路径解析、内核态复制转发,再传给GPU。这套架构服务关系型数据库时运转良好,面对智算时代的GPU集群却效率极低。
数据印证了严重性。吴磊透露,GPU部署规模已至百卡、千卡、万卡级别,「1%的闲置就意味着上亿元的浪费」。郭海峰也曾公开表示:存储和网络只占智算系统5%-10%成本,但GPU空转时,这5%-10%会毁掉其余90%以上的投资回报。
存储的"基因重组"从软硬件两个维度同时展开。
硬件层面,浪潮信息A9000系列采用"全链路免锁零拷贝的用户态AI原生并行架构"。数据传输路径从内核态切至用户态协议栈,端到端免拷贝,延迟从毫秒级压到微秒级,单节点带宽160GB/s——行业主流水平仅60GB/s至80GB/s。
软件层面,一条更深的技术主线正在浮现:KV Cache(键值缓存)。
AI推理场景中,为加速响应、避免重复计算,系统需将键值对缓存留在高速存储。但上下文窗口急剧扩大后,KV Cache规模已远超GPU显存(HBM)和本地DRAM的承载极限。
郭海峰详细解释了技术逻辑:通过PD分离(Prefill与Decode分离),利用GlobalCast技术和"双路径"设计,整合空闲带宽,显著缩短首Token产生时间。浪潮信息数据显示,Agent Memory外置存储架构可将首Token延迟(TTFT)降低97%,Token吞吐量提升超20倍。
IBM则从另一维度切入。Storage Scale并行文件系统在万卡集群中支撑高频checkpoint数据落盘,确保数据极短时间内写入存储,充分释放GPU计算效率。
更激进的硬件创新来自IBM自研的第五代闪存核心模块(FlashCore Module 5)。每块NVMe闪盘嵌入专用芯片和高性能处理器,实现硬件级压缩、去重和加密。吴磊透露,压缩比可达1:5,且因压缩在盘上完成,不影响存储控制器性能。
这些技术变化指向同一方向:存储不再是被动容器,而是具备感知和计算能力的主动节点。
二、涨价90%的连锁反应:效率优化成唯一解
当存储节点进化为承载KV Cache、主动参与计算卸载的智能枢纽,业界对高带宽、低延迟存储介质的依赖呈指数级攀升。这种架构变革催生的庞大缺口,直接投射在上游供应链的价格博弈上。
2026年第一季度,DRAM内存合约价涨幅达90%-95%,NAND Flash闪存合约价涨幅达55%-60%。TrendForce预测,2026年第二季度NAND闪存合约价将继续大幅跳升70%至75%。
涨价推手明确:大模型训练和推理需求井喷,DRAM和NAND原厂将大量产能从消费级转向高利润的企业级AI产品。
但吴磊与郭海峰不约而同地认为,存储涨价是一时的,效率优化才是核心命题。
郭海峰提到实例:有企业将存储迁移至高带宽方案后,GPU利用率提升15%——「用不到整个项目10%的钱采购存储,把卡的利用率提升了15%」。吴磊的账更直观:通过FCM的1:5压缩技术,用户涨价后开启压缩功能,实际可用容量的单位成本甚至比涨价前更低。
成本优化远非压缩比这么简单。存储行业正在重新回答"数据应该放在哪里"这一根本问题。
三、五层存储体系:AI时代的数据"定居点"重构
传统企业级存储中,"热、温、冷"数据分层已是成熟理念。但AI时代的分层逻辑远比过去复杂。
五层存储体系应运而生,这是AI给存储行业最直观的结构性变化。
按业界通行分类:第一层HBM(高带宽内存),第二层本地DRAM,第三层本地SSD,第四层传统企业级外置存储。而在第三层和第四层之间,出现了一个"3.5层"——专门服务于推理场景的外置缓存层。
为什么需要3.5层?郭海峰的解释很直白:「3.5层是为了效率,放弃一定的可靠性,数据比是1:1,大不了数据丢了重新算,但不能牺牲效率。」这与第四层传统存储"数据保护优先"的理念形成鲜明对比。
吴磊给出类似判断:「全用HBM当然最好,但HBM太贵了。」经济学约束下,分层是必然选择。
五层体系的影响向下传导,一个"古老"技术重新成为性价比之选——磁带存储。
据吴磊介绍,过去几年多家大厂已部署EB级甚至10EB级磁带库,包括百度智能云底层的冷数据存储。LTO联盟由IBM、HPE和Quantum联合推动,LTO-10已实现40TB原始容量,2.5:1压缩比下可达100TB,未来LTO-11可达70TB、LTO-12可达110TB。
吴磊提供了一个实用视角:磁带机械臂从最远端抓取数据约需一分五十多秒,但如果数据三个月甚至六个月才访问一次,两分钟等待完全可以接受。
这一轮变革远不止五层体系所能完整概括。
四、从"数据走向AI"到"AI走向数据":范式转移的底层逻辑
存储行业的重构,本质是AI基础设施范式的根本转移。
过去是"数据走向AI"——数据被搬运到计算中心,由模型处理。现在是"AI走向数据"——计算能力下沉到数据所在位置,存储节点主动参与推理过程。
这种转移的驱动力来自经济现实。GPU算力成本高昂,任何数据搬运的延迟和冗余都是不可承受的浪费。存储必须从"成本中心"进化为"效率杠杆"。
浪潮信息与IBM的技术路线差异,恰恰映射了这场变革的多元路径。前者从架构底层重写数据传输逻辑,后者从硬件颗粒度和系统级优化切入。两条路径指向同一终点:存储即计算,数据即服务。
KV Cache的外置化、PD分离的架构创新、硬件级压缩的芯片嵌入——这些技术细节的累积,正在重塑企业级存储的产品定义。未来的存储采购决策,将不再以容量和可靠性为单一维度,而是以"每Token成本"和"GPU利用率提升幅度"为核心指标。
这对科技从业者意味着什么?
首先,基础设施团队的技能栈需要扩展。传统的存储管理员熟悉RAID、备份策略和容量规划,现在必须理解推理延迟、KV Cache命中率和checkpoint写入带宽。存储与AI工程的边界正在模糊。
其次,成本核算模型必须更新。存储采购不能再按"每GB多少钱"简单计算,而要建立全栈效率模型——存储投入如何转化为GPU利用率提升,进而影响整体推理成本。
最后,技术选型需要更长期的供应链视角。DRAM和NAND的价格波动将持续,但架构决策的影响周期更长。选择支持硬件压缩的存储平台,或提前布局五层体系的分层策略,是对冲价格风险的有效手段。
存储行业的这场"基因重组",远未结束。
当140万亿日Token成为常态,当万卡集群成为中型企业的标配,存储架构的每一次优化都将被放大为巨额的经济效益或损失。这不是关于技术的抽象讨论,是关于资源如何配置、效率如何衡量、竞争力如何构建的硬核商业问题。
浪潮信息和IBM已经亮出了自己的牌。更多玩家正在入场。而真正的考验在于:当存储从"容器"变成"枢纽",你的基础设施团队准备好重新理解数据的位置了吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.