网易首页 > 网易号 > 正文 申请入驻

Token经济时代,AI推理跑不快的瓶颈是“存力”?

0
分享至

大模型产业正在经历一场并不喧闹却足够深刻的结构性转向。过去两年,整个行业在造模型和堆GPU上不断加码,英伟达几乎成为所有基础设施讨论的起点和终点。

然而,当模型开始真正走向规模化推理、走向企业级落地、走向多模态和长上下文的新阶段之后,人们才逐渐意识到,决定 AI 体验、成本和性能的关键,不再只是更大的 GPU 集群,隐藏在算力体系背后、曾长期被视为后台工程的“存力”,浮出水面。

民生证券最新研报指出,受益于AI需求的强劲拉动,2025年第四季度存储价格有望持续看涨。这一积极预测,源于AI应用对存储提出更高要求,以及服务器端对高阶DRAM和HBM的需求增长,挤占了消费级DRAM的产能。

在日前由中国信息通信研究院组织的“先进存力 AI 推理工作研讨会”上,行业嘉宾达成共识,推理时代的性能瓶颈、成本压力和体验优化,正在从算力侧转移到存储侧,先进存力不再是配角,而是推动 AI 真正落地的主动力量之一。

推理,正在改变 AI 产业的优先级

如果说过去两年是“参数规模”的军备竞赛,那么 2025 年开始的阶段则更接近“推理效率”的商业竞争。Token调用量爆发式增长,推理成本持续攀升,在AI推理的性能指标中,都是以“Token数”为量纲。

AI加速落地,意味着“Token经济”的时代。模型训练可以只发生在几个大型企业的超级节点中,但模型推理则遍布千行百业、无数产品端,决定着实际用户体验、服务成本和业务可持续性。

推理负载的根本变化集中在三个方面:

  • 第一,长上下文和复杂任务让 KVCache 从模型的“临时记忆”变成影响性能的核心资产,其容量随输入长度呈指数级增长;
  • 第二,多模态从文本扩展到图像、音频、视频和时序数据,原本简单的顺序读写I/O模式已无法满足实时推理的复杂需求;
  • 第三,训推一体化趋势加速,模型在持续迭代和增量更新,推理系统需要在高负载下保持一致性、低延迟和稳定性。

这些变化共同导致一个现实——GPU 不是算不动,而是经常在“等数据”。当 HBM 无法容纳不断膨胀的 KVCache,当多模态输入让 I/O 链路变得拥堵,当存储延迟上下波动影响推理任务调度,GPU 的利用率下降并不因为算力不足,而是数据供给不上来。

于是,推理系统出现了越来越明显的存力瓶颈,算力资源在无谓地空转,直接推高了推理成本。数据显示,在推理侧每提升 20% 的算力利用率,就能带来 15%—18% 的整体成本下降,这一数字相比多少张GPU卡的投入,显然更具性价比。

算力不再稀缺,真正稀缺的是“把 GPU 喂饱”的能力

传统的信息基础设施中,存储的角色通常偏向“被动”。它存放数据、提供容量、保证安全与持久化。然而在大模型推理场景中,存储开始承担起一部分“助推计算”的职责:如何更快地将数据送到模型手中,如何让 KVCache 不阻塞推理,如何在不同模态间实现高效的数据编织,如何在训推混合负载下保持稳定性能,这些都决定了最终的推理吞吐和延迟。

行业的通常做法是通过分层缓存 + 动态调度提升 KVCache 管理效率,将系统划分为本地极速层、共享扩展层与冷备层,以异构介质对应不同场景的数据特性,并根据访问频率与时延诉求自动决策数据存放位置,从而在容量扩展、热点响应和成本控制三方面取得平衡。

中国移动云能力中心项目总师周宇表示,为提升数据流转效率,移动云正在推进基于 CXL 的新型高速互联,通过将 CPU 内存、GPU 显存及云主机内的闪存统一池化,使系统能够按需分配存储与内存资源,突破传统架构的物理边界。配合数据编织技术,多模态数据可在跨域环境下进行高效流转,以实现“一次写入、多模访问”的统一体验。

华为数据存储产品线战略与业务发展部总裁王旭东提到,IT基础设施能力面临三大挑战:“管不好” 的数据、“喂不饱” 的算力、“降不下”的成本。推理数据来源多样难以形成高质量、可持续供应的数据集,存储系统的带宽和IOPS(每秒读写次数)不足,导致GPU等昂贵算力资源长时间空闲。

推理时代的存储不再是以容量为中心,而是以“数据流动”为中心,因此必须围绕数据采集、治理、缓存、流转构建一套新的体系。

他表示,传统存储架构难以兼顾高吞吐、低时延及异构数据融合的需求,造成业务发展瓶颈,阻碍AI应用落地。华为针对AI推理研发的UCM推理记忆数据管理技术在行业落地中的核心作用,通过“集中高质数据、提速AI训练、优化推理效能”三个角度,打造AI推理加速解决方案。

华为在与运营商的合作中已经验证:对万卡集群进行全栈存力优化后,训练可以连续运行 22 天不间断,算效提升超过 50%,推理吞吐也同时得到显著改善。

北京硅基流动科技有限公司解决方案总监唐安波从框架层切入推理效率,硅基流动构建的AI infra工具链,聚焦提升算力利用率。核心推理框架适配100多款开源大模型,并通过公有云服务平台为广大开发者和企业提供优质的大模型服务。

解决方案上,结合UCM技术卸载KVCache释放显存、提升性能,还通过智能网关优化调度、弹性扩缩容应对长上下文等痛点,基于存储的KVCache方案可大幅提升系统吞吐。

下一代 AI 底座:存力的新共识

当人们讨论大模型的能力时,总习惯于关注参数规模、推理速度、token上限,但真正决定这些能力能否商业化的,是底层的“数据流动能力”。训练靠GPU,推理靠体系,而体系的核心越来越不是算多少、算多快,而是“如何让算力不被浪费”。

先进存力之所以成为行业焦点,不是因为存储厂商突然活跃,也不是存储颗粒涨价,而是整个 AI 推理体系遇到了结构性瓶颈。只有让数据能够在多模态、多级缓存、池化架构中更加高效、可靠地流动,大模型的能力才能真正转化为体验、业务与价值。

未来三年,至少有四个方向会成为产业共识。其一,GPU 不再是最稀缺的资源,真正的稀缺是“喂饱 GPU 的能力”。当 GPU 性能增长遇到边际收益下降,而推理负载持续增长时,如何提高 GPU 利用率比继续堆卡更具价值。存力池化、CXL 布局、多级缓存体系和 KVCache 外存化将成为必要能力。

其二,多模态带来的数据爆炸会让存储从“存放数据”走向“管理数据”。它将成为 AI 系统的主动组件,而不是被动容器。数据如何分类、如何治理、如何调度、如何快速靠近算力,将直接定义推理体验。

其三,训推一体化使存储系统的“实时性”从可选变为必选。在过去,训练对业务实时性影响不大,但未来增量训练和在线推理合流,一次 IO 放大可能直接导致前台延迟波动。存储不再只是后端,而成为业务链路的一部分。

其四,CXL 架构将重塑未来 AI 基础设施的内存与存储边界。CXL 不是某个厂商的技术,而是一种新架构语言,它让内存不再绑定 CPU,也让显存不再成为孤岛,构造出一种算力存力一体化的可能。

未来的 AI 竞争,不会只停留在模型比拼上,而是深入到底座重构之中。(本文作者 | 张帅,编辑 | 盖虹达)

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's巴伦中文网官方网站

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天啊,何穗怎么变成这样了?不仅鼻子变高脸变僵眼神也变得很凶

天啊,何穗怎么变成这样了?不仅鼻子变高脸变僵眼神也变得很凶

草莓解说体育
2026-06-03 01:18:46
房东“电话被打爆,谁约都不见”!上海二手房迎来超长“小阳春”,5月成交量创近6年新高

房东“电话被打爆,谁约都不见”!上海二手房迎来超长“小阳春”,5月成交量创近6年新高

每日经济新闻
2026-06-02 14:06:09
《主角》大结局!米兰坐牢、楚嘉禾陪酒、刘红兵车祸,谁是最惨的

《主角》大结局!米兰坐牢、楚嘉禾陪酒、刘红兵车祸,谁是最惨的

一窥究竟
2026-06-03 04:05:36
央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

墨印斋
2026-05-29 13:20:21
快停下!5 种运动最容易长血栓,很多人天天在练

快停下!5 种运动最容易长血栓,很多人天天在练

猫大夫医学科普
2026-06-02 06:57:44
我国“玻璃硬盘”明年有望大规模量产:一片能存360TB数据

我国“玻璃硬盘”明年有望大规模量产:一片能存360TB数据

IT之家
2026-06-02 10:15:05
汪小菲彻底变了,偏爱汪宝儿,一双儿女独自在台北,对筱梅是真爱

汪小菲彻底变了,偏爱汪宝儿,一双儿女独自在台北,对筱梅是真爱

乐天闲聊
2026-06-03 01:21:28
董璇晒三世同堂照为女儿庆生,高云翔和父母全出镜,对酒窝很宠溺

董璇晒三世同堂照为女儿庆生,高云翔和父母全出镜,对酒窝很宠溺

喜欢历史的阿繁
2026-06-02 18:28:26
18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

不似少年游
2026-05-21 14:26:19
这三个星座,说不爱就真的不回头

这三个星座,说不爱就真的不回头

星座不求人
2026-06-02 20:18:42
脱欧十年后,英国人后悔了 | 京酿馆

脱欧十年后,英国人后悔了 | 京酿馆

新京报评论
2026-06-02 14:27:56
曝Lisa分手!LV大哥已取关,看了奚梦瑶就知道她嫁不进豪门

曝Lisa分手!LV大哥已取关,看了奚梦瑶就知道她嫁不进豪门

萌神木木
2026-06-02 14:35:14
小孩骑车从天桥冲下,撞向停在斑马线上的车辆,律师解读:车主与孩子监护人均有责任

小孩骑车从天桥冲下,撞向停在斑马线上的车辆,律师解读:车主与孩子监护人均有责任

潇湘晨报
2026-06-01 20:13:43
U19国足土伦杯首败!媒体人热议:该换门将了,没进攻没爆点

U19国足土伦杯首败!媒体人热议:该换门将了,没进攻没爆点

奥拜尔
2026-06-02 23:13:23
不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

坠入二次元的海洋
2026-06-01 21:27:00
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

旧窗老街
2026-02-23 01:50:19
瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

一网打尽全球焦点
2026-06-03 02:53:45
76岁的万科创始人王石,最近彻底成了全网焦点。

76岁的万科创始人王石,最近彻底成了全网焦点。

梦录的西方史话
2026-04-23 14:36:39
印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

澎湃新闻
2026-06-02 19:30:33
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
2026-06-03 05:47:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
134457文章数 862214关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

旅游
教育
健康
时尚
手机

旅游要闻

北京位列全球数字旅游引领型城市榜首

教育要闻

今天是6月3日,农历四月十八。距离高考还有四天,专属于你的考前祝福一定要收下

违规干细胞应用,暗藏致命隐患!

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

手机要闻

华为凌霄子母路由Q7电线版星闪电竞专链功能首批支持机型公布

无障碍浏览 进入关怀版