网易首页 > 网易号 > 正文 申请入驻

1M上下文只是起点,超长文本重构AI存储新赛道

0
分享至

文/海峰看科技

当GPT-4.1、DeepSeek-V4、Gemini 2.5 Pro等多家头部大模型厂商,先后将上下文窗口突破至1M量级(约75万字中文,相当于一整本《红楼梦》),整个AI行业都被这场长文本革命点燃了。

但在这场关于能读多少字的狂欢背后,一个被大多数人忽略的底层问题正在浮出水面:支撑百万级上下文稳定运行的AI基础设施,真的准备好了吗?

在笔者看来,长上下文不是单纯的模型参数竞赛,真正决定长文本AI能不能落地、好不好用、贵不贵的关键,在于看不见的存储与调度体系。

当大模型的输入边界被无限拓宽,当智能体开始承担复杂的企业级任务,传统的AI基础设施走到了瓶颈。而以存算分离为核心的技术路线,正成为全行业的破局共识。

当KV Cache(键值缓存)成为卡住长文本AI规模化落地的咽喉,谁能率先打破显存的枷锁?业界领先的AI数据平台,给出怎样的破局思路?



浪潮之下:长文本集中爆发,带来产业矛盾

过去几年,大模型的上下文长度正在以远超预期的速度增长。从2020年GPT-3的2K,到2023年GPT-4的8K、128K,再到2026年主流大模型集体迈入1M时代,六年时间上下文长度增长500倍,而且所有头部厂商的路线图都指向10M乃至无限长上下文的终极目标。

长上下文能力的突破,正在重构大模型的应用边界。过去它只能处理单轮问答、短文档摘要等任务,如今可以通读企业历史文档给出战略建议。同时,AI正在向智能体(Agent)进化,智能体需要进行多轮连续推理、自主规划任务,这对大模型的记忆力提出更高的要求。

这种能力爆发带来的结果就是,企业级AI推理需求的指数级增长。根据IDC测算,预计2026年,全球AI大模型市场规模将达到8720亿美元,其中企业级服务占比74.3%。很多大型企业单日百万级的推理请求成为常态,金融等客户单日消耗百亿级token。

就在所有人都为长文本和智能体的未来欢呼的时候,一个致命的技术瓶颈正在卡住整个行业的脖子——那就是KV Cache(键值缓存)的爆炸式膨胀。

何谓KV Cache?大模型推理就像学生做数学题,每算一步都会产生中间结果。如果没有KV Cache缓存,大模型每生成一个字,都要把前面所有的步骤重新算一遍,不仅速度慢还会浪费算力。可以说,KV Cache就是大模型考试答卷前的草稿纸,会把之前计算过的中间结果保存下来,下次用到的时候直接调用。KV Cache是决定大模型推理速度和成本的最核心技术。

问题在于,KV Cache的大小会随上下文长度指数级增长,每新增一个Token,数据量就同步增加。128K上下文时单条推理的KV Cache约40GB,高端GPU还能承载;但到1M时会暴涨至320-640GB,远超单卡显存上限。更严峻的是,企业级场景下成百上千条并发请求,会让存储需求直接攀升至PB级,云厂商和运营商的多租户场景,整体规模会达到EB级。

这就形成了一个非常尖锐的产业矛盾:一方面,长文本和智能体的爆发需要海量的KV Cache存储;另一方面,显存的增长速度远远跟不上需求。因此,KV Cache正从单纯的性能优化点,变成制约长文本AI规模化落地的第一瓶颈。

破局之路:存算分离成共识,华为为行业打样

面对共同的产业困境,全行业都在寻找解决方案。经过近两年的探索,存算分离+KV Cache池化已经成为公认的唯一可行路径。

简单来说,传统的存算一体架构,就像每个人都把草稿纸锁在抽屉里,别人用不了,自己不够用了也只能把之前的笔记擦掉,重新写草稿。而存算分离架构,就是把所有草稿纸集中放到公共的草稿纸仓库,所有人按需取用、还可以共享,既打破了单机显存的物理限制,又能通过缓存复用降低成本。

在这一共识方向上,领先的数据存储厂商都在发力。比如华为推出的AI数据平台,为行业提供了一套体系化的落地方案。不同于很多厂商的单点优化,华为从底层架构出发,构建了完整的“知识-缓存-记忆”一体化体系,而这个体系的核心,就是UCM(推理记忆数据管理)。



如果把整个AI系统比作一个智能办公团队,UCM就是团队的首席记忆管家。它负责统筹管理所有与记忆相关的资源,让大模型既能快速调取信息,又能沉淀经验,还能高效完成推理。围绕UCM这个核心调度中枢,华为AI数据平台对外输出三大关键能力。

第一:知识生成与检索,相当于给智能体配备了一座实时更新的企业专属图书馆。

针对大模型不懂企业内部知识、信息更新滞后的痛点,它支持多模态数据无损解析,通过Token级编码技术将各类文档转化为高精度知识,实现超95%的检索准确率;同时持续感知源数据变化,近实时完成知识转换,保证智能体获取最新信息。

第二:KV Cache推理加速,核心是利用历史记忆数据提升智能体效率。通过KV智能分级缓存管理技术,对历史推理生成的KV Cache数据进行精细化调度,减少推理过程中的重复计算,提升推理吞吐与用户体验,为长序列、复杂逻辑的智能体推理提供关键性能支撑。

这一能力让原本受限于单机显存的长文本推理成为可能,同时通过缓存复用大幅降低了企业的推理成本,解决了长文本 AI跑不动、用不起的核心难题。



第三:记忆萃取与召回,相当于给智能体准备了一本会成长的工作笔记本。过去的大模型都是鱼的记忆,对话结束信息就消失,更无法沉淀经验。而真正能帮企业干活的智能体,必须像老员工一样越用越聪明。

华为的这项能力,能自动沉淀智能体交互过程中的任务记忆与经验记忆,支持记忆回溯与多智能体协同学习,持续优化推理精度与效率,实现越用越聪明的迭代进化。

值得一提的是,华为并未止步于这三大基础能力。据笔者了解,UCM将推出全新的Agent记忆特性,构建覆盖记忆抽取、分类、沉淀、更新、加速、召回的全生命周期管理体系。

在ToB领域,华为还创新性提出“工作记忆+经验记忆”双模式:工作记忆像随手写的便签,保存当前任务临时信息及上下文;经验记忆像资深员工的工作笔记,沉淀长期行业知识与最佳实践,让Agent既能读万卷书,又能行万里路。

笔者观察:存储与记忆调度将成为核心赛场

1M量级上下文能力的全面普及,以及2M、10M乃至无限长上下文路线图的明确,堪称AI产业进入新阶段的标志性事件。大模型已从能说会道的聊天工具,进化为能够处理复杂任务的生产力工具,产业核心矛盾也从训练算力不足,转向推理存储与调度效率低下。

不同于部分厂商热衷于追逐概念、比拼纸面参数,华为聚焦企业AI落地过程中痛点问题,从底层架构入手,解决制约AI规模化落地的根本问题,这种务实的技术路线,正是当前浮躁的AI行业最需要的。

其次,华为将单点技术优化升级为完整的系统化平台能力。此前行业多是碎片化解决方案,彼此互不兼容,企业需要自行拼凑整合,不仅成本高,还容易出现适配问题。华为通过UCM统一调度知识生成、推理加速、记忆管理三大核心能力,形成知识-缓存-记忆的完整闭环,大幅降低企业AI用数的使用门槛,也为整个行业提供可参考的落地范式。

更关键的是,华为提前卡位了智能体时代的核心需求。智能体的核心竞争力就是记忆能力与经验复用能力。华为从一开始就将推理缓存与智能体记忆深度融合,构建一体化的记忆管理体系,这种前瞻性布局,使其在未来的智能体竞争中占据了有利位置。

放眼行业,长文本竞赛远未结束,但下半场的核心变成谁能以更低的成本、更高的效率存储和调度海量数据。存储与记忆调度将成为继算力之后的下一个核心赛场,存算分离、一体化记忆管理也将成为AI基础设施的标配,万亿规模的AI存储新市场正在加速形成。

当大模型终于拥有了稳定、高效、可沉淀的记忆,当AI不再是只能聊天的玩具,而是能够真正帮助企业解决问题的生产力工具,我们期待的AI普惠时代,才会真正到来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
局长被免职后去世,全局只有我去吊唁,后来他的妻子担任市委书记

局长被免职后去世,全局只有我去吊唁,后来他的妻子担任市委书记

秋风专栏
2025-12-29 16:32:49
知情人士:阿联酋秘密打击伊朗,正式成为参战方,4月初曾袭击伊朗拉旺岛一座炼油厂

知情人士:阿联酋秘密打击伊朗,正式成为参战方,4月初曾袭击伊朗拉旺岛一座炼油厂

每日经济新闻
2026-05-12 21:45:10
动车卧铺加装窗帘走红被赞私密性大大提升 12306工作人员:未接到相关通知

动车卧铺加装窗帘走红被赞私密性大大提升 12306工作人员:未接到相关通知

闪电新闻
2026-05-12 16:38:38
刚宣布退出中国,三星就赚翻了?三星给我们上了一堂残酷的课

刚宣布退出中国,三星就赚翻了?三星给我们上了一堂残酷的课

真的好爱你
2026-05-12 14:27:02
荣飞履新南京市六合区代区长

荣飞履新南京市六合区代区长

环球网资讯
2026-05-13 09:35:04
日本经济代表团又要访问中国了,中方,“区别对待”,是亮点!

日本经济代表团又要访问中国了,中方,“区别对待”,是亮点!

始于初见见
2026-05-13 10:25:45
从陈泽仕被撞开说起,球员和教练做好自己,中国足球不会越来越差

从陈泽仕被撞开说起,球员和教练做好自己,中国足球不会越来越差

足球分析员
2026-05-13 11:00:11
教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

心理观察局
2026-05-13 09:18:07
场均13+6+1!专家为湖人支招:追火箭前锋!攻防兼备,成自由球员

场均13+6+1!专家为湖人支招:追火箭前锋!攻防兼备,成自由球员

熊哥爱篮球
2026-05-13 12:09:15
樊振东为什么决绝续约,小胖给出8个字回应,德甲冠军抢人失败

樊振东为什么决绝续约,小胖给出8个字回应,德甲冠军抢人失败

以茶带书
2026-03-17 20:52:47
NBA一日内痛失两将:47岁科林斯脑癌去世,29岁克拉克死因未披露

NBA一日内痛失两将:47岁科林斯脑癌去世,29岁克拉克死因未披露

红星新闻
2026-05-13 11:58:24
惨不忍睹!因欺诈发行7天3个20cm跌停暴跌51%,七千多户股东绝望!

惨不忍睹!因欺诈发行7天3个20cm跌停暴跌51%,七千多户股东绝望!

股侠指北针
2026-05-13 10:45:22
“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

妍妍教育日记
2026-05-12 17:35:01
有高人预判:五年之后,烟草职工家庭,终将躲不开三大现实难题

有高人预判:五年之后,烟草职工家庭,终将躲不开三大现实难题

芳姐侃社会
2026-05-13 11:32:02
终于知道大爷大妈经常跑银行的原因了!网友:后来我辞职了!

终于知道大爷大妈经常跑银行的原因了!网友:后来我辞职了!

另子维爱读史
2026-05-13 07:40:13
十大元帅中真正拉起一支队伍的,仅有两个半,他们被我们称为老总

十大元帅中真正拉起一支队伍的,仅有两个半,他们被我们称为老总

史之铭
2026-04-18 03:41:39
A股:周三上午传来3个特大消息!A股或迎来史诗级震荡行情?

A股:周三上午传来3个特大消息!A股或迎来史诗级震荡行情?

趋势清风侠
2026-05-13 08:48:37
张本宇没想到,放弃中国籍后,儿子为日争光,却还遭日本网友大骂

张本宇没想到,放弃中国籍后,儿子为日争光,却还遭日本网友大骂

喜欢历史的阿繁
2026-05-12 19:21:01
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
牛肉不能常吃?医生提醒:这4种人尽量少碰,吃牛肉也是有禁忌的

牛肉不能常吃?医生提醒:这4种人尽量少碰,吃牛肉也是有禁忌的

芹姐说生活
2026-05-12 16:19:59
2026-05-13 12:59:00
黄海峰 incentive-icons
黄海峰
关注通信、终端、IT
2338文章数 999关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普访华随行名单:夫人缺席 次子夫妇、鲁比奥随行

头条要闻

特朗普访华随行名单:夫人缺席 次子夫妇、鲁比奥随行

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕,彰显国际地位

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

旅游
健康
艺术
家居
数码

旅游要闻

金寨天堂寨:光影绘非遗 夜游启新篇

干细胞能让人“返老还童”吗

艺术要闻

贺羽 2026油画写生新作

家居要闻

极简主义下的居住场域与空间

数码要闻

上游不优化我自己来!五年老卡RX 6800 XT内核魔改:MoE速度暴增至1770t/s

无障碍浏览 进入关怀版