网易首页 > 网易号 > 正文 申请入驻

以存储换算力:DeepSeek Engram与KVCache背后的AI基础设施新范式

0
分享至

大模型 “记忆系统” 正在不断完善和标准化, 2025 年末到 2026 年初,AI 基础设施领域出现了三个标志性事件:

  • 云计算巨头 AWS 通过 HyperPod Inference Operator 支持 Managed Tiered KVCache (受托管的分层 KVCache)和 Intelligent Routing (智能路由)功能,这些功能显著提升 LLM 推理的性能。
  • 在 CES 2026 大会上,英伟达在最新的 Rubin 平台引入了 Inference Context Memory Storage (ICMS),这是专门为大规模推理设计的新型 AI 原生存储基础设施。Nvidia CEO 黄仁勋介绍每个 GPU 将会得到额外的 16TB“记忆空间”,用于承载 KVCache。
  • DeepSeek 在 1 月 13 日发表最新论文,推出 static memory (Engram)模块,成功将静态知识检索从动态神经网络计算中解耦,并取得非常显著的效果。

这三个事件共同指向一个趋势:大模型的"记忆结构"正在走向标准化,且在不断加深探索。

那么,KVCache(后天工作记忆)与 Engram(先天记忆词典)背后有哪些统一的设计哲学?这对 AI 基础设施意味着什么?



后天记忆:KVCache 的效果由命中率曲线决定

在理解 KVCache 时,我们可以做一个形象的类比:它就像是大模型在对话过程中的 “草稿纸记忆”,也就是后天工作记忆。正如人类在解决复杂问题时,会将中间思考过程记录在草稿纸上以避免反复心算一样,KVCache 记录了对话中已理解内容的中间计算状态。当模型需要生成新内容时,可以直接复用这些 “草稿”,而无需对已有的长篇上下文进行重复阅读和计算。

这种复用机制的底层逻辑,在于对 “语言序列局部性”的精准捕捉——只要当前的输入序列与记忆中的历史序列在 “前缀” 上实现匹配,计算资源就可以被节省下来。为了承载这些宝贵的记忆,现代 AI 基础设施构建了一个跨越 L1(GPU HBM)、L2(内存)、L3(全闪存)乃至 L4(外部存储) 的多层级存储架构。

然而,KVCache 的高效使用远非单一的推理引擎优化那么简单,它本质上是一个复杂的 AI 基础设施系统问题。引入分层存储并非一本万利,它必须遵循一个严苛的“代价不等式”,才能产生正向收益:

从 L2/L3 加载缓存回 L1 的代价 < 重新计算这部分缓存的代价。

只有当 “搬运记忆” 的速度快于 “重新思考” 的速度时,这种复杂的存储分层才有意义。这要求我们在设计系统时,必须在计算算力与 I/O 带宽之间找到那个精妙的平衡点。



其次,我们还需要考虑 KVCache 多级缓存层级中,到底什么时候需要 L2/L3/L4,什么时候不需要?这是由 “命中率-Cache 容量” 曲线所决定的:

  • 如果容量增加仍能继续提升命中率 → 则值得继续加缓存层级;
  • 如果容量增加但是命中率趋于饱和 → 再增加缓存层级则是低 ROI。

不同业务负载,具有不同的“命中率-Cache 容量” 曲线,决定了截然不同的架构选择:

  • 对于简单问答类场景:用户的会话往往较短,随机性强。这类负载的缓存命中率很容易触及天花板,L2/L3 足够使用,因为复用率有限。
  • 对于编程 Agent 或长文本分析场景同一个 Session 内会话极长,上下文强相关。这类场景的复用率极高,命中率随着容量增加而显著提升。此时,引入大容量的全局内存池或全闪存储系统,就能带来巨大的性能飞跃。

综上所述,要真正利用好 KVCache,不能仅盯着模型本身,而是需要站在系统工程的高度。我们需要综合考量 GPU 节点的拓扑数量、网络带宽的瓶颈、具体的模型特性以及业务负载的命中率曲线。只有将这些因素统筹考虑,才能构建出既高效又经济的 AI 基础设施。

先天记忆:Engram 将“知识检索”从深层计算中解耦

传统 Transformer 模型要做 2 个事情:组合推理、知识检索。“知识”是隐含在大模型的参数中。这其实把“先天记忆”和“推理”混在一起了,传统大模型在推理(前向传播)时,会一边算、一边“回忆”所有东西—— 哪怕是它已经见过无数次的成语、常识或固定短语(如二元/三元词组)。由于缺少原生“知识检索”操作,只能靠多层计算来重建“高级语义”,这无疑是对算力的巨大浪费。

DeepSeek 的创新是在模型中的某些层增加 Engram 模块,你可以认为是一个“巨大 Hash 表 / 词典”,里面存有通过训练得到的 “多元词组 tokens” → “高级语义表示” 映射。DeepSeek 把 Engram 称做 Static Memory(静态知识),也就是“先天记忆”。比如原本模型需要经过 7 层计算才能知道“四大发明”这个词组的“高级语义”,现在通过第 2 层的 Engram 模块,就可以用查表方法得到这个“高级语义”,而且查找复杂度是O(1)。

Engram 将“知识检索”从深层计算中解耦出来,相当于为模型增加了额外的有效深度,在多项基准测试中显著提升:

  • 知识密集型任务(如 MMLU: +3.4;CMMLU: +4.0) ;
  • 通用推理(如 BBH: +5.0;ARC-Challenge: +3.7) ;
  • 代码和数学领域(如 HumanEval: +3.0;MATH: +2.4) ;
  • 长文本检索性能(例如 Multi-Query NIAH 从 84.2 提升至 97.0)。

Engram 模块就相当于一个百科全书的词典,通过训练去构造这个词典,然后在推理的时候使用查词典,避免做一些“重复推理”的事情。这样,就减轻了主干网络在早期层重建“多元词组的高级语义”的负担,从而增加了可用于复杂推理的有效深度。

Engram 模块捕捉的是"语言的局部性"。在论文中,DeepSeek 证明了可以通过增加 Engram 参数(Hash 表规模)来不断提高模型的推理能力。而且由于自然语言N-grams (多元词组)遵循 Zipfian 分布,少数高频模式占据了绝大多数访问。因此可以构建多级缓存:将频繁访问的词组保留在主机内存中,快将长尾的罕见词组存放在 SSD 中。这也就引入了多级缓存层次结构。

两种“记忆”的统一设计哲学

KVCache 和 Engram 有三个相同的核心原则。这是在 AI 系统中复现计算机系统的经典智慧:通过识别局部性规律,将重复计算固化为分层存储,实现性能与成本的双赢。

所以它们不是两个孤立的技术,而是相同的底层思想在不同场景的具体实现。

1、计算-存储转换原则

将"昂贵的重复计算"转化为"廉价的存储查找":

  • KV Cache:将序列的注意力计算的中间结果存起来,避免重复计算;
  • Engram:将深层网络的"高级语义重建"固化为查找表,避免每次都推理。

本质是用空间换时间,但这个"空间"是智能分级的。

2、局部性捕捉原则



3、分层存储优化原则

因为两者的访问分布遵循幂律,80% 访问集中在 20% 数据 ,且性能开销可控,所以都构建多级存储层次,平衡性能、容量、成本。

两者都采用统一的分层存储架构:L1(GPU HBM)、L2(Host Memory)、L3(Host SSD 或全闪存储系统)、L4(外部存储系统)。

理解幂律分布的关键在于意识到“知识并非等权重的”。Engram 利用这种分布特征,将高频 “头词” 放在近处(高速存储)快跑,将低频 “长尾” 放在远处(大容量存储)备查,从而实现了参数量的廉价扩张。

这个哲学的深层含义

这个设计哲学实际上揭示了:AI 系统本质上仍是计算机系统,仍然遵循同样的性能优化原则(局部性、缓存、分层),但局部性的表现形式却进化了(从序列的空间/时间局部性→语言局部性)。

结语:AI 基础设施的范式转变

从 AWS 将 KVCache 下沉为托管服务,到 Nvidia 将 16TB 分层存储定义为 GPU 的标配架构,再到 DeepSeek 证明 Static Memory(知识检索)的可行性——“记忆系统”正在从推理引擎的内部优化,演变为 AI 基础设施的核心组件。

这意味着:

  • 存储不再是"数据容器",而是"算力加速器":KVCache 缓存池、Engram 知识库,都在用存储换算力;
  • 网络不再是"连接通道",而是"内存总线":全局缓存池需要 400Gb/800Gb RDMA 支撑。

对于未来 AI 基础设施的建设,这既是挑战,更是机遇,市场需要大模型"记忆系统"的主动设计者。XSKY 正在这个方向上持续投入。如果您正在构建 AI 基础设施,欢迎与我们交流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

近史博览
2026-01-25 19:47:31
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
火箭对灰熊!伤病情况出炉:休城双核缺阵,2人复出,莫兰特不打

火箭对灰熊!伤病情况出炉:休城双核缺阵,2人复出,莫兰特不打

熊哥爱篮球
2026-01-26 09:58:01
库里:比赛延期后看了当地相关报道,并没有举行比赛的条件

库里:比赛延期后看了当地相关报道,并没有举行比赛的条件

大眼瞄世界
2026-01-26 11:15:00
曝赫尔松俄军司令遭遇汽车炸弹!乌克兰大规模反攻红军村

曝赫尔松俄军司令遭遇汽车炸弹!乌克兰大规模反攻红军村

项鹏飞
2026-01-24 19:11:58
知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

一盅情怀
2026-01-25 15:54:20
坐高铁必犯困?实测浓度超国标2倍,专家狡辩,爆料滤网半年不换

坐高铁必犯困?实测浓度超国标2倍,专家狡辩,爆料滤网半年不换

眼光很亮
2026-01-25 09:31:50
一个拿腔作势一个双目无神,两人连累48集大剧,老戏骨再强也没用

一个拿腔作势一个双目无神,两人连累48集大剧,老戏骨再强也没用

查尔菲的笔记
2026-01-24 20:12:13
当年举报毕福剑的张清,落得何种结局?

当年举报毕福剑的张清,落得何种结局?

深度报
2026-01-22 23:29:58
曼联糙哥突变贝尔,卡里克解释原因!库尼亚被挤成超级替补却信服

曼联糙哥突变贝尔,卡里克解释原因!库尼亚被挤成超级替补却信服

罗米的曼联博客
2026-01-26 11:19:55
“名媛”不读“míng yuán”,原来错读了这么多年,正确读音是?

“名媛”不读“míng yuán”,原来错读了这么多年,正确读音是?

诗词中国
2026-01-21 20:15:46
已有6地将器官捐献纳入"见义勇为"评定 专家提醒

已有6地将器官捐献纳入"见义勇为"评定 专家提醒

看看新闻Knews
2026-01-25 13:21:04
徐彬开启留洋生涯!U23亚洲杯后已飞往英国,或与狼队签5年长约

徐彬开启留洋生涯!U23亚洲杯后已飞往英国,或与狼队签5年长约

奥拜尔
2026-01-25 15:42:55
戴手铐走完二万五千里,开国前夕去见毛主席,主席却问:你是哪一个?

戴手铐走完二万五千里,开国前夕去见毛主席,主席却问:你是哪一个?

寄史言志
2026-01-17 17:30:15
《太平年》开篇就吃人?张彦泽锅里煮的,是整个五代的人油味

《太平年》开篇就吃人?张彦泽锅里煮的,是整个五代的人油味

爱历史
2026-01-24 10:24:11
晚年的陈独秀,如何看透苏联的真相?

晚年的陈独秀,如何看透苏联的真相?

凭阑听史
2026-01-24 18:15:48
20岁浙江独生女泰国留学25天遭撕票!凶手是3名同胞,男友是主谋

20岁浙江独生女泰国留学25天遭撕票!凶手是3名同胞,男友是主谋

一盅情怀
2026-01-24 17:01:22
恩比德:不知为何在球员介绍时不再提我的绰号“The Process”

恩比德:不知为何在球员介绍时不再提我的绰号“The Process”

懂球帝
2026-01-26 08:05:08
三流州长的达沃斯幻觉:纽森以为自己重要,遭现实直接打脸

三流州长的达沃斯幻觉:纽森以为自己重要,遭现实直接打脸

斌闻天下
2026-01-26 07:04:40
志愿军嫌苏联冲锋枪太重,换成35发被嘲,结果把美军打得不敢露头

志愿军嫌苏联冲锋枪太重,换成35发被嘲,结果把美军打得不敢露头

鉴史录
2026-01-25 21:22:29
2026-01-26 12:35:00
XSKY星辰天合
XSKY星辰天合
技术领先的数据基础设施提供商
804文章数 120关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

40岁假肢舞者诞下四胎 因汶川地震痛失女儿、双腿截肢

头条要闻

40岁假肢舞者诞下四胎 因汶川地震痛失女儿、双腿截肢

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

双门双座+纯电后驱 全新smart精灵#2原型概念车4月首发

态度原创

数码
旅游
亲子
时尚
游戏

数码要闻

苹果调整MacBook Pro更新路线图,今年或将迎两次产品迭代

旅游要闻

爽约1次暂停预约30天!杭州灵隐飞来峰景区优化调整预约机制

亲子要闻

备孕可以吃dhea和辅酶q10?辅酶q10备孕吃多久?

伊姐周日热推:电视剧《太平年》;电视剧《暗恋者的救赎》......

《星际公民》2026年现状引玩家质疑:画饼还是造梦?

无障碍浏览 进入关怀版