以存储换算力:DeepSeek Engram与KVCache背后的AI基础设施新范式|内存|上下文|正式版模型|deepseek

以存储换算力:DeepSeek Engram与KVCache背后的AI基础设施新范式

2026-01-21 14:35:10　来源: XSKY星辰天合

北京举报

分享至

大模型 “记忆系统” 正在不断完善和标准化， 2025 年末到 2026 年初，AI 基础设施领域出现了三个标志性事件：

云计算巨头 AWS 通过 HyperPod Inference Operator 支持 Managed Tiered KVCache （受托管的分层 KVCache）和 Intelligent Routing （智能路由）功能，这些功能显著提升 LLM 推理的性能。
在 CES 2026 大会上，英伟达在最新的 Rubin 平台引入了 Inference Context Memory Storage （ICMS），这是专门为大规模推理设计的新型 AI 原生存储基础设施。Nvidia CEO 黄仁勋介绍每个 GPU 将会得到额外的 16TB“记忆空间”，用于承载 KVCache。
DeepSeek 在 1 月 13 日发表最新论文，推出 static memory （Engram）模块，成功将静态知识检索从动态神经网络计算中解耦，并取得非常显著的效果。

这三个事件共同指向一个趋势：大模型的"记忆结构"正在走向标准化，且在不断加深探索。

那么，KVCache（后天工作记忆）与 Engram（先天记忆词典）背后有哪些统一的设计哲学？这对 AI 基础设施意味着什么？

后天记忆：KVCache 的效果由命中率曲线决定

在理解 KVCache 时，我们可以做一个形象的类比：它就像是大模型在对话过程中的 “草稿纸记忆”，也就是后天工作记忆。正如人类在解决复杂问题时，会将中间思考过程记录在草稿纸上以避免反复心算一样，KVCache 记录了对话中已理解内容的中间计算状态。当模型需要生成新内容时，可以直接复用这些 “草稿”，而无需对已有的长篇上下文进行重复阅读和计算。

这种复用机制的底层逻辑，在于对 “语言序列局部性”的精准捕捉——只要当前的输入序列与记忆中的历史序列在 “前缀” 上实现匹配，计算资源就可以被节省下来。为了承载这些宝贵的记忆，现代 AI 基础设施构建了一个跨越 L1（GPU HBM）、L2（内存）、L3（全闪存）乃至 L4（外部存储）的多层级存储架构。

然而，KVCache 的高效使用远非单一的推理引擎优化那么简单，它本质上是一个复杂的 AI 基础设施系统问题。引入分层存储并非一本万利，它必须遵循一个严苛的“代价不等式”，才能产生正向收益：

从 L2/L3 加载缓存回 L1 的代价 < 重新计算这部分缓存的代价。

只有当 “搬运记忆” 的速度快于 “重新思考” 的速度时，这种复杂的存储分层才有意义。这要求我们在设计系统时，必须在计算算力与 I/O 带宽之间找到那个精妙的平衡点。

其次，我们还需要考虑 KVCache 多级缓存层级中，到底什么时候需要 L2/L3/L4，什么时候不需要？这是由 “命中率-Cache 容量” 曲线所决定的：

如果容量增加仍能继续提升命中率 → 则值得继续加缓存层级；
如果容量增加但是命中率趋于饱和 → 再增加缓存层级则是低 ROI。

不同业务负载，具有不同的“命中率-Cache 容量” 曲线，决定了截然不同的架构选择：

对于简单问答类场景：用户的会话往往较短，随机性强。这类负载的缓存命中率很容易触及天花板，L2/L3 足够使用，因为复用率有限。
对于编程 Agent 或长文本分析场景同一个 Session 内会话极长，上下文强相关。这类场景的复用率极高，命中率随着容量增加而显著提升。此时，引入大容量的全局内存池或全闪存储系统，就能带来巨大的性能飞跃。

综上所述，要真正利用好 KVCache，不能仅盯着模型本身，而是需要站在系统工程的高度。我们需要综合考量 GPU 节点的拓扑数量、网络带宽的瓶颈、具体的模型特性以及业务负载的命中率曲线。只有将这些因素统筹考虑，才能构建出既高效又经济的 AI 基础设施。

先天记忆：Engram 将“知识检索”从深层计算中解耦

传统 Transformer 模型要做 2 个事情：组合推理、知识检索。“知识”是隐含在大模型的参数中。这其实把“先天记忆”和“推理”混在一起了，传统大模型在推理（前向传播）时，会一边算、一边“回忆”所有东西—— 哪怕是它已经见过无数次的成语、常识或固定短语（如二元/三元词组）。由于缺少原生“知识检索”操作，只能靠多层计算来重建“高级语义”，这无疑是对算力的巨大浪费。

DeepSeek 的创新是在模型中的某些层增加 Engram 模块，你可以认为是一个“巨大 Hash 表 / 词典”，里面存有通过训练得到的 “多元词组 tokens” → “高级语义表示” 映射。DeepSeek 把 Engram 称做 Static Memory（静态知识），也就是“先天记忆”。比如原本模型需要经过 7 层计算才能知道“四大发明”这个词组的“高级语义”，现在通过第 2 层的 Engram 模块，就可以用查表方法得到这个“高级语义”，而且查找复杂度是O(1)。

Engram 将“知识检索”从深层计算中解耦出来，相当于为模型增加了额外的有效深度，在多项基准测试中显著提升:

知识密集型任务（如 MMLU: +3.4；CMMLU: +4.0) ;
通用推理（如 BBH: +5.0；ARC-Challenge: +3.7) ;
代码和数学领域（如 HumanEval: +3.0；MATH: +2.4) ;
长文本检索性能（例如 Multi-Query NIAH 从 84.2 提升至 97.0）。

Engram 模块就相当于一个百科全书的词典，通过训练去构造这个词典，然后在推理的时候使用查词典，避免做一些“重复推理”的事情。这样，就减轻了主干网络在早期层重建“多元词组的高级语义”的负担，从而增加了可用于复杂推理的有效深度。

Engram 模块捕捉的是"语言的局部性"。在论文中，DeepSeek 证明了可以通过增加 Engram 参数（Hash 表规模）来不断提高模型的推理能力。而且由于自然语言N-grams （多元词组）遵循 Zipfian 分布，少数高频模式占据了绝大多数访问。因此可以构建多级缓存：将频繁访问的词组保留在主机内存中，快将长尾的罕见词组存放在 SSD 中。这也就引入了多级缓存层次结构。

两种“记忆”的统一设计哲学

KVCache 和 Engram 有三个相同的核心原则。这是在 AI 系统中复现计算机系统的经典智慧：通过识别局部性规律，将重复计算固化为分层存储，实现性能与成本的双赢。

所以它们不是两个孤立的技术，而是相同的底层思想在不同场景的具体实现。

1、计算-存储转换原则

将"昂贵的重复计算"转化为"廉价的存储查找"：

KV Cache：将序列的注意力计算的中间结果存起来，避免重复计算；
Engram：将深层网络的"高级语义重建"固化为查找表，避免每次都推理。

本质是用空间换时间，但这个"空间"是智能分级的。

2、局部性捕捉原则

3、分层存储优化原则

因为两者的访问分布遵循幂律，80% 访问集中在 20% 数据，且性能开销可控，所以都构建多级存储层次，平衡性能、容量、成本。

两者都采用统一的分层存储架构：L1（GPU HBM）、L2（Host Memory）、L3（Host SSD 或全闪存储系统）、L4（外部存储系统）。

理解幂律分布的关键在于意识到“知识并非等权重的”。Engram 利用这种分布特征，将高频 “头词” 放在近处（高速存储）快跑，将低频 “长尾” 放在远处（大容量存储）备查，从而实现了参数量的廉价扩张。

这个哲学的深层含义

这个设计哲学实际上揭示了：AI 系统本质上仍是计算机系统，仍然遵循同样的性能优化原则（局部性、缓存、分层），但局部性的表现形式却进化了（从序列的空间/时间局部性→语言局部性）。

结语：AI 基础设施的范式转变

从 AWS 将 KVCache 下沉为托管服务，到 Nvidia 将 16TB 分层存储定义为 GPU 的标配架构，再到 DeepSeek 证明 Static Memory（知识检索）的可行性——“记忆系统”正在从推理引擎的内部优化，演变为 AI 基础设施的核心组件。

这意味着：

存储不再是"数据容器"，而是"算力加速器"：KVCache 缓存池、Engram 知识库，都在用存储换算力；
网络不再是"连接通道"，而是"内存总线"：全局缓存池需要 400Gb/800Gb RDMA 支撑。

对于未来 AI 基础设施的建设，这既是挑战，更是机遇，市场需要大模型"记忆系统"的主动设计者。XSKY 正在这个方向上持续投入。如果您正在构建 AI 基础设施，欢迎与我们交流。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.