DeepSeek发梁文锋署名论文:给大模型装上记忆库，与MoE 互补达成算力效率最优|哈希|上下文|神经网络|正式版模型|deepseek

分享至

日前，DeepSeek 和北京大学一起发布了 2026 年第一篇重磅论文《基于可扩展查找的条件记忆：大型语言模型稀疏性的新维度》

该论文给大模型领域又带来了一个全新思路：让模型该“记”的记，该“算”的算，别用复杂计算浪费资源做“查表”的事。

现在大模型的痛点是，不管是普通 dense 模型还是热门的 MoE 模型，都有个通病——没有专门的“记忆库”。

比如要识别“戴安娜王妃”这个名字，模型得调动好几层网络，一步步拼凑特征，前几层还在纠结“Wales是英国地区”“Princess是头衔”，直到第6层才能确认身份。

这就像有人问你公司地址，你不直接查通讯录，反而从头开始推理，完全是浪费精力。

DeepSeek 的解决方案很直接：给模型装一个可快速查询的“外接记忆库”，也就是 Engram 模块。

这个模块的核心思路来自经典的 N-gram 方法。简单说就是，把常见的词组、固定表达提前存在一个超大表格里，模型需要时通过哈希查找瞬间提取，速度恒定且不耗算力。

为了避免传统记忆模型的缺陷，Engram 做了三个关键优化：一是压缩词表，把 Apple、apple 这类语义相同但形式不同的词汇合并，减少23%的冗余存储；二是用多头哈希解决存储爆炸问题，不管多少词组都能映射到固定大小的表格里；三是加了上下文感知门控，避免查找到的内容和当前语境不匹配，比如能区分单独的“张”和固定人名“张仲景”。

论文最关键的发现是一条“U型曲线”。

在固定参数和算力预算下，把所有资源都给 MoE 不是最优解，75%-80% 给 MoE 负责推理，20%-25% 给 Engram 负责记忆时，模型效果最好。全靠 MoE 会浪费算力重建静态知识，全靠记忆又会失去推理能力，两者互补才是王道。

实验结果更是超出预期。270亿参数的 Engram 模型，不仅在知识类任务（比如MMLU）上提升明显，在需要深度思考的推理、代码、数学任务上进步更显著——BBH 推理任务提分5.0，HumanEval 代码任务提分3.0，就连长文本理解这类难题也大幅突破。

原因很简单。记忆模块帮早期网络省了力，让模型能把更多资源用在复杂推理上。

更难得的是，这个记忆库还特别“省硬件”。1000亿参数的记忆表放在CPU上，推理延迟几乎没影响，训练时还能跨GPU扩展容量。

这意味着不用升级昂贵的GPU，就能让模型性能再上一个台阶。

这篇论文的意义远不止一个模块的创新，它提出了“条件记忆”这个新方向，这和 MoE 的“条件计算”刚好形成互补。

未来，大模型可能都会具备“记忆+计算”双系统。记忆模块负责快速调取常识和固定知识，推理模块专注解决复杂问题。

或许这就是 DeepSeek V4 架构的核心雏形，即可能是一个融合了条件计算（MoE）、条件记忆（Engram）和稳定训练（mHC）的下一代稀疏架构。

同时，这也为大模型的高效化发展指明了新的路径。

以下为论文的主体部分：

《基于可扩展查找的条件记忆：大型语言模型稀疏性的新维度
摘要

混合专家模型（MoE）通过条件计算实现了模型容量的高效扩展，已成为大型语言模型（LLM）稀疏化的主流范式。然而，Transformer架构本质上缺乏原生的知识检索机制，迫使模型通过低效的神经计算来模拟检索过程，造成大量计算资源浪费。为解决这一问题，本文提出“条件记忆”作为与条件计算互补的新型稀疏性维度，并设计Engram模块作为该维度的具体实现。Engram对经典的N-gram嵌入进行现代化改造，通过确定性哈希机制实现常数级（O(1)）的知识查找效率，可高效存储语言中稳定重复的局部模式。

为优化神经计算与静态记忆的资源分配，本文构建了稀疏性分配问题的理论框架，并通过实证发现了一条U型缩放定律（U-shaped Scaling Law）：在固定参数总量与计算量约束下，过度偏向MoE（纯计算）或过度偏向Engram（纯记忆）均无法达到最优性能，两者的合理配比是实现性能突破的关键。基于此定律，我们将Engram模块扩展至270亿参数规模，在严格等参数、等计算量（FLOPs）的实验设置下，其性能显著优于纯MoE基准模型。

实验结果显示，尽管Engram的设计初衷是提升知识检索类任务性能（如MMLU提升3.4分、CMMLU提升4.0分），但在通用推理（BBH提升5.0分、ARC-Challenge提升3.7分）、代码生成（HumanEval提升3.0分）及数学推理（MATH提升2.4分）等复杂任务上的提升更为显著。机制分析表明，Engram通过承担静态模式的重建负担，解放了Transformer主干网络的早期层，等效于“加深”网络以应对复杂推理需求；同时，将局部依赖建模委托给查找操作后，注意力机制的容量被释放，可更专注于全局上下文建模，使长上下文检索性能大幅提升（如Multi-Query NIAH任务从84.2分提升至97.0分）。

此外，Engram具备硬件感知的效率优化特性：其确定性寻址机制支持从主机内存进行运行时预取，额外开销可忽略不计。训练阶段可通过模型并行策略将大规模嵌入表分片存储于多个GPU，推理阶段则可利用CPU内存扩展记忆容量而不影响延迟。本文认为，条件记忆将成为下一代稀疏语言模型不可或缺的建模原语。相关代码与模型已开源：https://github.com/deepseek-ai/Engram

1 引言

近年来，大型语言模型的性能提升高度依赖于参数规模的扩张，但稠密模型的参数增长受限于硬件算力与内存容量的约束。混合专家模型（MoE）通过“条件计算”范式打破了这一限制——每个输入token仅激活少量专家网络，在控制计算量（FLOPs）的同时实现了参数规模的指数级增长，已成为当前大模型稀疏化的主流方案。从AI21 Labs的Jurassic-X到Google的Switch Transformer，再到DeepSeek-MoE，一系列研究均验证了MoE在提升模型容量与性能上的有效性。

然而，MoE本质上仍延续了Transformer的核心架构，而Transformer架构存在一个被长期忽视的关键缺陷：缺乏原生的知识检索机制。语言建模任务可拆解为两类本质不同的子任务：一类是需要动态组合与逻辑推理的复杂任务（如下文语境关联、长程依赖建模、链式推理）；另一类是可通过静态模式匹配完成的简单任务（如实体识别、固定短语理解、语法片段匹配）。对于后一类任务，理想的解决方式是“检索式查找”，而现有Transformer架构只能通过多层注意力与前馈网络的迭代计算来“模拟检索”，这一过程效率低下且浪费计算资源。

例如，为识别“戴安娜，威尔士王妃（Diana, Princess of Wales）”这一命名实体，现有LLM需要调动6层以上的注意力机制与前馈网络，逐步组合“Diana”“Princess”“of Wales”等token的特征，才能完成实体身份的确认。而从信息处理的本质来看，这类静态实体的识别完全可通过一次知识查找操作完成，无需消耗大量神经计算资源。这种“用计算模拟检索”的模式，不仅增加了训练与推理成本，还会挤占主干网络的表达空间，影响复杂推理任务的性能。

针对上述问题，本文提出一个核心观点：稀疏化不仅可服务于“计算”（如MoE的条件计算），还可服务于“记忆”。基于此，我们引入“条件记忆”作为新的稀疏性维度，与MoE的条件计算形成互补。条件记忆的核心思想是：将语言中稳定、重复的静态模式存储于可扩展的记忆模块中，通过高效查找为模型提供先验知识，再由上下文门控机制决定是否采纳该知识，实现“记忆-计算”的协同建模。

为实现条件记忆，本文设计了Engram模块——命名源于神经科学中的“记忆痕迹（Engram）”，指代可存储、可检索的记忆单元。Engram本质上是对经典N-gram嵌入的现代化改造，通过分词器压缩、多头哈希、上下文感知门控三大核心优化，解决了传统记忆模型的存储爆炸、哈希冲突、多义性干扰等关键问题，实现了可扩展、高精度的记忆检索。

本文的主要贡献可总结为四点：（1）提出“条件记忆”新范式，构建了稀疏性分配的理论框架，填补了现有稀疏模型在记忆维度的空白；（2）设计Engram模块作为条件记忆的实现载体，通过三大优化策略实现了高效、可扩展的知识查找；（3）发现并验证了MoE与Engram之间的U型缩放定律，为资源分配提供了量化指导；（4）通过大量实验与机制分析，验证了条件记忆在提升模型性能、优化资源效率上的有效性，尤其在复杂推理任务上的意外突破为后续研究提供了新方向。

2 相关工作

2.1 混合专家模型与条件计算 MoE的核心思想可追溯至早期的“稀疏激活”研究，其通过将大网络拆解为多个小专家网络，利用门控机制为每个输入选择适配的专家，实现“参数规模扩张而计算量可控”的目标。Shazeer等人提出的Switch Transformer首次将MoE规模扩展至万亿参数级，验证了其在语言建模任务上的有效性；随后，DeepSeek-MoE通过动态专家选择策略进一步提升了参数利用率，在多个基准任务上取得SOTA性能。现有MoE研究主要聚焦于专家结构设计、门控机制优化、负载均衡等方向，均属于“条件计算”的范畴，未涉及记忆维度的稀疏化。

2.2 记忆增强型神经网络记忆增强型神经网络（MANN）旨在通过外部记忆单元扩展模型的知识存储能力，典型代表包括神经图灵机（NTM）、Differentiable Neural Computer（DNC）等。这类模型通过可微分的读写操作与外部记忆交互，但复杂的读写机制导致计算效率低下，难以扩展至大模型规模。近年来，部分研究尝试将静态嵌入与Transformer结合，如Retrieval-augmented Generation（RAG）通过检索外部知识库为模型提供补充信息，但RAG依赖于离线知识库构建，且检索过程与模型训练存在脱节，难以适配动态语言场景。与现有工作相比，Engram的核心优势在于：确定性的查找机制实现了高效推理，上下文门控机制保证了记忆与语境的适配性，且可与MoE无缝融合实现端到端训练。

2.3 N-gram语言模型 N-gram模型是传统统计语言模型的核心技术，通过统计连续N个token的共现概率进行文本预测，具备高效的模式匹配能力。但传统N-gram模型存在两大缺陷：一是存储量随N增大呈指数级增长，难以处理长序列；二是缺乏上下文适配能力，无法解决多义性问题。随着深度学习的发展，N-gram模型逐渐被神经网络模型取代。本文的Engram模块重拾N-gram的核心优势，通过分词器压缩、多头哈希等优化策略解决了其固有缺陷，实现了传统方法与现代Transformer的有机融合。

3 方法

3.1 问题定义给定输入token序列X=(x₁, x₂, ..., x_T)，Transformer模型通过多层编码得到隐藏状态序列H=(h₁, h₂, ..., h_T)，其中h_t∈ℝ^d为第t个位置在某一层的隐藏状态。本文旨在引入条件记忆模块Engram，通过对局部上下文的检索获取静态模式信息，与隐藏状态融合后输出增强特征h'_t，即：h'_t = Engram(h_t, X_{t-K:t})，其中X_{t-K:t}为第t个位置的局部上下文窗口（K为窗口大小）。

3.2 Engram模块设计 Engram模块的核心流程分为“检索”与“融合”两个阶段，整体结构如图1所示（原文图1）。检索阶段负责从记忆库中提取与局部上下文匹配的静态模式嵌入；融合阶段通过上下文门控机制将检索到的记忆嵌入与主干网络的隐藏状态融合，生成增强特征。

3.2.1 检索阶段：基于哈希N-gram的稀疏检索检索阶段的核心目标是高效获取局部上下文对应的静态模式嵌入，主要通过分词器压缩、多头哈希两大优化策略实现。

（1）分词器压缩不同形式的同一语义token（如“Apple”与“apple”、“2023”与“二零二三”）会导致记忆库冗余。为解决这一问题，我们引入词表投影层P: V→V'，通过NFKC归一化、小写化等文本等价性处理，将原始token ID坍缩为规范标识符。实验表明，该操作可使128k大小的分词器有效词表规模减少23%，显著降低了记忆库的存储压力。

（2）多头哈希直接参数化所有可能的N-gram组合会导致存储爆炸（如N=3时，128k词表的组合数可达1.6e15）。本文采用基于哈希的稀疏检索方案：为每个N-gram阶数n（本文取n=2,3）分配K个不同的哈希头，每个哈希头通过确定性哈希函数φₙ,ₖ将压缩后的局部上下文映射到嵌入表Eₙ,ₖ的索引。具体而言，对于局部上下文窗口内的token序列(x_{t-K+1}, ..., x_t)，先通过分词器压缩得到规范序列(y_{t-K+1}, ..., y_t)，再对每个n∈{2,3}生成所有可能的n-gram子序列，通过K个哈希头分别检索得到K个嵌入向量，最后通过平均池化得到该阶数的聚合嵌入eₙ,t。不同阶数的嵌入通过拼接得到最终的检索嵌入e_t = [e₂,t; e₃,t]。

多头哈希策略可有效降低哈希冲突概率：当单个哈希头出现冲突时，其他哈希头的检索结果可提供互补信息，通过平均池化削弱冲突带来的噪声干扰。实验验证，当K=4时，哈希冲突率可降低至0.3%以下，满足实际应用需求。

3.2.2 融合阶段：上下文感知门控机制检索得到的嵌入e_t是上下文无关的静态先验信息，可能存在多义性干扰（如“张”既可能是姓氏，也可能是动词）。为解决这一问题，本文设计了上下文感知门控机制，利用主干网络的隐藏状态h_t动态调节记忆嵌入的权重。

具体而言，将隐藏状态h_t作为Query，记忆嵌入e_t分别通过可学习矩阵W_K、W_V投影为Key和Value，通过注意力打分计算门控权重α_t：α_t = σ(RMSNorm(h_t)·W_K·RMSNorm(e_t)^T)，其中σ为sigmoid函数，RMSNorm为Root Mean Square Normalization，用于保证梯度稳定性。最终的增强特征h'_t通过门控加权得到：h'_t = h_t + α_t · (e_t · W_V)。

门控机制的核心作用是实现“条件记忆激活”：当局部上下文存在稳定静态模式（如命名实体、固定短语）时，α_t趋近于1，记忆嵌入被充分利用；当局部上下文为动态语义组合时，α_t趋近于0，模型主要依赖主干网络的计算结果。可视化实验表明，Engram的门控机制在多语言场景下均具备良好的选择性：在英文中，对“Alexander the Great”“the Milky Way”等命名实体和固定短语激活强烈；在中文中，可精准识别“四大发明”“张仲景”等习语与历史实体。

3.3 稀疏性分配与U型缩放定律 Engram与MoE分别代表稀疏性的两个维度（条件记忆与条件计算），如何在有限的参数与算力预算下优化两者的资源分配，是提升模型性能的关键。本文通过定义三个核心参数指标构建稀疏性分配框架：（1）P_tot：总可训练参数（不含词表嵌入与语言模型头）；（2）P_act：每个token的激活参数（决定训练与推理的计算量）；（3）P_sparse = P_tot - P_act：非激活参数（即稀疏参数，MoE的未激活专家与Engram的记忆表均属于此类）。

在固定P_tot与P_act的约束下，我们通过改变Engram记忆表参数占比（从0%到100%）进行实证研究，发现模型性能随记忆占比呈现明显的U型曲线：当记忆占比为0%（纯MoE）或100%（纯记忆）时，性能处于低谷；当记忆占比为20%-25%、MoE占比为75%-80%时，性能达到最优。这一U型缩放定律揭示了静态记忆与动态计算的互补关系：纯MoE会浪费算力重建静态知识，纯记忆则缺乏动态推理能力，两者的合理配比可实现资源利用效率的最大化。

3.4 硬件感知的效率优化为解决大规模记忆表的存储与访问效率问题，Engram设计了硬件友好的实现方案：（1）训练阶段，采用模型并行策略将记忆表分片存储于多个GPU，通过哈希路由保证同一N-gram的检索请求指向同一GPU，避免跨设备通信开销；（2）推理阶段，利用确定性寻址的可预测性，将大规模记忆表存储于CPU内存，通过运行时预取机制将所需记忆条目提前加载至GPU缓存，额外延迟可忽略不计（实验测得延迟增加小于0.5%）。这一设计使模型可在不升级GPU硬件的前提下，通过扩展CPU内存提升记忆容量，显著降低了部署成本。

4 实验

4.1 实验设置本文以DeepSeek-MoE为基准模型，构建了不同参数规模的Engram模型（13B、27B、67B），所有模型均采用相同的训练数据（1.4万亿token的多语言语料）、训练步数（1.2M步）与优化器配置（AdamW，学习率2e-4）。实验任务涵盖五大类：知识检索（MMLU、CMMLU）、通用推理（BBH、ARC-Challenge）、代码生成（HumanEval）、数学推理（MATH）、长上下文检索（Multi-Query NIAH）。评估指标采用标准准确率（Accuracy）或通过率（Pass@1）。

4.2 主要结果表1（原文表1）展示了27B参数模型在各任务上的性能对比：Engram模型在所有任务上均显著优于纯MoE基准模型，其中BBH任务提升5.0分，ARC-Challenge提升3.7分，Multi-Query NIAH提升12.8分，表现最为突出。值得注意的是，尽管Engram的设计初衷是优化知识检索任务，但在复杂推理任务上的提升幅度更大，这验证了“记忆解放计算”的核心假设。

参数规模缩放实验表明（原文图2），随着参数总量增加，Engram与纯MoE的性能差距逐渐扩大：67B Engram模型在MMLU任务上达到68.7分，较同规模MoE提升4.2分；在MATH任务上达到42.3分，提升2.8分。这一结果说明，条件记忆的优势在大规模模型上更为显著，为超大模型的稀疏化设计提供了新方向。

稀疏性分配实验验证了U型缩放定律的有效性（原文图3）：27B模型在记忆占比22%、MoE占比78%时，综合性能达到最优（平均得分提升4.5分）；当记忆占比低于10%或高于40%时，性能均出现明显下降。这一结论为不同任务场景下的资源分配提供了量化指导（如知识密集型任务可适当提高记忆占比至25%，推理密集型任务可维持20%左右）。

4.3 消融实验为验证各核心组件的作用，本文进行了消融实验：（1）移除分词器压缩：词表冗余增加23%，MMLU性能下降1.8分；（2）移除多头哈希：哈希冲突率提升至8.3%，CMMLU性能下降2.1分；（3）移除上下文门控：多义性干扰增加，BBH性能下降3.5分；（4）关闭CPU内存扩展：记忆容量受限，长上下文任务性能下降9.6分。消融实验结果表明，三大核心优化策略与硬件感知设计均对模型性能有重要贡献，缺一不可。

4.4 效率分析训练效率方面，Engram模型的每步训练时间与纯MoE基本持平（27B模型每步训练时间增加0.8%），这得益于模型并行策略的优化；推理效率方面，Engram模型在CPU内存扩展模式下，吞吐量较纯MoE提升12%（相同GPU配置下），因为记忆查找的计算开销远低于神经计算。这一结果证明，Engram在提升性能的同时，未牺牲效率，具备实际部署价值。

5 机制分析

为探究Engram提升模型性能的内在机制，本文从网络激活、注意力分布、层功能分化三个维度进行分析。

网络激活分析表明，Engram模型的主干网络早期层（1-4层）激活强度较纯MoE降低35%，而中晚期层（5-12层）激活强度提升28%。这说明Engram承担了早期层的静态模式重建任务，使主干网络可将更多资源投入到中晚期的复杂推理中，等效于“加深”了网络的有效推理深度。

注意力分布可视化显示（原文图4），Engram模型的注意力权重更集中于长程依赖关系（跨句、跨段落的语义关联），而纯MoE模型的注意力权重大量分布于局部token对（如相邻词的搭配）。这验证了“记忆释放注意力容量”的假设：Engram通过查找处理局部依赖后，注意力机制可更专注于全局上下文建模，从而提升长文本理解能力。

层功能分化实验表明，Engram模型的各层功能定位更清晰：早期层主要负责语义编码的初始化，中晚期层则专注于逻辑推理与上下文整合；而纯MoE模型的各层功能存在大量重叠，导致资源浪费。这一功能分化使模型的计算效率与推理精度同时提升。

6 结论与未来工作

本文提出“条件记忆”作为大型语言模型稀疏化的新维度，通过Engram模块实现了高效的知识查找与上下文融合，与MoE的条件计算形成互补。实验验证了U型缩放定律的有效性，证明20%-25%的记忆参数与75%-80%的计算参数配比可实现最优性能。Engram不仅提升了知识检索任务的效率，还在复杂推理、长上下文理解等任务上取得显著突破，其硬件感知设计降低了部署成本。

未来工作可从三个方向展开：（1）动态调整记忆窗口大小与N-gram阶数，适配不同类型的输入文本；（2）引入动态记忆更新机制，使记忆库可学习新的语言模式，提升模型的泛化能力；（3）将条件记忆范式扩展至多模态语言模型，实现图像、语音等模态的静态特征检索与动态融合。

论文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

参考文献（节选

[1] Shazeer, N., Mirhoseini, M., Maziarz, K., et al. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. TACL, 2020.

[2] Fedus, W., Zoph, B., Borgeaud, S., et al. Switch transformers are scalable and efficient for language modeling. NeurIPS, 2021.

[3] DeepSeek Team. DeepSeek-MoE: Scaling mixture-of-experts language models with dynamic routing. arXiv preprint arXiv:2401.04088, 2024.

[4] Graves, A., Wayne, G., Danihelka, I. Neural turing machines. NeurIPS, 2014.

[5] Lewis, P., Perez, E., Piktus, A., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.