刚刚，梁文锋署名新论文深夜炸场！DeepSeek-V4 新架构曝光|上下文|正式版模型|deepseek

刚刚，梁文锋署名新论文深夜炸场！DeepSeek-V4 新架构曝光

2026-01-13 15:31:41　来源: 呼呼历史论

辽宁举报

分享至

一觉醒来，DeepSeek又发新论文了！

仔细一看作者，梁文锋的名字也赫然出现在其中。

这篇论文题为《通过可扩展查找实现的条件记忆：大型语言模型稀疏性的新维度》，重点在于提出了 Engram ——这是一种条件记忆模块，旨在通过将静态模式存储与动态计算在结构上分离，来增强 Transformer 骨干网络。

论文的给出的实验数据也相当惊艳：

1、Engram 在知识、推理、代码和数学任务上能够带来显著性能提升，均超过纯MoE模型。

2、存在U形扩展规律：纯 MoE性能次优，将 20–25% 的稀疏参数分配给 Engram，效果最佳。

3、长上下文能力提升明显，能释放注意力用于全局模式和复杂推理。

代码和论文全文均已开源：

论文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

代码地址：https://github.com/deepseek-ai/Engram

为什么大语言模型需要 Engram ？

稀疏性（sparsity）一直是智能系统的核心设计原则，无论是生物大脑的神经回路，还是现代大语言模型都在用它来“省资源”。

在 AI 里，这个思想最常见的体现就是混合专家模型（MoE）——也就是通过“条件计算”让模型只激活部分参数，从而在不增加太多计算量的情况下，把模型容量放大好几倍。MoE 是目前推进参数规模和能力扩展的关键技术之一，DeepSeek 自家系列模型（如 DeepSeek V2、DeepSeek V3 等）也采用了先进的 MoE 方法进行扩展训练。

但 MoE 也有其局限性。语言本身非常复杂，至少包含两类截然不同的任务：

组合式推理：需要深层、动态的神经计算，比如理解复杂句子结构或推理问题；
知识检索：大量文本都是高度固定、重复的内容，比如命名实体、固定表达、程式化模式。

论文中提出，经典的-gram 模型已经证明，处理这种局部、重复的语言规律，用“查表”效率最高，几乎不需要动深层神经网络。

然而现在的 Transformer 并没有这种原生“查表能力”，所以模型每次要识别一个常见的多 token 实体，都要消耗好几层注意力和前馈网络，这就像在运行时重复重建一个静态字典，既浪费计算，又占用模型的“序列深度”，原本可以用来做更高级的推理。

Engram是如何实现的？

为了解决上述问题，DeepSeek提出了一个新的稀疏化方向——条件记忆，专门用来存储和查找固定知识。它和 MoE 的条件计算完全互补：

MoE 负责动态推理和组合逻辑；
Engram 负责静态知识，直接查表就行。

Engram是神经科学中的一个核心概念，意为“记忆痕迹”，它是一个可扩展、可查找的记忆模块，用于语言模型在推理过程中过去可能已经见过的模式或片段。

在具体实现上，Engram模块通过 O(1) 的查找复杂度将静态模式存储从动态计算中分离出来，采用了四项核心技术：现代化的哈希 N-gram 嵌入、分词器压缩、上下文门控以及多分支融合技术。

具体来看：

1、分词器压缩：预先计算映射函数，将语义等价但 ID 不同的词项（如 "Apple" 和 "apple"）折叠为统一标识符，将有效词表大小减少了 23%。· 多头2、哈希检索：利用局部上下文（N-grams）作为键，通过哈希函数在巨大的嵌入表中检索静态向量。

3、上下文感知门控：这是 Engram 的关键创新。利用当前层的隐藏状态作为 Query，与检索到的内存进行语义匹配。如果检索内容与上下文矛盾，门控值会趋近于零，从而抑制哈希冲突带来的噪声。

4、混合分枝集成：专门针对多分枝架构（如 mHC）进行了优化，通过参数共享策略（共享 Embedding 表和 Value 投影，保持独立 Key 投影）平衡了表达能力与计算效率。

Engram 通常会插在 Transformer 的前期层，比如 Layer 2 或 Layer 6。这样做的好处是：一方面可以把静态模式的重建工作卸载掉，减轻骨干网络的负担；另一方面又能保留足够的上下文信息，让门控机制更聪明地判断哪些记忆该用，哪些该忽略。

Engram 的记忆容量并不是越大越好，它需要和 MoE 专家容量精心配比。按照 Sparsity Allocation（稀疏性分配）法则，合理划分两者比例，既保证大模型的参数利用率，又最大化计算效率——简单来说，就是让每一份记忆和每一位专家都发挥最大作用。

实验结果很惊艳：推理、代码、长上下文能力显著提升

论文把 Engram 扩展到 270 亿参数，严格对齐 MoE 基线的参数和 FLOPs。结果显示：

知识密集型任务（MMLU、CMMLU、MMLU-Pro）：性能提升 1.8–4.0 分不等；
通用推理任务（BBH、ARC-Challenge、DROP）：提升更明显，最高 +5 分；
代码和数学能力（HumanEval、MATH、GSM8K）：平均提升 2–3 分。

值得注意的是，Engram 在知识密集型任务中明显优于纯 MoE 模型。原因很直观：它把静态模式的记忆交给了高效的查找机制，而不是每次都用神经网络“重算”，减少了浅层的重复计算。

更重要的是，Engram也显著扩展了长上下文能力，在长文本任务（如 LongPPL、RULER）表现突出，尤其是在多跳检索、链式推理等场景中。例如 Multi-Query NIAH 指标从 84.2 提升到 97.0，Variable Tracking 从 77.0 提升到 89.0。

原因是 Engram 处理了大量局部、静态的依赖，释放了注意力机制去处理全局上下文，从而在长序列中更稳、更准。

此外，团队还发现了 MoE 和 Engram 容量分配中的U形扩展规律：

当 Engram 记忆容量太小或太大时，性能都不理想
将 20–25% 的稀疏参数分配给 Engram，效果最佳

网友：Engram 可能是 DeepSeek-V4 型号的基础技术！

在Reddit、X等平台上，DeepSeek的新论文也立刻引发了网友的热烈讨论。

其中最广泛的一个猜测就是：Engram 可能是即将推出的 DeepSeek-V4 的基础技术。

很多网友认为，Engram这个方法很有趣，其特点在于让模型架构处理“记忆模式查找”和“神经计算推理”两块职责分离，从而开启了新的稀疏性方向。

也有网友表示，这种方法比线性注意力机制要好得多。

DeepSeek的深夜放大招，也让部分网友直言：中国大模型团队的创新性真令人害怕。

那么各位大佬们，你们如何看待DeepSeek的这项新技术？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.