一觉醒来,DeepSeek又发新论文了!
仔细一看作者,梁文锋的名字也赫然出现在其中。
![]()
这篇论文题为《通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度》,重点在于提出了 Engram ——这是一种条件记忆模块,旨在通过将静态模式存储与动态计算在结构上分离,来增强 Transformer 骨干网络。
![]()
论文的给出的实验数据也相当惊艳:
1、Engram 在知识、推理、代码和数学任务上能够带来显著性能提升,均超过纯MoE模型。
2、存在U形扩展规律:纯 MoE性能次优,将 20–25% 的稀疏参数分配给 Engram,效果最佳。
3、长上下文能力提升明显,能释放注意力用于全局模式和复杂推理。
代码和论文全文均已开源:
论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
代码地址:https://github.com/deepseek-ai/Engram
为什么大语言模型需要 Engram ?
稀疏性(sparsity)一直是智能系统的核心设计原则,无论是生物大脑的神经回路,还是现代大语言模型都在用它来“省资源”。
在 AI 里,这个思想最常见的体现就是混合专家模型(MoE)——也就是通过“条件计算”让模型只激活部分参数,从而在不增加太多计算量的情况下,把模型容量放大好几倍。MoE 是目前推进参数规模和能力扩展的关键技术之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先进的 MoE 方法进行扩展训练。
但 MoE 也有其局限性。语言本身非常复杂,至少包含两类截然不同的任务:
- 组合式推理:需要深层、动态的神经计算,比如理解复杂句子结构或推理问题;
- 知识检索:大量文本都是高度固定、重复的内容,比如命名实体、固定表达、程式化模式。
论文中提出,经典的-gram 模型已经证明,处理这种局部、重复的语言规律,用“查表”效率最高,几乎不需要动深层神经网络。
然而现在的 Transformer 并没有这种原生“查表能力”,所以模型每次要识别一个常见的多 token 实体,都要消耗好几层注意力和前馈网络,这就像在运行时重复重建一个静态字典,既浪费计算,又占用模型的“序列深度”,原本可以用来做更高级的推理。
Engram是如何实现的?
为了解决上述问题,DeepSeek提出了一个新的稀疏化方向——条件记忆,专门用来存储和查找固定知识。它和 MoE 的条件计算完全互补:
- MoE 负责动态推理和组合逻辑;
- Engram 负责静态知识,直接查表就行。
Engram是神经科学中的一个核心概念,意为“记忆痕迹”,它是一个可扩展、可查找的记忆模块,用于语言模型在推理过程中过去可能已经见过的模式或片段。
在具体实现上,Engram模块通过 O(1) 的查找复杂度将静态模式存储从动态计算中分离出来,采用了四项核心技术:现代化的哈希 N-gram 嵌入、分词器压缩、上下文门控以及多分支融合技术。
具体来看:
1、分词器压缩:预先计算映射函数,将语义等价但 ID 不同的词项(如 "Apple" 和 "apple")折叠为统一标识符,将有效词表大小减少了 23%。· 多头2、哈希检索:利用局部上下文(N-grams)作为键,通过哈希函数在巨大的嵌入表中检索静态向量。
3、上下文感知门控:这是 Engram 的关键创新。利用当前层的隐藏状态作为 Query,与检索到的内存进行语义匹配。如果检索内容与上下文矛盾,门控值会趋近于零,从而抑制哈希冲突带来的噪声。
4、混合分枝集成:专门针对多分枝架构(如 mHC)进行了优化,通过参数共享策略(共享 Embedding 表和 Value 投影,保持独立 Key 投影)平衡了表达能力与计算效率。
![]()
Engram 通常会插在 Transformer 的前期层,比如 Layer 2 或 Layer 6。这样做的好处是:一方面可以把静态模式的重建工作卸载掉,减轻骨干网络的负担;另一方面又能保留足够的上下文信息,让门控机制更聪明地判断哪些记忆该用,哪些该忽略。
Engram 的记忆容量并不是越大越好,它需要和 MoE 专家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法则,合理划分两者比例,既保证大模型的参数利用率,又最大化计算效率——简单来说,就是让每一份记忆和每一位专家都发挥最大作用。
实验结果很惊艳:推理、代码、长上下文能力显著提升
论文把 Engram 扩展到 270 亿参数,严格对齐 MoE 基线的参数和 FLOPs。结果显示:
- 知识密集型任务(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;
- 通用推理任务(BBH、ARC-Challenge、DROP):提升更明显,最高 +5 分;
- 代码和数学能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。
![]()
值得注意的是,Engram 在知识密集型任务中明显优于纯 MoE 模型。原因很直观:它把静态模式的记忆交给了高效的查找机制,而不是每次都用神经网络“重算”,减少了浅层的重复计算。
更重要的是,Engram也显著扩展了长上下文能力,在长文本任务(如 LongPPL、RULER)表现突出,尤其是在多跳检索、链式推理等场景中。例如 Multi-Query NIAH 指标从 84.2 提升到 97.0,Variable Tracking 从 77.0 提升到 89.0。
![]()
原因是 Engram 处理了大量局部、静态的依赖,释放了注意力机制去处理全局上下文,从而在长序列中更稳、更准。
![]()
此外,团队还发现了 MoE 和 Engram 容量分配中的U形扩展规律:
- 当 Engram 记忆容量太小或太大时,性能都不理想
- 将 20–25% 的稀疏参数分配给 Engram,效果最佳
在Reddit、X等平台上,DeepSeek的新论文也立刻引发了网友的热烈讨论。
其中最广泛的一个猜测就是:Engram 可能是即将推出的 DeepSeek-V4 的基础技术。
![]()
![]()
很多网友认为,Engram这个方法很有趣,其特点在于让模型架构处理“记忆模式查找”和“神经计算推理”两块职责分离,从而开启了新的稀疏性方向。
![]()
也有网友表示,这种方法比线性注意力机制要好得多。
![]()
DeepSeek的深夜放大招,也让部分网友直言:中国大模型团队的创新性真令人害怕。
![]()
那么各位大佬们,你们如何看待DeepSeek的这项新技术?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.