独家解读DeepSeek推出Engram为LLM装上“记忆库”，效率革命来了|元组|上下文|新论文|engram|deepseek

独家解读DeepSeek推出Engram为LLM装上“记忆库”，效率革命来了

2026-01-16 16:19:22　来源: 呼呼历史论

辽宁举报

分享至

近日，DeepSeek AI研究团队发布了一项名为 Engram 的创新工作，旨在为大语言模型（LLM）赋予原生且高效的“知识查找”能力。这或许将改变我们构建和扩展大型模型的基本范式。

痛点与革新：从重复计算到即时查找

当前主流的Transformer架构，即便采用了注意力机制和混合专家（MoE）系统来动态分配计算资源，其核心仍缺乏一种高效的机制来直接“回忆”已学过的知识。模型不得不一遍遍地重新计算那些常见的、静态的模式（如固定搭配、实体名称），这无疑是对计算深度和FLOPs的浪费。

Engram模块的提出，正是为了填补这一空白。它并非替代MoE，而是引入了一个并行的条件记忆轴。简单来说，Engram就像一个高效的、可扩展的“外部知识库”，专门负责存储和快速检索那些高频、固定的N元组（N-gram）模式。

技术核心：如何工作？

Engram模块被集成到Transformer骨干网络中。其核心是一个基于哈希的N元组查找表，能够实现O(1)复杂度的快速检索。工作机制包含几个精巧的设计：

多头部哈希：将输入上下文映射到素数大小的桶中，减少冲突。
深度卷积：对N元组上下文进行轻量处理。
上下文感知门控：生成一个0到1之间的标量，智能控制从记忆中检索到的信息有多少应该注入到模型的主干流中，实现动态融合。

关键发现：稀疏分配的艺术

研究团队提出了 “稀疏分配” 这一核心设计问题：在固定的总稀疏参数量下，如何在MoE专家和Engram记忆体之间最优分配？
实验给出了清晰答案：将大约 20%-25% 的稀疏参数预算从MoE专家重新分配给Engram记忆，可以在保持相同激活参数量的情况下，显著降低验证损失。这表明条件记忆与条件计算是互补而非竞争关系，为模型设计提供了新的“旋钮”。

大规模效果：全面领先

在2620亿token的大规模预训练中，对比结果令人印象深刻：

同等激活参数量（3.8B）下：总参数量26.7B的Engram-27B模型，在语言建模损失（The Pile）上显著优于同规模的纯MoE-27B模型（损失从2.091降至1.960）。
能力评估：在知识（MMLU）、推理（ARC-C）、代码（HumanEval）和数学（GSM8K）等广泛基准上，Engram-27B全面超越了MoE-27B基线。例如，MMLU从57.4提升至60.4。
长上下文能力：在使用YaRN将上下文扩展至32K后，Engram-27B不仅在长文本困惑度上匹配基线，在RULER等复杂长上下文评测（如多针检索、变量追踪）上表现更优。

机制解析：为何有效？

通过Logit Lens和CKA等分析工具，研究人员发现Engram使模型的表示更快地趋于“预测就绪”状态。例如，Engram模型第5层的表示，与MoE基线模型第12层的表示相似。这有力地证明，Engram通过将静态模式的记忆与检索任务“外包”，等效地增加了模型的有效推理深度，让主干网络能更专注于复杂的动态推理和长程依赖建模。

总结与展望

Engram的提出是一次重要的架构创新。它通过引入一个高效、可扩展的条件记忆系统，让大语言模型能够更“聪明”地分配其计算资源：将记忆留给“记忆库”，将深度推理留给“大脑”。这不仅提升了模型在同等算力下的性能，也为未来探索更高效、更强大的模型架构开辟了新方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.