近日,DeepSeek AI研究团队发布了一项名为 Engram 的创新工作,旨在为大语言模型(LLM)赋予原生且高效的“知识查找”能力。这或许将改变我们构建和扩展大型模型的基本范式。
痛点与革新:从重复计算到即时查找
![]()
当前主流的Transformer架构,即便采用了注意力机制和混合专家(MoE)系统来动态分配计算资源,其核心仍缺乏一种高效的机制来直接“回忆”已学过的知识。模型不得不一遍遍地重新计算那些常见的、静态的模式(如固定搭配、实体名称),这无疑是对计算深度和FLOPs的浪费。
Engram模块的提出,正是为了填补这一空白。它并非替代MoE,而是引入了一个并行的条件记忆轴。简单来说,Engram就像一个高效的、可扩展的“外部知识库”,专门负责存储和快速检索那些高频、固定的N元组(N-gram)模式。
技术核心:如何工作?
Engram模块被集成到Transformer骨干网络中。其核心是一个基于哈希的N元组查找表,能够实现O(1)复杂度的快速检索。工作机制包含几个精巧的设计:
- 多头部哈希:将输入上下文映射到素数大小的桶中,减少冲突。
- 深度卷积:对N元组上下文进行轻量处理。
- 上下文感知门控:生成一个0到1之间的标量,智能控制从记忆中检索到的信息有多少应该注入到模型的主干流中,实现动态融合。
研究团队提出了 “稀疏分配” 这一核心设计问题:在固定的总稀疏参数量下,如何在MoE专家和Engram记忆体之间最优分配?
实验给出了清晰答案:将大约 20%-25% 的稀疏参数预算从MoE专家重新分配给Engram记忆,可以在保持相同激活参数量的情况下,显著降低验证损失。这表明条件记忆与条件计算是互补而非竞争关系,为模型设计提供了新的“旋钮”。
大规模效果:全面领先
在2620亿token的大规模预训练中,对比结果令人印象深刻:
- 同等激活参数量(3.8B)下:总参数量26.7B的Engram-27B模型,在语言建模损失(The Pile)上显著优于同规模的纯MoE-27B模型(损失从2.091降至1.960)。
- 能力评估:在知识(MMLU)、推理(ARC-C)、代码(HumanEval)和数学(GSM8K)等广泛基准上,Engram-27B全面超越了MoE-27B基线。例如,MMLU从57.4提升至60.4。
- 长上下文能力:在使用YaRN将上下文扩展至32K后,Engram-27B不仅在长文本困惑度上匹配基线,在RULER等复杂长上下文评测(如多针检索、变量追踪)上表现更优。
通过Logit Lens和CKA等分析工具,研究人员发现Engram使模型的表示更快地趋于“预测就绪”状态。例如,Engram模型第5层的表示,与MoE基线模型第12层的表示相似。这有力地证明,Engram通过将静态模式的记忆与检索任务“外包”,等效地增加了模型的有效推理深度,让主干网络能更专注于复杂的动态推理和长程依赖建模。
总结与展望
Engram的提出是一次重要的架构创新。它通过引入一个高效、可扩展的条件记忆系统,让大语言模型能够更“聪明”地分配其计算资源:将记忆留给“记忆库”,将深度推理留给“大脑”。这不仅提升了模型在同等算力下的性能,也为未来探索更高效、更强大的模型架构开辟了新方向。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.