![]()
分析师/贾玥
校对/Tina
策划/Eason
今天凌晨,DeepSeek发布了一篇新论文,并在其GitHub仓库开源了模块Engram。
论文主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《通过可扩展查找实现条件记忆:大语言模型稀疏化的新维度》),与北京大学合作完成,合作作者署名中包括梁文锋。
![]()
当业界仍在追逐以Mixture-of-Experts(MoE)为代表的稀疏计算浪潮时,DeepSeek与北京大学的研究团队的核心成果——Engram模块,精准回应了当前Transformer架构一个长期存在的效率瓶颈:缺乏高速、原生的知识检索能力。
这项研究的关键突破在于,它超越了对计算过程的单一优化,首次系统性地为模型引入了“记忆”这一独立维度。这意味着,大模型的稀疏化不再仅是关于“如何更智能地分配计算”,更关乎“如何彻底避免不必要的计算”。通过与MoE并行的“条件记忆”路径,Engram模块将海量静态知识存储于一个可直接、快速访问的“记忆库”中,实现了近乎即时的知识调用。
01
从“计算一切”到“检索所知”
当前主流的稀疏化路径,无论是何种变体,其核心仍是通过“条件计算”来模拟所有任务。这就导致了一个日益突出的矛盾:模型被迫以同样的深度计算流程,去处理性质截然不同的两类任务。
研究者明确区分了这两类任务:一类是真正需要动态组合、逻辑演绎的深度推理;另一类则仅仅是回忆或匹配那些静态、局部且高度重复的模式,例如特定的事实、实体名称或固定搭配。后一类任务对现有架构而言效率极低。
论文中以一个识别“Diana, Princess of Wales(威尔士王妃戴安娜)”的过程为例,模型无法直接调用这个完整概念,而是必须从“Wales(威尔士)”、“Princesss(王妃)”、“Diana(戴安娜)”等碎片化的token开始,经过多层神经网络的逐步传递与特征组合,最终在某一深层形成一个完整的表示。
![]()
这本质上是将一次本可瞬间完成的“查字典”操作,展开为一段消耗大量计算资源的“推导证明”。这种低效性不仅浪费了算力,更关键的是,它挤占了本应用于复杂思考和创造性推理的宝贵网络深度。
因此,Engram的使命并非替代Transformer,而是为其补上一个缺失已久的关键原语——一个高效的检索接口。它的设计哲学直指问题的核心:将那些确定、刻板、高频的“记忆性”负载从动态计算的主干道上剥离出来,卸载到一个专为快速查找而优化的专用模块中。
这就如同为一位建筑师配备了一个随取随用的标准构件库,使他无需每次都从烧制砖块开始,从而能将全部精力集中于建筑的整体设计与结构创新。这一举措,标志着大模型的设计思想从“单一计算管道”向着 “计算与检索分工协同” 的混合范式迈出了关键一步。
02
Engram的精密设计
实现上述构想,需要一套精巧的工作流程。Engram一词源自神经科学中的“记忆痕迹”,其核心创新在于将自然语言处理中经典的N-gram模型思想,以一种现代化、可微分的方式深度集成到Transformer的层间。
该模块的工作流程是一个确定性与自适应性完美结合的两阶段过程。
第一阶段是确定性的高速检索。系统会对当前token及其前文构成的N-gram进行即时哈希运算,将其映射到一个规模极其庞大的静态嵌入表中,直接取出对应的向量。为了应对哈希冲突并提升语义密度,研究团队采用了词表规范化与多头哈希技术,成功将原始词表的有效规模压缩了近四分之一,显著提高了存储和查找效率。
然而,简单的键值检索会面临歧义问题。例如,“苹果”一词在不同上下文中可能指向公司或水果。因此,第二阶段的上下文感知门控融合至关重要。Engram引入了一个轻量化的门控机制,它以Transformer主干网络当前层的隐藏状态作为动态查询,对检索到的静态记忆向量进行评估。该机制会生成一个介于0到1之间的门控值,如同一个智能开关,精确地控制着外部记忆向当前语境注入的信息量。可视化分析证实,这个开关能在历史日期、专业术语等固定模式处敏锐地开启,而在需要自由生成或深度推理的段落处则保持静默,确保了记忆的调用永远服务于上下文的真实需求。
![]()
Engram最引人瞩目的系统级优势,源于其检索路径的完全确定性——它仅取决于输入文本本身,而非模型内部的复杂中间状态。这一特性彻底改变了超大参数模型的部署范式。
与MoE的动态路由必须将全部专家参数常驻于昂贵的GPU显存不同,Engram庞大的记忆表可以安全地卸载至主机CPU内存甚至NVMe固态硬盘中。通过巧妙的预取和计算-通信重叠技术,从外部存储读取记忆的延迟可以被完美地隐藏在前序层的计算时间之下。
论文中给出的实验数据令人振奋:即使为模型附加了高达千亿参数的Engram记忆库,其推理吞吐量的损失也被严格控制在3%以内。这为实现“参数规模近乎无限扩展,而推理成本基本不变”的终极目标开辟了一条切实可行的工程路径。
03
U型定律与性能飞跃
如果说Engram模块本身是一项精巧的发明,那么研究团队在此基础上发现的U型扩展定律,则是一项具有普遍指导意义的关键发现。这一定律清晰揭示了在总参数和计算预算固定的约束下,应在“条件计算”与“条件记忆”之间如何分配资源才能达到全局最优。
研究团队设计了一组严谨的实验,系统性地调整分配给MoE专家和Engram记忆的“稀疏参数预算”比例。结果绘制出了一条稳健的U型性能曲线。
![]()
曲线的两端揭示了单一维度的局限:当所有资源都倾向于MoE时,模型因缺乏专用记忆而不得不低效地重建静态模式;当资源过度向Engram倾斜时,模型又因计算能力不足而损害了动态推理能力。
曲线的最低点,即最佳平衡点,出现在将大约20%至25%的稀疏预算分配给Engram时。这一“黄金分割”比例在不同规模的模型中都保持稳定,强有力地证明了条件记忆与条件计算是互补且必须共同存在的两个核心维度,任何一方的缺失都会导致整体效率的损失。
遵循这一定律的指导,团队训练了Engram-27B模型,并与总参数和计算开销完全相同的纯MoE-27B基线进行了全面对比。结果超出了单纯的“知识提升”预期,展现出全能力的显著增强。
在MMLU、CMMLU等知识密集型基准上,提升稳定在3至4个百分点;而在更需要逻辑思维的BBH、ARC-Challenge等推理任务上,提升幅度更为突出,达到了5个百分点左右;甚至在代表代码与数学能力的HumanEval和MATH基准上,也取得了约3个百分点的进步。这表明,专用记忆模块带来的好处是系统性的,它通过解放计算资源,间接强化了模型所有的核心能力。
![]()
这种效应在模型的内部表征中得到了直观印证。通过中心核对齐分析发现,配备了Engram的模型,其较浅网络层所学习到的表征,其复杂度与深度相当于纯MoE模型中深得多的层级。换言之,Engram的介入使得Transformer主干网络“变相地”加深了,浅层得以快速处理模式匹配,从而让深层能够更加专注于高级抽象和复杂推理。
这种架构红利在长上下文场景下被进一步放大。当局部依赖的解析被卸载给Engram后,注意力机制可以更纯粹地服务于全局关联的建立。在著名的RULER长文本基准测试中,Engram模型在“多查询大海捞针”任务上的准确率实现了从84.2%到97.0%的惊人飞跃,充分证明了其在处理超长文档方面的结构性优势。
![]()
Engram论文的发布,其意义远超一个模块的创新,它更可能标志着大模型架构设计思想的一次重要演进。
未来,高效的稀疏模型必将是由“条件计算”与“条件记忆”双轮驱动的融合体,二者依据科学的U型定律达到最佳平衡。
回顾DeepSeek的演进路径,从V2的MLA长效注意力到V3的MoE持续优化,每一步都在提升计算效率。Engram所开创的“条件记忆”路径,极有可能成为构建下一代V4乃至未来模型的核心支柱。
它将助力模型在参数规模持续增长的同时,保持优异的计算经济性,并将多项核心能力推向新的高度。由此,大模型的竞争正从对单一计算效率的极致追求,转向对“计算”与“记忆”混合架构的协同设计能力,以及支撑其落地的系统级工程实力的全面比拼。
DeepSeek的这项研究,无疑已经在这场新的赛道上,树立了一个极具高度的标杆。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.