网易首页 > 网易号 > 正文 申请入驻

Deepseek开源Engram模块打造外置记忆体,大模型架构迎来关键跃迁

0
分享至


分析师/贾玥

校对/Tina

策划/Eason

今天凌晨,DeepSeek发布了一篇新论文,并在其GitHub仓库开源了模块Engram。

论文主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《通过可扩展查找实现条件记忆:大语言模型稀疏化的新维度》),与北京大学合作完成,合作作者署名中包括梁文锋。


当业界仍在追逐以Mixture-of-Experts(MoE)为代表的稀疏计算浪潮时,DeepSeek与北京大学的研究团队的核心成果——Engram模块,精准回应了当前Transformer架构一个长期存在的效率瓶颈:缺乏高速、原生的知识检索能力

这项研究的关键突破在于,它超越了对计算过程的单一优化,首次系统性地为模型引入了“记忆”这一独立维度。这意味着,大模型的稀疏化不再仅是关于“如何更智能地分配计算”,更关乎“如何彻底避免不必要的计算”。通过与MoE并行的“条件记忆”路径,Engram模块将海量静态知识存储于一个可直接、快速访问的“记忆库”中,实现了近乎即时的知识调用

01

从“计算一切”到“检索所知”

当前主流的稀疏化路径,无论是何种变体,其核心仍是通过“条件计算”来模拟所有任务。这就导致了一个日益突出的矛盾:模型被迫以同样的深度计算流程,去处理性质截然不同的两类任务。

研究者明确区分了这两类任务:一类是真正需要动态组合、逻辑演绎的深度推理;另一类则仅仅是回忆或匹配那些静态、局部且高度重复的模式,例如特定的事实、实体名称或固定搭配。后一类任务对现有架构而言效率极低。

论文中以一个识别“Diana, Princess of Wales(威尔士王妃戴安娜)”的过程为例,模型无法直接调用这个完整概念,而是必须从“Wales(威尔士)”、“Princesss(王妃)”、“Diana(戴安娜)”等碎片化的token开始,经过多层神经网络的逐步传递与特征组合,最终在某一深层形成一个完整的表示。


这本质上是将一次本可瞬间完成的“查字典”操作,展开为一段消耗大量计算资源的“推导证明”。这种低效性不仅浪费了算力,更关键的是,它挤占了本应用于复杂思考和创造性推理的宝贵网络深度。

因此,Engram的使命并非替代Transformer,而是为其补上一个缺失已久的关键原语——一个高效的检索接口。它的设计哲学直指问题的核心:将那些确定、刻板、高频的“记忆性”负载从动态计算的主干道上剥离出来,卸载到一个专为快速查找而优化的专用模块中。

这就如同为一位建筑师配备了一个随取随用的标准构件库,使他无需每次都从烧制砖块开始,从而能将全部精力集中于建筑的整体设计与结构创新。这一举措,标志着大模型的设计思想从“单一计算管道”向着 “计算与检索分工协同” 的混合范式迈出了关键一步。

02

Engram的精密设计

实现上述构想,需要一套精巧的工作流程。Engram一词源自神经科学中的记忆痕迹,其核心创新在于将自然语言处理中经典的N-gram模型思想,以一种现代化、可微分的方式深度集成到Transformer的层间。

该模块的工作流程是一个确定性与自适应性完美结合的两阶段过程。

第一阶段是确定性的高速检索。系统会对当前token及其前文构成的N-gram进行即时哈希运算,将其映射到一个规模极其庞大的静态嵌入表中,直接取出对应的向量。为了应对哈希冲突并提升语义密度,研究团队采用了词表规范化与多头哈希技术,成功将原始词表的有效规模压缩了近四分之一,显著提高了存储和查找效率。

然而,简单的键值检索会面临歧义问题。例如,苹果一词在不同上下文中可能指向公司或水果。因此,第二阶段的上下文感知门控融合至关重要。Engram引入了一个轻量化的门控机制,它以Transformer主干网络当前层的隐藏状态作为动态查询,对检索到的静态记忆向量进行评估。该机制会生成一个介于01之间的门控值,如同一个智能开关,精确地控制着外部记忆向当前语境注入的信息量。可视化分析证实,这个开关能在历史日期、专业术语等固定模式处敏锐地开启,而在需要自由生成或深度推理的段落处则保持静默,确保了记忆的调用永远服务于上下文的真实需求。


Engram最引人瞩目的系统级优势,源于其检索路径的完全确定性——它仅取决于输入文本本身,而非模型内部的复杂中间状态。这一特性彻底改变了超大参数模型的部署范式。

MoE的动态路由必须将全部专家参数常驻于昂贵的GPU显存不同,Engram庞大的记忆表可以安全地卸载至主机CPU内存甚至NVMe固态硬盘中。通过巧妙的预取和计算-通信重叠技术,从外部存储读取记忆的延迟可以被完美地隐藏在前序层的计算时间之下。

论文中给出的实验数据令人振奋:即使为模型附加了高达千亿参数的Engram记忆库,其推理吞吐量的损失也被严格控制在3%以内。这为实现参数规模近乎无限扩展,而推理成本基本不变的终极目标开辟了一条切实可行的工程路径。

03

U型定律与性能飞跃

如果说Engram模块本身是一项精巧的发明,那么研究团队在此基础上发现的U型扩展定律,则是一项具有普遍指导意义的关键发现。这一定律清晰揭示了在总参数和计算预算固定的约束下,应在“条件计算”与“条件记忆”之间如何分配资源才能达到全局最优。

研究团队设计了一组严谨的实验,系统性地调整分配给MoE专家和Engram记忆的稀疏参数预算比例。结果绘制出了一条稳健的U型性能曲线。


曲线的两端揭示了单一维度的局限:当所有资源都倾向于MoE时,模型因缺乏专用记忆而不得不低效地重建静态模式;当资源过度向Engram倾斜时,模型又因计算能力不足而损害了动态推理能力。

曲线的最低点,即最佳平衡点,出现在将大约20%25%的稀疏预算分配给Engram时。这一黄金分割比例在不同规模的模型中都保持稳定,强有力地证明了条件记忆与条件计算是互补且必须共同存在的两个核心维度,任何一方的缺失都会导致整体效率的损失。

遵循这一定律的指导,团队训练了Engram-27B模型,并与总参数和计算开销完全相同的纯MoE-27B基线进行了全面对比。结果超出了单纯的知识提升预期,展现出全能力的显著增强。

MMLUCMMLU等知识密集型基准上,提升稳定在34个百分点;而在更需要逻辑思维的BBHARC-Challenge等推理任务上,提升幅度更为突出,达到了5个百分点左右;甚至在代表代码与数学能力的HumanEvalMATH基准上,也取得了约3个百分点的进步。这表明,专用记忆模块带来的好处是系统性的,它通过解放计算资源,间接强化了模型所有的核心能力。


这种效应在模型的内部表征中得到了直观印证。通过中心核对齐分析发现,配备了Engram的模型,其较浅网络层所学习到的表征,其复杂度与深度相当于纯MoE模型中深得多的层级。换言之,Engram的介入使得Transformer主干网络变相地加深了,浅层得以快速处理模式匹配,从而让深层能够更加专注于高级抽象和复杂推理。

这种架构红利在长上下文场景下被进一步放大。当局部依赖的解析被卸载给Engram后,注意力机制可以更纯粹地服务于全局关联的建立。在著名的RULER长文本基准测试中,Engram模型在多查询大海捞针任务上的准确率实现了从84.2%97.0%的惊人飞跃,充分证明了其在处理超长文档方面的结构性优势。


Engram论文的发布,其意义远超一个模块的创新,它更可能标志着大模型架构设计思想的一次重要演进。

未来,高效的稀疏模型必将是由条件计算条件记忆双轮驱动的融合体,二者依据科学的U型定律达到最佳平衡。

回顾DeepSeek的演进路径,V2MLA长效注意力到V3MoE持续优化,每一步都在提升计算效率。Engram所开创的条件记忆路径,极有可能成为构建下一代V4乃至未来模型的核心支柱

它将助力模型在参数规模持续增长的同时,保持优异的计算经济性,并将多项核心能力推向新的高度。由此,大模型的竞争正从对单一计算效率的极致追求,转向对计算记忆混合架构的协同设计能力,以及支撑其落地的系统级工程实力的全面比拼。

DeepSeek的这项研究,无疑已经在这场新的赛道上,树立了一个极具高度的标杆。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大手笔?国安官宣4新援加盟:27岁港脚+泰山红星!与2功勋续约1年

大手笔?国安官宣4新援加盟:27岁港脚+泰山红星!与2功勋续约1年

我爱英超
2026-01-14 10:18:41
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

大龄女一晓彤
2026-01-13 15:12:59
王思聪和秦岚合伙的医美公司,悄咪咪搞了8年,妥妥闷声发大财!

王思聪和秦岚合伙的医美公司,悄咪咪搞了8年,妥妥闷声发大财!

小光侃娱乐
2026-01-14 09:25:03
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
国家重点建设项目造假!还有什么事,是他们不敢干的?

国家重点建设项目造假!还有什么事,是他们不敢干的?

剑鸣涛声
2025-12-02 05:08:17
日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

极目新闻
2026-01-13 10:19:55
美方通告全球,中方大幅抛售美债,特朗普终于动手,美联储将换人

美方通告全球,中方大幅抛售美债,特朗普终于动手,美联储将换人

孤单是寂寞的毒
2026-01-14 13:04:03
只散步不行!全球国际专家力荐:“铁三角”运动组合更长寿

只散步不行!全球国际专家力荐:“铁三角”运动组合更长寿

猫大夫医学科普
2026-01-11 06:53:12
退休后才明白!千万不要在兄弟姐妹面前,说出以下“这4句话”

退休后才明白!千万不要在兄弟姐妹面前,说出以下“这4句话”

阿凯销售场
2026-01-14 13:16:47
你们想知道的王先生田小姐的八卦,其实历史上一直在上演

你们想知道的王先生田小姐的八卦,其实历史上一直在上演

创始人笔记
2026-01-13 22:36:49
一颗榴莲,快让东南亚卷成“晋西北”了!

一颗榴莲,快让东南亚卷成“晋西北”了!

流苏晚晴
2026-01-07 20:13:10
专为U字号亚洲杯而生,门神李昊证明马竞的球探很优秀

专为U字号亚洲杯而生,门神李昊证明马竞的球探很优秀

米奇兔
2026-01-12 11:53:08
美媒:美军使用最新秘密武器,瘫痪中俄雷达,让委安保失去战斗力

美媒:美军使用最新秘密武器,瘫痪中俄雷达,让委安保失去战斗力

兵国大事
2026-01-12 17:48:56
特朗普紧急发文,直言美国可能“要完蛋”,中国已是他的最大救星

特朗普紧急发文,直言美国可能“要完蛋”,中国已是他的最大救星

素年文史
2026-01-13 16:00:39
今明两天!中央八套、东方卫视齐发力,两部王炸剧开播必火!

今明两天!中央八套、东方卫视齐发力,两部王炸剧开播必火!

智凌纵横
2026-01-14 12:11:40
医学界的人脉就是部武侠小说,网友:挂不上专家号,就挂个新手号

医学界的人脉就是部武侠小说,网友:挂不上专家号,就挂个新手号

夜深爱杂谈
2026-01-13 20:36:25
安徽一市3人被通报!另有4人被查,其中1人系主动投案

安徽一市3人被通报!另有4人被查,其中1人系主动投案

凤凰网安徽
2026-01-13 18:09:45
巴萨官宣冬窗首签!31岁飞翼时隔1年半回归 400万租半赛季+穿2号

巴萨官宣冬窗首签!31岁飞翼时隔1年半回归 400万租半赛季+穿2号

我爱英超
2026-01-13 20:47:38
5000元起家的行贿帝国,靠送钱做到收入2个亿,上百官员卷入其中

5000元起家的行贿帝国,靠送钱做到收入2个亿,上百官员卷入其中

保德全
2025-12-28 19:30:03
4199元一瓶茅台上线首日秒空!揭秘i茅台App开发者

4199元一瓶茅台上线首日秒空!揭秘i茅台App开发者

投资时间网
2026-01-14 11:29:52
2026-01-14 14:19:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
306文章数 7371关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

沪深北交易所提高融资保证金比例

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
游戏
手机
公开课
军事航空

艺术要闻

八大山人『山水花鸟册』

Steam喜加一:多人竞速游戏《Initial Drift Online》

手机要闻

王自如对比苹果Air与荣耀Air:后者已解决摄像头、单扬等问题

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版