网易首页 > 网易号 > 正文 申请入驻

独家解读DeepSeek推出Engram为LLM装上“记忆库”,效率革命来了

0
分享至

近日,DeepSeek AI研究团队发布了一项名为 Engram 的创新工作,旨在为大语言模型(LLM)赋予原生且高效的“知识查找”能力。这或许将改变我们构建和扩展大型模型的基本范式。

痛点与革新:从重复计算到即时查找



当前主流的Transformer架构,即便采用了注意力机制和混合专家(MoE)系统来动态分配计算资源,其核心仍缺乏一种高效的机制来直接“回忆”已学过的知识。模型不得不一遍遍地重新计算那些常见的、静态的模式(如固定搭配、实体名称),这无疑是对计算深度和FLOPs的浪费。

Engram模块的提出,正是为了填补这一空白。它并非替代MoE,而是引入了一个并行的条件记忆轴。简单来说,Engram就像一个高效的、可扩展的“外部知识库”,专门负责存储和快速检索那些高频、固定的N元组(N-gram)模式。

技术核心:如何工作?

Engram模块被集成到Transformer骨干网络中。其核心是一个基于哈希的N元组查找表,能够实现O(1)复杂度的快速检索。工作机制包含几个精巧的设计:

  1. 多头部哈希:将输入上下文映射到素数大小的桶中,减少冲突。
  2. 深度卷积:对N元组上下文进行轻量处理。
  3. 上下文感知门控:生成一个0到1之间的标量,智能控制从记忆中检索到的信息有多少应该注入到模型的主干流中,实现动态融合。
关键发现:稀疏分配的艺术

研究团队提出了 “稀疏分配” 这一核心设计问题:在固定的总稀疏参数量下,如何在MoE专家和Engram记忆体之间最优分配?
实验给出了清晰答案:将大约 20%-25% 的稀疏参数预算从MoE专家重新分配给Engram记忆,可以在保持相同激活参数量的情况下,显著降低验证损失。这表明条件记忆与条件计算是互补而非竞争关系,为模型设计提供了新的“旋钮”。

大规模效果:全面领先

在2620亿token的大规模预训练中,对比结果令人印象深刻:

  • 同等激活参数量(3.8B)下:总参数量26.7B的Engram-27B模型,在语言建模损失(The Pile)上显著优于同规模的纯MoE-27B模型(损失从2.091降至1.960)。
  • 能力评估:在知识(MMLU)、推理(ARC-C)、代码(HumanEval)和数学(GSM8K)等广泛基准上,Engram-27B全面超越了MoE-27B基线。例如,MMLU从57.4提升至60.4。
  • 长上下文能力:在使用YaRN将上下文扩展至32K后,Engram-27B不仅在长文本困惑度上匹配基线,在RULER等复杂长上下文评测(如多针检索、变量追踪)上表现更优。
机制解析:为何有效?

通过Logit Lens和CKA等分析工具,研究人员发现Engram使模型的表示更快地趋于“预测就绪”状态。例如,Engram模型第5层的表示,与MoE基线模型第12层的表示相似。这有力地证明,Engram通过将静态模式的记忆与检索任务“外包”,等效地增加了模型的有效推理深度,让主干网络能更专注于复杂的动态推理和长程依赖建模。

总结与展望

Engram的提出是一次重要的架构创新。它通过引入一个高效、可扩展的条件记忆系统,让大语言模型能够更“聪明”地分配其计算资源:将记忆留给“记忆库”,将深度推理留给“大脑”。这不仅提升了模型在同等算力下的性能,也为未来探索更高效、更强大的模型架构开辟了新方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一位刚退休的国企中层干部透露:如今国企晋升通道就剩一条路了

一位刚退休的国企中层干部透露:如今国企晋升通道就剩一条路了

涵豆说娱
2026-01-17 15:15:00
第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

策略述
2026-01-16 19:16:02
宝马X5价格再下放!最高优惠10.9万,网友表示:还要啥奥迪?

宝马X5价格再下放!最高优惠10.9万,网友表示:还要啥奥迪?

汽车网评
2026-01-16 22:07:17
大脑最爱的3种菜,冬天多给孩子吃,有助大脑发育,增强记忆力!

大脑最爱的3种菜,冬天多给孩子吃,有助大脑发育,增强记忆力!

阿龙美食记
2026-01-14 10:53:15
落毛凤凰不如鸡!吃完黄晓明“红利”的杨颖,又回到了她的怪圈

落毛凤凰不如鸡!吃完黄晓明“红利”的杨颖,又回到了她的怪圈

徐醇老表哥
2025-12-20 04:45:31
彻底瞒不住了!特朗普反常言行暴露痴呆症状,白宫也无能为力了

彻底瞒不住了!特朗普反常言行暴露痴呆症状,白宫也无能为力了

影孖看世界
2026-01-17 16:40:47
C罗顿悟 认识到利雅得胜利的问题是他 计划申请休息一个月

C罗顿悟 认识到利雅得胜利的问题是他 计划申请休息一个月

智道足球
2026-01-17 15:25:46
莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

老谢谈史
2026-01-16 13:21:23
贺娇龙下葬后母亲发声,生前家中被布置成直播间,一面墙都是荣誉

贺娇龙下葬后母亲发声,生前家中被布置成直播间,一面墙都是荣誉

古希腊掌管松饼的神
2026-01-17 21:53:52
木塔力甫选完美国足球员:左右脚邵佳一、韦世豪,球商郑智

木塔力甫选完美国足球员:左右脚邵佳一、韦世豪,球商郑智

懂球帝
2026-01-17 17:17:24
邓莎离婚净身出户,自己在京买了房,不确定前夫会把财产留给儿子

邓莎离婚净身出户,自己在京买了房,不确定前夫会把财产留给儿子

李健政观察
2026-01-17 12:28:02
章泽天被嘲背后:富人正禁绝电子鸦片,普通家长却在用手机育儿

章泽天被嘲背后:富人正禁绝电子鸦片,普通家长却在用手机育儿

克网中国
2026-01-17 21:10:03
湖南女孩追妈妈死亡后:知情人曝更多,原因令人愤怒,果然不简单

湖南女孩追妈妈死亡后:知情人曝更多,原因令人愤怒,果然不简单

楠楠自语
2026-01-16 12:03:11
财政部:同意中国福利彩票发行管理中心变更中国福利彩票双色球游戏规则

财政部:同意中国福利彩票发行管理中心变更中国福利彩票双色球游戏规则

界面新闻
2026-01-16 16:56:05
李湘也出事了,“大佬们”的日子也不好过了……

李湘也出事了,“大佬们”的日子也不好过了……

麦杰逊
2026-01-16 13:45:10
波斯湾剧情反转!美军战机刚起飞就被叫回,原来伊朗早有后手

波斯湾剧情反转!美军战机刚起飞就被叫回,原来伊朗早有后手

趣生活
2026-01-17 21:46:27
羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

丰谭笔录
2026-01-07 10:59:38
外交部长王毅年轻时旧照,与妻子同框合影,岳父曾是周总理秘书

外交部长王毅年轻时旧照,与妻子同框合影,岳父曾是周总理秘书

万物知识圈
2025-12-25 09:07:23
一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

趣文说娱
2026-01-14 11:37:46
16次,曼联是本赛季英超击中门柱次数最多的球队

16次,曼联是本赛季英超击中门柱次数最多的球队

懂球帝
2026-01-17 21:33:41
2026-01-17 22:44:49
呼呼历史论
呼呼历史论
分享有趣的历史
260文章数 16040关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

房产
游戏
家居
手机
公开课

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

魔坛每周节奏丨Lawliet问鼎WSB,中韩对抗赛浪漫一穿四AK

家居要闻

岁月柔情 现代品质轻奢

手机要闻

华为苹果争第一,全年手机TOP5都有谁?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版