网易首页 > 网易号 > 正文 申请入驻

刚刚,梁文锋署名新论文深夜炸场!DeepSeek-V4 新架构曝光

0
分享至

一觉醒来,DeepSeek又发新论文了!

仔细一看作者,梁文锋的名字也赫然出现在其中。



这篇论文题为《通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度》,重点在于提出了 Engram ——这是一种条件记忆模块,旨在通过将静态模式存储与动态计算在结构上分离,来增强 Transformer 骨干网络。



论文的给出的实验数据也相当惊艳:

1、Engram 在知识、推理、代码和数学任务上能够带来显著性能提升,均超过纯MoE模型。

2、存在U形扩展规律:纯 MoE性能次优,将 20–25% 的稀疏参数分配给 Engram,效果最佳。

3、长上下文能力提升明显,能释放注意力用于全局模式和复杂推理。

代码和论文全文均已开源:

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

代码地址:https://github.com/deepseek-ai/Engram

为什么大语言模型需要 Engram ?

稀疏性(sparsity)一直是智能系统的核心设计原则,无论是生物大脑的神经回路,还是现代大语言模型都在用它来“省资源”。

在 AI 里,这个思想最常见的体现就是混合专家模型(MoE)——也就是通过“条件计算”让模型只激活部分参数,从而在不增加太多计算量的情况下,把模型容量放大好几倍。MoE 是目前推进参数规模和能力扩展的关键技术之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先进的 MoE 方法进行扩展训练。

但 MoE 也有其局限性。语言本身非常复杂,至少包含两类截然不同的任务:

  1. 组合式推理:需要深层、动态的神经计算,比如理解复杂句子结构或推理问题;
  2. 知识检索:大量文本都是高度固定、重复的内容,比如命名实体、固定表达、程式化模式。

论文中提出,经典的-gram 模型已经证明,处理这种局部、重复的语言规律,用“查表”效率最高,几乎不需要动深层神经网络。

然而现在的 Transformer 并没有这种原生“查表能力”,所以模型每次要识别一个常见的多 token 实体,都要消耗好几层注意力和前馈网络,这就像在运行时重复重建一个静态字典,既浪费计算,又占用模型的“序列深度”,原本可以用来做更高级的推理。

Engram是如何实现的?

为了解决上述问题,DeepSeek提出了一个新的稀疏化方向——条件记忆,专门用来存储和查找固定知识。它和 MoE 的条件计算完全互补:

  • MoE 负责动态推理和组合逻辑;
  • Engram 负责静态知识,直接查表就行。

Engram是神经科学中的一个核心概念,意为“记忆痕迹”,它是一个可扩展、可查找的记忆模块,用于语言模型在推理过程中过去可能已经见过的模式或片段。

在具体实现上,Engram模块通过 O(1) 的查找复杂度将静态模式存储从动态计算中分离出来,采用了四项核心技术:现代化的哈希 N-gram 嵌入、分词器压缩、上下文门控以及多分支融合技术。

具体来看:

1、分词器压缩:预先计算映射函数,将语义等价但 ID 不同的词项(如 "Apple" 和 "apple")折叠为统一标识符,将有效词表大小减少了 23%。· 多头2、哈希检索:利用局部上下文(N-grams)作为键,通过哈希函数在巨大的嵌入表中检索静态向量。

3、上下文感知门控:这是 Engram 的关键创新。利用当前层的隐藏状态作为 Query,与检索到的内存进行语义匹配。如果检索内容与上下文矛盾,门控值会趋近于零,从而抑制哈希冲突带来的噪声。

4、混合分枝集成:专门针对多分枝架构(如 mHC)进行了优化,通过参数共享策略(共享 Embedding 表和 Value 投影,保持独立 Key 投影)平衡了表达能力与计算效率。



Engram 通常会插在 Transformer 的前期层,比如 Layer 2 或 Layer 6。这样做的好处是:一方面可以把静态模式的重建工作卸载掉,减轻骨干网络的负担;另一方面又能保留足够的上下文信息,让门控机制更聪明地判断哪些记忆该用,哪些该忽略。

Engram 的记忆容量并不是越大越好,它需要和 MoE 专家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法则,合理划分两者比例,既保证大模型的参数利用率,又最大化计算效率——简单来说,就是让每一份记忆和每一位专家都发挥最大作用。

实验结果很惊艳:推理、代码、长上下文能力显著提升

论文把 Engram 扩展到 270 亿参数,严格对齐 MoE 基线的参数和 FLOPs。结果显示:

  • 知识密集型任务(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;
  • 通用推理任务(BBH、ARC-Challenge、DROP):提升更明显,最高 +5 分;
  • 代码和数学能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。



值得注意的是,Engram 在知识密集型任务中明显优于纯 MoE 模型。原因很直观:它把静态模式的记忆交给了高效的查找机制,而不是每次都用神经网络“重算”,减少了浅层的重复计算。

更重要的是,Engram也显著扩展了长上下文能力,在长文本任务(如 LongPPL、RULER)表现突出,尤其是在多跳检索、链式推理等场景中。例如 Multi-Query NIAH 指标从 84.2 提升到 97.0,Variable Tracking 从 77.0 提升到 89.0。



原因是 Engram 处理了大量局部、静态的依赖,释放了注意力机制去处理全局上下文,从而在长序列中更稳、更准。



此外,团队还发现了 MoE 和 Engram 容量分配中的U形扩展规律:

  • 当 Engram 记忆容量太小或太大时,性能都不理想
  • 将 20–25% 的稀疏参数分配给 Engram,效果最佳
网友:Engram 可能是 DeepSeek-V4 型号的基础技术!

在Reddit、X等平台上,DeepSeek的新论文也立刻引发了网友的热烈讨论。

其中最广泛的一个猜测就是:Engram 可能是即将推出的 DeepSeek-V4 的基础技术。





很多网友认为,Engram这个方法很有趣,其特点在于让模型架构处理“记忆模式查找”和“神经计算推理”两块职责分离,从而开启了新的稀疏性方向。



也有网友表示,这种方法比线性注意力机制要好得多。



DeepSeek的深夜放大招,也让部分网友直言:中国大模型团队的创新性真令人害怕。



那么各位大佬们,你们如何看待DeepSeek的这项新技术?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电池项目停产、连拉两日跌停 亿晶光电深陷退市危机

电池项目停产、连拉两日跌停 亿晶光电深陷退市危机

封面新闻
2026-01-15 16:45:21
华晨宇演唱会造型辣眼睛:大红唇,金色长发配粉色衣服,娘味太重

华晨宇演唱会造型辣眼睛:大红唇,金色长发配粉色衣服,娘味太重

启迪你的思维
2026-01-15 22:40:14
原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

冷紫葉
2026-01-15 19:08:26
王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

娱说瑜悦
2026-01-14 20:38:46
携程踩了哪些“红线”?

携程踩了哪些“红线”?

经济观察报
2026-01-15 01:50:05
人民日报悼念聂卫平,特殊称呼信息量大,原来柯洁一个字都没说错

人民日报悼念聂卫平,特殊称呼信息量大,原来柯洁一个字都没说错

白面书誏
2026-01-15 18:11:36
就在刚刚!变天了,中方向全世界宣布:对美合作终止

就在刚刚!变天了,中方向全世界宣布:对美合作终止

瞳哥视界
2026-01-15 20:02:51
风向变了?央媒公开“点名”闫学晶,文案信息量大,冯巩一语成谶

风向变了?央媒公开“点名”闫学晶,文案信息量大,冯巩一语成谶

以茶带书
2026-01-15 13:09:24
2026年棋牌室严查来袭!9条红线碰就罚,娱乐与违法就差这一步!

2026年棋牌室严查来袭!9条红线碰就罚,娱乐与违法就差这一步!

老特有话说
2026-01-15 19:15:47
多地紧急取消杀猪饭!株洲灿灿哭着求大家别来,翻车原因令人唏嘘

多地紧急取消杀猪饭!株洲灿灿哭着求大家别来,翻车原因令人唏嘘

古希腊掌管松饼的神
2026-01-15 16:05:22
“台独”顽固分子名单更新!吕秀莲已改口,民进党终于开始慌了

“台独”顽固分子名单更新!吕秀莲已改口,民进党终于开始慌了

军机Talk
2026-01-15 11:22:40
痛心!74岁“棋圣”聂卫平去世,原因是直肠癌,三婚娶小23岁娇妻

痛心!74岁“棋圣”聂卫平去世,原因是直肠癌,三婚娶小23岁娇妻

180视角
2026-01-15 09:32:04
四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

封面新闻
2026-01-15 19:13:05
重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

重庆合川呆呆爆火后续!满屋堆成山的礼物全部化成整个村的温暖

南方健哥
2026-01-15 15:15:05
马克龙:首批法国士兵已抵达格陵兰岛

马克龙:首批法国士兵已抵达格陵兰岛

界面新闻
2026-01-15 20:32:24
正热播的3部“烂剧”,没有最烂只有更烂,一部没看真是火眼金睛

正热播的3部“烂剧”,没有最烂只有更烂,一部没看真是火眼金睛

寒士之言本尊
2026-01-16 00:05:17
伊朗组合拳应对川普压力,美以态度暧昧,大批美军战舰向中东集结

伊朗组合拳应对川普压力,美以态度暧昧,大批美军战舰向中东集结

史政先锋
2026-01-15 16:17:02
媒体:多国空军排队购买枭龙战机

媒体:多国空军排队购买枭龙战机

财联社
2026-01-14 17:33:05
离婚10个月,央媒发文,高调官宣38岁陈晓喜讯,陈妍希后悔了吗?

离婚10个月,央媒发文,高调官宣38岁陈晓喜讯,陈妍希后悔了吗?

查尔菲的笔记
2026-01-14 21:39:14
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
2026-01-16 07:03:00
呼呼历史论
呼呼历史论
分享有趣的历史
270文章数 16028关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

手机
旅游
教育
数码
亲子

手机要闻

三星手机屏幕防窥设计曝光,Galaxy AI基础功能永久免费

旅游要闻

信念同向,沙漠亦可开花(旅人心语)

教育要闻

喜提三天假期!南京多校通知......

数码要闻

部分内存条价格暴涨超300% 报告称存储市场进入超级牛市

亲子要闻

宝妈必学,让孩子警惕身边的这种朋友!

无障碍浏览 进入关怀版