网易首页 > 网易号 > 正文 申请入驻

梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?

0
分享至

来源:市场资讯

(来源:网易科技)

这是一个关于AI底层逻辑重构的时刻。

长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型“死记硬背”那些查字典就能知道的静态知识。

DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计算”(MoE)之外,开辟了第二条稀疏化战线——“条件记忆”。

这不只是一次技术修补,而是一场关于模型“脑容量”的供给侧改革。它证明了:当我们将“记忆”从“计算”中剥离,把该背的交给“字典”,把该算的交给大脑,AI的推理能力将迎来反直觉的爆发式增长。



DeepSeek计划在2月春节前后正式发布V4,而这一刻或许就是DeepSeek V4诞生的前夜。

序章:六层神经网络的“无用功”

故事的起点,源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。

在人工智能的黑盒子里,当大模型看到“Diana, Princess of Wales”(戴安娜,威尔士王妃)这个短语时,它的内部发生了一场令人费解且极其昂贵的“内耗”。

研究人员发现,为了识别这个固定的实体,模型竟然动用了整整6层网络:


在一位追求极致效率的架构师眼中,这简直是算力的暴殄天物。

“戴安娜王妃”是一个客观存在的、静态的实体,它不会因为上下文的变化而改变其本质。为了提取这个本来查字典就能知道的事实,Transformer竟然动用了整整6层深度的昂贵矩阵运算去“重建”这个概念。

这就像是一个绝世天才,在去解决微积分难题之前,每次都得先花半小时默写一遍九九乘法表。 这种“隐式记忆”的机制,迫使模型将宝贵的参数容量和网络深度,浪费在了简单的模式匹配上。

DeepSeek在这篇长达33页的论文中,提出了一个直击灵魂的拷问:为什么不直接给大模型配一本可以随查随用的“超级字典”?

第一章:架构重塑——Engram模块的暴力美学

为了解决这个问题,DeepSeek提出了一种名为“Engram(条件记忆)”的全新模块。

如果说MoE(混合专家模型)是把“大脑”分成了不同的区域,让不同的专家负责不同的思考(条件计算);那么Engram就是给大脑外挂了一个巨大的“海马体”,专门负责存储静态知识(条件记忆)。


1. 复活“N-gram”:从古老智慧中寻找答案

Engram的核心灵感,竟然来自于NLP(自然语言处理)领域的“上古神器”——N-gram。在深度学习统治世界之前,我们就是靠统计“N个词同时出现的概率”来理解语言的。

DeepSeek将这一经典概念进行了现代化的魔改:

这一过程的时间复杂度是O(1)——这意味着无论知识库膨胀到多大(哪怕是1000亿参数),查找速度几乎不变,且极快。


2. 三大技术护城河

既然查表这么好,为什么以前没人做?因为有三个拦路虎:存储爆炸、多义词冲突、参数分配。DeepSeek给出了教科书级的解决方案:

A. 词表压缩:极致的去重

世界上的词组组合是天文数字。DeepSeek首先做了一步“无损压缩”。在分词器(Tokenizer)层面,它将语义相同但写法不同的词进行了归一化。

例如,“Apple”(首字母大写)和“apple”(小写)在语义上通常指同一个东西。通过映射归并,有效词表直接缩小了23%。这不仅节省了空间,更让知识的密度大幅提升。

B. 多头哈希:解决“哈希冲突”

不可能把所有N-gram都存下来。Engram使用了“多头哈希(Multi-Head Hashing)”技术。通过多个哈希函数,将无限的N-gram映射到有限的内存槽位中。虽然会有哈希冲突(即两个不同的词被映射到了同一个位置),但通过“多头”设计,模型可以从多个候选结果中拼凑出正确的信息,极大地提高了鲁棒性。

C. 上下文门控:给记忆配个“裁判”

这是最精妙的一笔。查表是死的,语言是活的。

比如“苹果”这个词。在“吃苹果”的语境下,它指水果;在“苹果发布会”的语境下,它指科技公司。直接查表可能会引入噪声。

DeepSeek设计了一个“上下文感知门控”(Context-aware Gating)。

这个门控就像一个裁判。如果查出来的“静态知识”和当前的“上下文”不搭,裁判就会把权重压低(Gate值趋向0),让模型忽略这个噪声;如果完美契合(比如“伤寒杂病论”后跟着“张仲景”),裁判就会把大门打开(Gate值趋向1),直接把知识注入模型。


第二章:黄金比例——发现AI模型的“U型曲线”

架构设计好了,接下来的问题是:怎么分家产?

假设我们显卡里的显存是有限的,总参数预算也是固定的。我们应该把多少参数分配给MoE的“专家”(负责计算),多少参数分配给Engram的“字典”(负责记忆)?

这是一个典型的资源配置博弈。DeepSeek团队进行了一场大规模的消融实验,扫描了从0%到100%的分配比例,结果画出了一条完美的“U型Scaling Law曲线”。


这张图揭示了AI模型设计的底层规律:

这是一个极具指导意义的发现:对于几百亿参数的大模型来说,单纯堆砌计算单元(MoE专家)已经是边际效应递减了,必须引入专门的静态记忆模块来实现“存算平衡”。

第三章:反直觉的爆发——为什么“查字典”能提高“数学成绩”?

如果Engram仅仅是让模型“记性更好”,这篇论文的分量还不足以震动社区。毕竟,RAG(检索增强生成)也能解决知识问题。

真正让业界感到震撼的,是实验结果中那些意料之外的收益。

DeepSeek构建了三个对比模型,严格控制激活参数量(3.8B)和训练数据量(262B tokens)完全一致:

结果令人大跌眼镜:

1. 意料之中:知识类任务霸榜

在MMLU(综合知识)上,Engram模型提升了3.4分;在CMMLU(中文知识)上,提升了4.0分。这很好理解,外挂了字典,常识自然更好了,幻觉更少了。

2. 意料之外:逻辑、代码、数学全面暴涨

按理说,“查字典”和“做数学题”没关系。但在BBH(综合推理)上,Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分!


3. 深度解析:有效深度(Effective Depth)理论

为什么?一个“死记硬背”的模块,为什么能提高智商?

DeepSeek团队利用LogitLens和“CKA(中心核对齐)”技术,对模型内部进行了“解剖”。他们发现了一个惊人的现象:

还记得开头的“戴安娜王妃”吗?

在纯MoE模型中,前几层网络都在忙着“拼凑概念”。

而在Engram模型中,由于第2层就插入了Engram模块,静态知识的检索在极早的阶段就完成了。

这意味着,原本用于“死记硬背”的前几层网络被解放了!

这相当于给模型“虚增”了深度。 那些被释放出来的网络层和注意力头(Attention Heads),不再需要处理琐碎的局部依赖(比如识别“张仲景”是谁),从而可以全神贯注地投入到更复杂的全局推理、长程逻辑构建和代码逻辑生成中去。

Engram的本质,不是“替代”推理,而是通过“分流”杂活,让大脑专注于更高维度的思考。


第四章:工程奇迹——打破英伟达的“显存霸权”

对于华尔街的投资者和算力中心的运维者来说,这篇论文最性感的地方不在于Score,而在于Cost(成本)。

在AI时代,最昂贵的资源不是算力(FLOPs),而是显存(HBM)。英伟达H100之所以贵,很大程度上是因为那稀缺的HBM3e内存。

而Engram带来了一个颠覆性的特性:彻底的存算分离。

1. MoE的痛点:显存吞噬者

传统的MoE模型,其路由机制(Routing)是动态的。模型必须先算出当前Token的特征,算完这一层,才知道下一层该找哪个专家。这意味着,所有的专家模型必须时刻在昂贵的GPU显存里待命,随叫随到。

2. Engram的突破:确定的预知

Engram的查表逻辑是确定性的。只要输入的文本确定了(比如“A New Axis of Sparsity”),那么它对应的N-gram索引就确定了。我们根本不需要等模型算完前一层,在Token进入模型的那一瞬间,我们就知道它需要查哪张表的哪一行。

3. CPU的逆袭:把大模型塞进内存条

这一特性带来了巨大的工程红利:

掩盖延迟,并行处理。

DeepSeek实测数据显示:即使挂载了100B(千亿)参数的Engram表到CPU内存,相比于纯GPU推理,吞吐量的下降不到3%。

这是一个让所有因为买不到HBM而焦虑的人狂喜的结论。这意味着,未来的大模型,“记忆容量”可以低成本地无限扩张,而不必被英伟达的显存卡脖子。


第五章:长文本的胜利——NIAH测试的跃升

除了通用推理,Engram在长文本(Long Context)领域的表现同样证明了“分工”的价值。

在长文本处理中,注意力机制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短语)占据,它处理全局信息的能力就会下降。

Engram接管了局部依赖后,Attention机制终于可以抬头看路了。

在严格的RULER基准测试中,Engram-27B的表现令人咋舌:

这说明,当我们将“局部记忆”外包给Engram后,Transformer原本的注意力机制就能更高效地捕捉几万字文档中的“草蛇灰线”。


尾声:DeepSeek V4的拼图已现

把以上所有信息串联起来,我们已经隐约看到了DeepSeek下一代模型——DeepSeek V4的雏形。

华尔街见闻写道,报道称DeepSeek计划在2月(春节前后)正式发布V4。回顾DeepSeek的节奏:从2024年1月的R1,到年底击败GPT-5基准的V3.2,再到即将登场的V4,每一步都踩准了技术迭代的脉搏。

如果说R1展示了“推理”的深度,V3展示了“MoE”的效率,那么即将到来的V4,可能通过引入Engram技术,将解决记忆与计算的耦合,实现“电子脑(计算)”与“外部记忆(Engram)”的完美共生。

这不是一次简单的版本迭代,这是对Transformer架构底层缺陷的一次系统性手术。在DeepSeek V3已经凭借极其低廉的API价格和强大的性能席卷全球之后,V4如果集成了Engram技术,将带来更可怕的竞争力:它将拥有更大的知识库(低成本内存扩展)、更强的逻辑推理(网络深度解放)以及更低的推理成本(存算分离)。

更重要的是,报道提到V4在数据模式理解上的改进,“避免了以往模型在长时间训练下性能衰退的情况”。这与Engram将静态知识固化、减少动态网络负担的特性不谋而合——它让模型更稳定,更不容易“遗忘”或“精神错乱”。

在论文的最后,DeepSeek团队自信地写道:

春节前夕的这篇论文,不仅是DeepSeek的技术秀,更是向全行业发出的信号:单纯“卷算力”、“堆参数”的蛮荒时代结束了,架构创新的红利期才刚刚开始。而在这场定义下一代AI标准的竞赛中,中国大模型不仅没有掉队,甚至正在重新定义比赛规则。

2026,中国商业航天的“诺曼底时刻”刚刚过去;而AI领域的“存算分家”时刻,或许正是现在。

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

开源地址:https://github.com/deepseek-ai/Engram

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同频:光与存在的共舞

同频:光与存在的共舞

疾跑的小蜗牛
2026-02-07 20:22:25
25岁男子去昆仑山徒步后失联,救援人员找到人后愣住了

25岁男子去昆仑山徒步后失联,救援人员找到人后愣住了

青青会讲故事
2025-09-15 16:22:25
国米最成功的重建是换帅!从小因到齐沃,从即战力到年轻化!

国米最成功的重建是换帅!从小因到齐沃,从即战力到年轻化!

肥强侃球
2026-02-06 22:57:35
90岁焦晃现状曝出:穿纸尿裤严重忘事,与小30岁妻子住无电梯顶层

90岁焦晃现状曝出:穿纸尿裤严重忘事,与小30岁妻子住无电梯顶层

小徐讲八卦
2026-02-06 16:10:03
0-1落后,吴迪神换人!中国队神奇逆转,首进戴维斯杯世界一组

0-1落后,吴迪神换人!中国队神奇逆转,首进戴维斯杯世界一组

曹老师评球
2026-02-07 18:32:33
谈判按下暂停键,中方连发3道反制,巴拿马说了9个字,态度很强硬

谈判按下暂停键,中方连发3道反制,巴拿马说了9个字,态度很强硬

娱乐小可爱蛙
2026-02-07 20:36:12
美国国务院宣布对伊朗相关实体及个人实施制裁

美国国务院宣布对伊朗相关实体及个人实施制裁

国际在线
2026-02-07 02:38:31
医生告诫:早期胰腺癌不是口渴,而是这4个身体信号,别忽视

医生告诫:早期胰腺癌不是口渴,而是这4个身体信号,别忽视

橘子约定
2026-02-07 21:00:38
埃梅里出席发布会时换了个新发型,球迷们都惊呆了

埃梅里出席发布会时换了个新发型,球迷们都惊呆了

懂球帝
2026-02-07 11:17:06
明明只是戏子,硬要拿自己当大腕,这4位明星,究竟在高贵什么?

明明只是戏子,硬要拿自己当大腕,这4位明星,究竟在高贵什么?

手工制作阿歼
2026-02-07 15:50:55
不用坐牢了?马杜罗入狱3周后终迎变局,,中方表态,兵权易主

不用坐牢了?马杜罗入狱3周后终迎变局,,中方表态,兵权易主

众生的世界观
2026-02-06 13:22:51
50岁林心如普拉提生图疯传!20年戒糖+每周5练,状态碾压同龄人

50岁林心如普拉提生图疯传!20年戒糖+每周5练,状态碾压同龄人

手工制作阿歼
2026-02-07 20:49:45
徐子淇陪李家诚出席晚宴,穿米黄色套装端庄大气,脸型圆润很富态

徐子淇陪李家诚出席晚宴,穿米黄色套装端庄大气,脸型圆润很富态

疯说时尚
2026-02-07 16:32:01
中方反制一天,巴总统就服软了,长和经营权能谈,但要满足一条件

中方反制一天,巴总统就服软了,长和经营权能谈,但要满足一条件

二大爷观世界
2026-02-07 21:46:41
柴荣?郭荣?柴世宗?

柴荣?郭荣?柴世宗?

张佳玮写字的地方
2026-02-07 17:05:24
江苏将新增一座机场

江苏将新增一座机场

财联社
2026-02-07 16:57:03
2006年袁隆平看望华国锋:没有华老支持,就没有杂交水稻的今日

2006年袁隆平看望华国锋:没有华老支持,就没有杂交水稻的今日

大运河时空
2026-02-07 16:30:03
306票碾压胜利,日本迎来关键变数,高市连出两招,都以失败告终

306票碾压胜利,日本迎来关键变数,高市连出两招,都以失败告终

古史青云啊
2026-02-06 20:08:56
四川大学通报“博导王竹卿被学生集体举报”,涉嫌多重违规须彻查到边到角

四川大学通报“博导王竹卿被学生集体举报”,涉嫌多重违规须彻查到边到角

极目新闻
2026-02-07 17:29:27
字母哥成为股东!官宣前狠狠收割了一波!

字母哥成为股东!官宣前狠狠收割了一波!

篮球大图
2026-02-07 12:36:32
2026-02-07 22:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2141611文章数 5389关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

解散日众议院依靠媚美反华 高市押注选举想"一石三鸟"

头条要闻

解散日众议院依靠媚美反华 高市押注选举想"一石三鸟"

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

游戏
家居
时尚
本地
艺术

《生化危机9》时长几乎是《生化危机8》的两倍

家居要闻

现代轻奢 温馨治愈系

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

艺术要闻

摄影大赛获奖作品赏析,这才是真正的大片

无障碍浏览 进入关怀版