网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4诞生前夜?梁文锋署名新论文发布

0
分享至


这是一场关于AI“大脑皮层”的重构。

长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型“死记硬背”那些查字典就能知道的静态知识。

DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计算”(MoE)之外,开辟了第二条稀疏化战线——“条件记忆”

这不只是一次技术修补,而是一场关于模型“脑容量”的供给侧改革。它证明了:当我们将“记忆”从“计算”中剥离,把该背的交给“字典”,把该算的交给大脑,AI的推理能力将迎来反直觉的爆发式增长。



DeepSeek计划在2月春节前后正式发布V4,而这一刻或许就是DeepSeek V4诞生的前夜。


六层神经网络的“无用功”

故事的起点,源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。

在人工智能的黑盒子里,当大模型看到“Diana, Princess of Wales”(戴安娜,威尔士王妃)这个短语时,它的内部发生了一场令人费解且极其昂贵的“内耗”。

研究人员发现,为了识别这个固定的实体,模型竟然动用了整整6层网络:

  • 第1-2层:模型还在琢磨“Wales”大概是一个国家;

  • 第3层:它意识到这是欧洲的一个地理概念;

  • 第4层:它开始拼凑出“Princess of Wales”似乎是一个头衔;

  • 第5层:它联想到了“威尔士亲王的妻子”;

  • 第6层:直到这里,它才终于确认,这是指那位著名的“戴安娜王妃”。


在一位追求极致效率的架构师眼中,这简直是算力的暴殄天物。

“戴安娜王妃”是一个客观存在的、静态的实体,它不会因为上下文的变化而改变其本质。为了提取这个本来查字典就能知道的事实,Transformer竟然动用了整整6层深度的昂贵矩阵运算去“重建”这个概念。

这就像是一个绝世天才,在去解决微积分难题之前,每次都得先花半小时默写一遍九九乘法表。 这种“隐式记忆”的机制,迫使模型将宝贵的参数容量和网络深度,浪费在了简单的模式匹配上。

DeepSeek在这篇长达33页的论文中,提出了一个直击灵魂的拷问:为什么不直接给大模型配一本可以随查随用的“超级字典”?


架构重塑——Engram模块的暴力美学

为了解决这个问题,DeepSeek提出了一种名为“Engram(条件记忆)”的全新模块。

如果说MoE(混合专家模型)是把“大脑”分成了不同的区域,让不同的专家负责不同的思考(条件计算);那么Engram就是给大脑外挂了一个巨大的“海马体”,专门负责存储静态知识(条件记忆)。


1. 复活“N-gram”:从古老智慧中寻找答案

Engram的核心灵感,竟然来自于NLP(自然语言处理)领域的“上古神器”——N-gram。在深度学习统治世界之前,我们就是靠统计“N个词同时出现的概率”来理解语言的。

DeepSeek将这一经典概念进行了现代化的魔改:

  • 传统的Transformer:知识分散在神经元的权重(Weights)里,提取知识需要经过复杂的线性层计算,复杂度高。

  • Engram模块:它是一个巨大的、可扩展的嵌入表(Embedding Table)。当模型读到“张仲景”或者“四大发明”这种固定搭配(N-gram)时,不需要动用大脑皮层去推理,直接通过哈希索引,在内存表中“查”出对应的向量。

这一过程的时间复杂度是O(1)——这意味着无论知识库膨胀到多大(哪怕是1000亿参数),查找速度几乎不变,且极快。


2. 三大技术护城河

既然查表这么好,为什么以前没人做?因为有三个拦路虎:存储爆炸、多义词冲突、参数分配。DeepSeek给出了教科书级的解决方案:

A. 词表压缩:极致的去重

世界上的词组组合是天文数字。DeepSeek首先做了一步“无损压缩”。在分词器(Tokenizer)层面,它将语义相同但写法不同的词进行了归一化。
例如,“Apple”(首字母大写)和“apple”(小写)在语义上通常指同一个东西。通过映射归并,有效词表直接缩小了23%。这不仅节省了空间,更让知识的密度大幅提升。

B. 多头哈希:解决“哈希冲突”

不可能把所有N-gram都存下来。Engram使用了“多头哈希(Multi-Head Hashing)”技术。通过多个哈希函数,将无限的N-gram映射到有限的内存槽位中。虽然会有哈希冲突(即两个不同的词被映射到了同一个位置),但通过“多头”设计,模型可以从多个候选结果中拼凑出正确的信息,极大地提高了鲁棒性。

C. 上下文门控:给记忆配个“裁判”

这是最精妙的一笔。查表是死的,语言是活的。
比如“苹果”这个词。在“吃苹果”的语境下,它指水果;在“苹果发布会”的语境下,它指科技公司。直接查表可能会引入噪声。

DeepSeek设计了一个“上下文感知门控”(Context-aware Gating)。

  • Query(查询):当前上下文的隐藏状态(Hidden State)。

  • Key/Value(键值):查表得到的静态向量。

这个门控就像一个裁判。如果查出来的“静态知识”和当前的“上下文”不搭,裁判就会把权重压低(Gate值趋向0),让模型忽略这个噪声;如果完美契合(比如“伤寒杂病论”后跟着“张仲景”),裁判就会把大门打开(Gate值趋向1),直接把知识注入模型。



黄金比例——发现AI模型的“U型曲线”

架构设计好了,接下来的问题是:怎么分家产?

假设我们显卡里的显存是有限的,总参数预算也是固定的。我们应该把多少参数分配给MoE的“专家”(负责计算),多少参数分配给Engram的“字典”(负责记忆)?

这是一个典型的资源配置博弈。DeepSeek团队进行了一场大规模的消融实验,扫描了从0%到100%的分配比例,结果画出了一条完美的“U型Scaling Law曲线”。


这张图揭示了AI模型设计的底层规律:

  1. 左侧极端(纯Engram):如果把参数全给字典,Loss很高。因为模型变成了“书呆子”,光有死记硬背,没有逻辑推理能力。

  2. 右侧极端(纯MoE):如果把参数全给专家,Loss也很高。因为专家们被迫把精力都花在背书(记忆静态知识)上,没空干正事。

  3. 黄金分割点(ρ ≈ 75%-80%):当我们将约20%-25%的稀疏参数预算分给Engram,剩下的给MoE时,模型的验证集Loss降到了最低点。

这是一个极具指导意义的发现:对于几百亿参数的大模型来说,单纯堆砌计算单元(MoE专家)已经是边际效应递减了,必须引入专门的静态记忆模块来实现“存算平衡”。


反直觉的爆发——为什么“查字典”能提高“数学成绩”?

如果Engram仅仅是让模型“记性更好”,这篇论文的分量还不足以震动社区。毕竟,RAG(检索增强生成)也能解决知识问题。

真正让业界感到震撼的,是实验结果中那些意料之外的收益

DeepSeek构建了三个对比模型,严格控制激活参数量(3.8B)和训练数据量(262B tokens)完全一致:

  1. Dense-4B:传统的稠密模型。

  2. MoE-27B:纯MoE模型(72个专家)。

  3. Engram-27B:混合模型(55个专家 + 5.7B Engram参数)。

结果令人大跌眼镜:

1. 意料之中:知识类任务霸榜

在MMLU(综合知识)上,Engram模型提升了3.4分;在CMMLU(中文知识)上,提升了4.0分。这很好理解,外挂了字典,常识自然更好了,幻觉更少了。

2. 意料之外:逻辑、代码、数学全面暴涨

按理说,“查字典”和“做数学题”没关系。但在BBH(综合推理)上,Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分

  • MATH(数学):提升2.4分

  • HumanEval(代码生成):提升3.0分

  • ARC-Challenge(复杂推理):提升3.7分


3. 深度解析:有效深度(Effective Depth)理论

为什么?一个“死记硬背”的模块,为什么能提高智商?

DeepSeek团队利用LogitLens和“CKA(中心核对齐)”技术,对模型内部进行了“解剖”。他们发现了一个惊人的现象:

还记得开头的“戴安娜王妃”吗?
在纯MoE模型中,前几层网络都在忙着“拼凑概念”。
而在Engram模型中,由于第2层就插入了Engram模块,静态知识的检索在极早的阶段就完成了

这意味着,原本用于“死记硬背”的前几层网络被解放了!

这相当于给模型“虚增”了深度。 那些被释放出来的网络层和注意力头(Attention Heads),不再需要处理琐碎的局部依赖(比如识别“张仲景”是谁),从而可以全神贯注地投入到更复杂的全局推理、长程逻辑构建和代码逻辑生成中去。

Engram的本质,不是“替代”推理,而是通过“分流”杂活,让大脑专注于更高维度的思考。



工程奇迹——打破英伟达的“显存霸权”

对于华尔街的投资者和算力中心的运维者来说,这篇论文最性感的地方不在于Score,而在于Cost(成本)

在AI时代,最昂贵的资源不是算力(FLOPs),而是显存(HBM)。英伟达H100之所以贵,很大程度上是因为那稀缺的HBM3e内存。

而Engram带来了一个颠覆性的特性:彻底的存算分离

1. MoE的痛点:显存吞噬者

传统的MoE模型,其路由机制(Routing)是动态的。模型必须先算出当前Token的特征,算完这一层,才知道下一层该找哪个专家。这意味着,所有的专家模型必须时刻在昂贵的GPU显存里待命,随叫随到。

2. Engram的突破:确定的预知

Engram的查表逻辑是确定性的。
只要输入的文本确定了(比如“A New Axis of Sparsity”),那么它对应的N-gram索引就确定了。我们根本不需要等模型算完前一层,在Token进入模型的那一瞬间,我们就知道它需要查哪张表的哪一行。

3. CPU的逆袭:把大模型塞进内存条

这一特性带来了巨大的工程红利:

  • 卸载(Offload):我们可以把几百亿、甚至上千亿参数的Engram词表,直接扔到便宜、量大、易扩展的“CPU内存(DRAM)”里,甚至放在NVMe SSD上。

  • 预取(Prefetching):在GPU拼命计算前一层Transformer的时候,CPU利用PCIe通道,异步地把下一层需要的记忆数据“预取”出来,推送到GPU。

掩盖延迟,并行处理。

DeepSeek实测数据显示:即使挂载了100B(千亿)参数的Engram表到CPU内存,相比于纯GPU推理,吞吐量的下降不到3%

这是一个让所有因为买不到HBM而焦虑的人狂喜的结论。这意味着,未来的大模型,“记忆容量”可以低成本地无限扩张,而不必被英伟达的显存卡脖子。



长文本的胜利——NIAH测试的跃升

除了通用推理,Engram在长文本(Long Context)领域的表现同样证明了“分工”的价值。

在长文本处理中,注意力机制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短语)占据,它处理全局信息的能力就会下降。

Engram接管了局部依赖后,Attention机制终于可以抬头看路了。

在严格的RULER基准测试中,Engram-27B的表现令人咋舌:

  • Multi-Query NIAH(多重针大海捞针):从MoE基线的84.2分,直接飙升至97.0分

  • Variable Tracking(变量追踪):从77.0分提升至89.0分

这说明,当我们将“局部记忆”外包给Engram后,Transformer原本的注意力机制就能更高效地捕捉几万字文档中的“草蛇灰线”。



DeepSeek V4的拼图已现

把以上所有信息串联起来,我们已经隐约看到了DeepSeek下一代模型——DeepSeek V4的雏形。

华尔街见闻写道,报道称DeepSeek计划在2月(春节前后)正式发布V4。回顾DeepSeek的节奏:从2024年1月的R1,到年底击败GPT-5基准的V3.2,再到即将登场的V4,每一步都踩准了技术迭代的脉搏。

如果说R1展示了“推理”的深度,V3展示了“MoE”的效率,那么即将到来的V4,可能通过引入Engram技术,将解决记忆与计算的耦合,实现“电子脑(计算)”与“外部记忆(Engram)”的完美共生。

  • DeepSeek V2:引入MLA(多头潜在注意力),压缩KV Cache,解决推理显存瓶颈。

  • DeepSeek V3:优化“MoE(混合专家)”与无损负载均衡,解决训练稳定性与计算成本。

  • DeepSeek V4(推测):引入Engram(条件记忆),解决记忆与计算的耦合,实现“电子脑(计算)”与“外部记忆(Engram)”的完美共生。

这不是一次简单的版本迭代,这是对Transformer架构底层缺陷的一次系统性手术。在DeepSeek V3已经凭借极其低廉的API价格和强大的性能席卷全球之后,V4如果集成了Engram技术,将带来更可怕的竞争力:它将拥有更大的知识库(低成本内存扩展)、更强的逻辑推理(网络深度解放)以及更低的推理成本(存算分离)。

更重要的是,报道提到V4在数据模式理解上的改进,“避免了以往模型在长时间训练下性能衰退的情况”。这与Engram将静态知识固化、减少动态网络负担的特性不谋而合——它让模型更稳定,更不容易“遗忘”或“精神错乱”。

在论文的最后,DeepSeek团队自信地写道:

“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.” (我们预想,条件记忆将成为下一代稀疏模型不可或缺的建模原语。)

春节前夕的这篇论文,不仅是DeepSeek的技术秀,更是向全行业发出的信号:单纯“卷算力”、“堆参数”的蛮荒时代结束了,架构创新的红利期才刚刚开始。而在这场定义下一代AI标准的竞赛中,中国大模型不仅没有掉队,甚至正在重新定义比赛规则。

2026,;而AI领域的“存算分家”时刻,或许正是现在。

论文地址:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

开源地址:

https://github.com/deepseek-ai/Engram

⭐星标华尔街见闻,好内容不错过

本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
二战各国人命账单:美国的41万和苏联的2700万,打的真是同一场仗吗?

二战各国人命账单:美国的41万和苏联的2700万,打的真是同一场仗吗?

历史回忆室
2026-01-01 18:07:05
醒醒吧!没气质就别硬演“黑老大”,贱嗖嗖的样子,内娱没人了吗

醒醒吧!没气质就别硬演“黑老大”,贱嗖嗖的样子,内娱没人了吗

娱乐圈笔娱君
2025-12-26 14:32:48
手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

手戴1000多万名表,坐拥3.6亿私人飞机,“沪上皇”秦奋啥来头?

小熊侃史
2026-01-12 07:40:07
狂轰39分7助6记三分球!杜兰特超越老詹,又将迎来一项神级里程碑

狂轰39分7助6记三分球!杜兰特超越老詹,又将迎来一项神级里程碑

世界体育圈
2026-01-17 14:56:18
C罗顿悟 认识到利雅得胜利的问题是他 计划申请休息一个月

C罗顿悟 认识到利雅得胜利的问题是他 计划申请休息一个月

智道足球
2026-01-17 15:25:46
一位中将登门诉说委屈,韩先楚态度冷淡爱搭不理:过去连徐帅都敢诋毁,如今却是这副孬样子

一位中将登门诉说委屈,韩先楚态度冷淡爱搭不理:过去连徐帅都敢诋毁,如今却是这副孬样子

寄史言志
2026-01-17 16:37:12
国家正式宣布:对携程立案调查!日赚2亿的携程竟是外资主导?

国家正式宣布:对携程立案调查!日赚2亿的携程竟是外资主导?

今朝牛马
2026-01-17 18:30:30
被全网禁关后,李湘的连锁反应来了!王诗龄身份遭质疑,前夫被抓

被全网禁关后,李湘的连锁反应来了!王诗龄身份遭质疑,前夫被抓

娱乐团长
2026-01-17 10:22:26
机构:苹果三星继续领跑去年全球手机市场,存储芯片涨价令今年承压

机构:苹果三星继续领跑去年全球手机市场,存储芯片涨价令今年承压

澎湃新闻
2026-01-15 15:58:26
超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

丰谭笔录
2025-12-11 11:41:19
高市还想挣扎,日商界先急了,对高市下通牒:除夕前必须对华道歉

高市还想挣扎,日商界先急了,对高市下通牒:除夕前必须对华道歉

通文知史
2026-01-16 19:00:11
西安市召开领导干部会议,宣布西安市委主要领导职务调整的决定

西安市召开领导干部会议,宣布西安市委主要领导职务调整的决定

新京报
2026-01-17 09:55:38
福建小伙在柬埔寨街头流浪,被打致身上多处伤口,当地华人救助后开直播帮忙找到家人

福建小伙在柬埔寨街头流浪,被打致身上多处伤口,当地华人救助后开直播帮忙找到家人

潇湘晨报
2026-01-16 19:52:12
郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

君笙的拂兮
2026-01-11 23:46:50
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
美国人急眼了:我们垄断全球半个世纪,如今却被宁波一家小厂干翻

美国人急眼了:我们垄断全球半个世纪,如今却被宁波一家小厂干翻

三农老历
2026-01-16 12:48:21
免税结束,车市“凉凉”?

免税结束,车市“凉凉”?

汽车公社
2026-01-15 08:43:51
越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

阿纂看事
2025-08-08 18:10:48
2026-01-17 19:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
140262文章数 2652162关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
游戏
房产
数码
手机

艺术要闻

张旭偷传颜真卿的“书法秘诀”!把这12条看懂,保你少走10年弯路

死侍立大功!漫威争锋steam同时在线人数破20万

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

数码要闻

消息称苹果2026 - 2028年为5款产品升级OLED屏幕

手机要闻

暂定3月!华为Pura X2与Mate 80 GTS齐发,参数全线拉满

无障碍浏览 进入关怀版