网易首页 > 网易号 > 正文 申请入驻

DeepSeek公布全新论文,梁文锋署名

0
分享至

【TechWeb】1月13日消息,DeepSeek最新公布题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》全新论文,提出“条件记忆”(Conditional Memory)作为对主流条件计算(MoE)范式的互补性稀疏维度,旨在解决通过动态计算模拟知识检索的低效问题。


该论文作者署名包括梁文锋等DeepSeek团队成员,还有北京大学王选所赵东岩、张辉帅团队。

论文链接:https://github.com/deepseek-ai/Engram/blob/mAIn/Engram_paper.pdf

提出“U形扩展定律”

论文称,当前大语言模型主要依靠混合专家(MoE)实现条件计算,通过稀疏激活参数扩展模型容量。然而,语言信号具有内在异质性:一方面需要深度动态计算进行组合推理,另一方面存在大量局部、静态、高度模式化的文本(如命名实体、公式化表达)。传统Transformer缺乏原生知识查找原语,迫使模型通过计算模拟检索,例如解析一个多词实体需消耗多个底层注意力与前馈网络层,本质上是昂贵地运行时重建静态查找表,浪费了本可用于高层推理的序列深度。

为匹配语言的双重特性,研究团队主张引入条件记忆(Conditional Memory)这一互补稀疏轴:条件计算稀疏激活参数以处理动态逻辑,条件记忆则依赖稀疏查找操作检索静态嵌入以获取固定知识。

同时,论文给出了该条件记忆具体实现方案Engram模块。

为量化Engram与MoE之间的协同,论文提出稀疏性分配问题。这也是该论文的核心。

团队设计了一个严格的实验框架:固定总参数量和每token的激活参数量(也就是计算量),然后在MoE专家和Engram记忆之间重新分配“闲置参数”预算。

实验表明,纯MoE或纯Engram主导均非最优,二者存在结构互补性:

MoE主导缺乏静态模式的专用内存,迫使通过深度计算低效重建。

Engram主导则失去条件记忆能力,损害需要动态上下文推理的任务。

最终,实验揭示了一条“U形扩展定律”(如下图):在固定参数与FLOPs下,将稀疏参数预算的约20%-25%重新分配给Engram可获得最佳性能。例如在10B参数规模下,验证损失从1.7248降至1.7109。



基于上述分配定律,论文团队训练了Engram-27B模型(总参数26.7B,激活参数3.8B),通过将MoE-27B的专家数从72减至55,并将释放的参数重新分配给5.7B参数的Engram内存(分配比ρ=74.3%)。在预训练后,相比同参数同FLOPs的MoE-27B基线,Engram-27B在知识与推理、通用推理、代码与数学等多个领域均取得显著提升。

具体提升包括:

知识与推理:MMLU +3.0,CMMLU +4.0,MMLU-Pro +1.8。

通用推理:BBH +5.0,ARC-Challenge +3.7,DROP +3.3。

代码与数学:HumanEval +3.0,GSM8K +2.2,MATH +2.4。

论文总结认为,Engram不仅提升知识检索能力,更在通用推理、代码与数学领域带来更大增益。机制上,它通过减轻早期层静态重建任务有效“加深”网络,并释放注意力容量以聚焦全局上下文与复杂推理,从而显著增强长上下文能力。其确定性寻址支持存储与计算解耦,为下一代稀疏模型提供了基础设施感知的高效设计范式。

DeepSeek-V4大模型被曝春节前后发布

值得注意的是,论文结尾明确提到:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。

就在前天,有外媒报道,DeepSeek将于2月发布新一代旗舰AI模型DeepSeek V4,该模型主打强劲的代码生成能力,是DeepSeek继2024年12月发布的V3模型之后的最新版本。

报道援引知情人士消息称,DeepSeek员工基于公司内部基准开展的初步测试显示,该最新模型在代码生成领域的表现优于Anthropic、Claude、生成式预训练变换器系列(OpenAI GPT)等现有主流模型。DeepSeek计划在2025年春节前后发布V4版本。

因此,论文中的提到的“条件记忆”(Conditional Memory)被业内猜测将极大可能应用于DeepSeek-V4大模型中。

自2024年1月20日,DeepSeek发布R1模型,恰逢春节前夕,其卓越的表现引发了全球AI界的广泛关注以来,DeepSeek团队持续不断给业内带来惊喜,2025年下半年几乎月月有发布。

2025年末,DeepSeek还发布了题为《Manifold-Constrained Hyper-Connections》的研究论文,该技术成功解决了此前阻碍大模型规模扩展的核心瓶颈——训练稳定性问题。通过在超连接技术中引入数学上的“流形约束”,DeepSeek实现了27B模型训练中信号放大从近3000倍骤降至1.6倍的惊人效果。为大模型架构设计开辟了一条全新的技术路径。

2025年12月1日,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,并开源。DeepSeek-V3.2 达到了 GPT-5 的水平,DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。

2025年11月,DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型,这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。

2025年10月,DeepSeek发布3B参数开源OCR模型,DeepSeek-OCR模型创新性地提出“上下文光学压缩”技术,将长文本转换为图像进行高效压缩处理,大幅降低大模型输入所需的Token数量,从而显著降低大模型处理长文档时的计算开销,该模型迅速在AI领域获得了广泛关注和讨论。

2025年9月,DeepSeek正式发布DeepSeek-V3.2-Exp模型,并宣布API调用价格大幅降低,输入百万Token价格降至2毛钱,输出价格直降75%,被业界称为“价格屠夫”再挥刀。

蓄力这么久,业内认为,DeepSeek-V4版本的推出预计将对当前的AI竞争格局产生重大影响,期待其进一步巩固DeepSeek在全球人工智能领域的领先地位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五个孩子一个爹:用试管造娃的华人虎爸,如何培养奥运冠军?

五个孩子一个爹:用试管造娃的华人虎爸,如何培养奥运冠军?

听风听你
2026-03-04 11:05:39
贺希宁:最深刻是胡金秋战日本最后扣篮 在国家队进攻提供更好火力

贺希宁:最深刻是胡金秋战日本最后扣篮 在国家队进攻提供更好火力

狼叔评论
2026-03-04 18:42:06
广东宏远全新阵容亮相!杜锋拒绝输球,强援上演首秀,央视直播

广东宏远全新阵容亮相!杜锋拒绝输球,强援上演首秀,央视直播

体坛瞎白话
2026-03-04 09:14:39
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
又现数据造假!德国情报戳穿俄财政谎言,赤字暴增千亿!

又现数据造假!德国情报戳穿俄财政谎言,赤字暴增千亿!

老马拉车莫少装
2026-03-04 18:45:34
26年坚定持有的十只黑马股,预定翻倍增长!(精选)

26年坚定持有的十只黑马股,预定翻倍增长!(精选)

涨多宝
2026-03-04 13:33:19
春节刚过就痛失老戏骨,57岁脑出血,大年初八晚10点遗憾离世

春节刚过就痛失老戏骨,57岁脑出血,大年初八晚10点遗憾离世

小娱乐悠悠
2026-03-04 09:05:02
24小时内,美俄伊都喊话中国,世界终于看清:特朗普真正怕的是啥

24小时内,美俄伊都喊话中国,世界终于看清:特朗普真正怕的是啥

铁锤简科
2026-03-04 17:11:50
以军对德黑兰基础设施展开“大规模打击”

以军对德黑兰基础设施展开“大规模打击”

澎湃新闻
2026-03-03 22:30:11
回顾 女子退婚不退彩礼,男子将硫酸倒进小舅子嘴里:给你治病用

回顾 女子退婚不退彩礼,男子将硫酸倒进小舅子嘴里:给你治病用

谈史论天地
2026-03-04 12:27:52
代表建议:特殊职责人员奸淫幼女,可判无期或死刑

代表建议:特殊职责人员奸淫幼女,可判无期或死刑

扬子晚报
2026-03-04 22:01:46
中超外援确定参加世界杯:中超母队有望获23万美元参赛补偿!

中超外援确定参加世界杯:中超母队有望获23万美元参赛补偿!

邱泽云
2026-03-04 15:51:58
部署在阿联酋的韩国“天弓-Ⅱ”国产防空导弹系统成功拦截了伊朗发射的导弹

部署在阿联酋的韩国“天弓-Ⅱ”国产防空导弹系统成功拦截了伊朗发射的导弹

闪电新闻
2026-03-04 17:15:26
俄一艘液化气运输船在地中海遭袭

俄一艘液化气运输船在地中海遭袭

新华社
2026-03-04 17:25:03
世预赛亚大区实力榜:中国男篮飙升第二 日本第七韩国跌倒二

世预赛亚大区实力榜:中国男篮飙升第二 日本第七韩国跌倒二

醉卧浮生
2026-03-04 20:44:59
海军未被全灭:刚刚,伊朗最先进军舰被击中起火!

海军未被全灭:刚刚,伊朗最先进军舰被击中起火!

胜研集
2026-03-04 21:47:41
刚刚,美军遭遇开战以来最严重打击!

刚刚,美军遭遇开战以来最严重打击!

君临财富
2026-03-04 16:00:18
中到大雪!山西新降雪预报

中到大雪!山西新降雪预报

今日晋中
2026-03-04 15:44:41
韩国财政部长:股市和外汇市场暴跌系外部因素所致 非国内基本面问题

韩国财政部长:股市和外汇市场暴跌系外部因素所致 非国内基本面问题

财联社
2026-03-04 16:25:06
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

谈古论今历史有道
2026-03-04 15:00:03
2026-03-04 22:27:00
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
16268文章数 43070关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

房产
亲子
游戏
本地
公开课

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

亲子要闻

保护孩子宝妈必学,孩子这种行为不是遗传!

PS2发售周年激起神谷英树回忆!谈生化系列为何成功

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版