网易首页 > 网易号 > 正文 申请入驻

DeepSeek公布全新论文,梁文锋署名

DeepSeek发布梁文锋署名新论文

0
分享至

【TechWeb】1月13日消息,DeepSeek最新公布题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》全新论文,提出“条件记忆”(Conditional Memory)作为对主流条件计算(MoE)范式的互补性稀疏维度,旨在解决通过动态计算模拟知识检索的低效问题。


该论文作者署名包括梁文锋等DeepSeek团队成员,还有北京大学王选所赵东岩、张辉帅团队。

论文链接:https://github.com/deepseek-ai/Engram/blob/mAIn/Engram_paper.pdf

提出“U形扩展定律”

论文称,当前大语言模型主要依靠混合专家(MoE)实现条件计算,通过稀疏激活参数扩展模型容量。然而,语言信号具有内在异质性:一方面需要深度动态计算进行组合推理,另一方面存在大量局部、静态、高度模式化的文本(如命名实体、公式化表达)。传统Transformer缺乏原生知识查找原语,迫使模型通过计算模拟检索,例如解析一个多词实体需消耗多个底层注意力与前馈网络层,本质上是昂贵地运行时重建静态查找表,浪费了本可用于高层推理的序列深度。

为匹配语言的双重特性,研究团队主张引入条件记忆(Conditional Memory)这一互补稀疏轴:条件计算稀疏激活参数以处理动态逻辑,条件记忆则依赖稀疏查找操作检索静态嵌入以获取固定知识。

同时,论文给出了该条件记忆具体实现方案Engram模块。

为量化Engram与MoE之间的协同,论文提出稀疏性分配问题。这也是该论文的核心。

团队设计了一个严格的实验框架:固定总参数量和每token的激活参数量(也就是计算量),然后在MoE专家和Engram记忆之间重新分配“闲置参数”预算。

实验表明,纯MoE或纯Engram主导均非最优,二者存在结构互补性:

MoE主导缺乏静态模式的专用内存,迫使通过深度计算低效重建。

Engram主导则失去条件记忆能力,损害需要动态上下文推理的任务。

最终,实验揭示了一条“U形扩展定律”(如下图):在固定参数与FLOPs下,将稀疏参数预算的约20%-25%重新分配给Engram可获得最佳性能。例如在10B参数规模下,验证损失从1.7248降至1.7109。



基于上述分配定律,论文团队训练了Engram-27B模型(总参数26.7B,激活参数3.8B),通过将MoE-27B的专家数从72减至55,并将释放的参数重新分配给5.7B参数的Engram内存(分配比ρ=74.3%)。在预训练后,相比同参数同FLOPs的MoE-27B基线,Engram-27B在知识与推理、通用推理、代码与数学等多个领域均取得显著提升。

具体提升包括:

知识与推理:MMLU +3.0,CMMLU +4.0,MMLU-Pro +1.8。

通用推理:BBH +5.0,ARC-Challenge +3.7,DROP +3.3。

代码与数学:HumanEval +3.0,GSM8K +2.2,MATH +2.4。

论文总结认为,Engram不仅提升知识检索能力,更在通用推理、代码与数学领域带来更大增益。机制上,它通过减轻早期层静态重建任务有效“加深”网络,并释放注意力容量以聚焦全局上下文与复杂推理,从而显著增强长上下文能力。其确定性寻址支持存储与计算解耦,为下一代稀疏模型提供了基础设施感知的高效设计范式。

DeepSeek-V4大模型被曝春节前后发布

值得注意的是,论文结尾明确提到:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。

就在前天,有外媒报道,DeepSeek将于2月发布新一代旗舰AI模型DeepSeek V4,该模型主打强劲的代码生成能力,是DeepSeek继2024年12月发布的V3模型之后的最新版本。

报道援引知情人士消息称,DeepSeek员工基于公司内部基准开展的初步测试显示,该最新模型在代码生成领域的表现优于Anthropic、Claude、生成式预训练变换器系列(OpenAI GPT)等现有主流模型。DeepSeek计划在2025年春节前后发布V4版本。

因此,论文中的提到的“条件记忆”(Conditional Memory)被业内猜测将极大可能应用于DeepSeek-V4大模型中。

自2024年1月20日,DeepSeek发布R1模型,恰逢春节前夕,其卓越的表现引发了全球AI界的广泛关注以来,DeepSeek团队持续不断给业内带来惊喜,2025年下半年几乎月月有发布。

2025年末,DeepSeek还发布了题为《Manifold-Constrained Hyper-Connections》的研究论文,该技术成功解决了此前阻碍大模型规模扩展的核心瓶颈——训练稳定性问题。通过在超连接技术中引入数学上的“流形约束”,DeepSeek实现了27B模型训练中信号放大从近3000倍骤降至1.6倍的惊人效果。为大模型架构设计开辟了一条全新的技术路径。

2025年12月1日,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,并开源。DeepSeek-V3.2 达到了 GPT-5 的水平,DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro。

2025年11月,DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型,这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。

2025年10月,DeepSeek发布3B参数开源OCR模型,DeepSeek-OCR模型创新性地提出“上下文光学压缩”技术,将长文本转换为图像进行高效压缩处理,大幅降低大模型输入所需的Token数量,从而显著降低大模型处理长文档时的计算开销,该模型迅速在AI领域获得了广泛关注和讨论。

2025年9月,DeepSeek正式发布DeepSeek-V3.2-Exp模型,并宣布API调用价格大幅降低,输入百万Token价格降至2毛钱,输出价格直降75%,被业界称为“价格屠夫”再挥刀。

蓄力这么久,业内认为,DeepSeek-V4版本的推出预计将对当前的AI竞争格局产生重大影响,期待其进一步巩固DeepSeek在全球人工智能领域的领先地位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋介石侍卫长郝柏村晚年称:蒋介石最大错误,就是接受雅尔塔协定

蒋介石侍卫长郝柏村晚年称:蒋介石最大错误,就是接受雅尔塔协定

叹为观止易
2026-01-10 10:00:47
这瓜也太炸裂了!Lisa和驴老三在泰国晚宴被曝当众行为不雅

这瓜也太炸裂了!Lisa和驴老三在泰国晚宴被曝当众行为不雅

西楼知趣杂谈
2026-01-14 14:50:57
炸裂!香港知名主持人宣布和同性爱人订婚,激动到落下男儿泪

炸裂!香港知名主持人宣布和同性爱人订婚,激动到落下男儿泪

鋭娱之乐
2026-01-15 19:30:41
特朗普发总统令,反击中国的机会就在眼前,高市早苗能忍得住才怪

特朗普发总统令,反击中国的机会就在眼前,高市早苗能忍得住才怪

云鹏叙事
2026-01-16 10:45:57
财政与社保联合发文:有条件的单位应给员工缴纳「企业年金」!

财政与社保联合发文:有条件的单位应给员工缴纳「企业年金」!

闻号说经济
2026-01-16 11:01:39
积雪深度超18厘米!河南暴雪时间定了:就在下周一,郑州的雪集中在下午,河南多地有大到暴雪

积雪深度超18厘米!河南暴雪时间定了:就在下周一,郑州的雪集中在下午,河南多地有大到暴雪

鲁中晨报
2026-01-16 07:15:08
美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

失宠的小野猪
2026-01-09 14:29:24
聂卫平的二婚妻子,哥哥家喻户晓,她是知名歌唱家,69岁仍未再婚

聂卫平的二婚妻子,哥哥家喻户晓,她是知名歌唱家,69岁仍未再婚

阿讯说天下
2026-01-16 11:29:41
侯友宜认怂了,向郑丽文做出重大让步,但郑丽文还需防一人?

侯友宜认怂了,向郑丽文做出重大让步,但郑丽文还需防一人?

时尚的弄潮
2026-01-16 05:33:03
1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

安安说
2026-01-15 14:30:22
喜讯!上海海港做出冬窗最明智一个决定,给球迷吃下一颗定心丸

喜讯!上海海港做出冬窗最明智一个决定,给球迷吃下一颗定心丸

零度眼看球
2026-01-16 08:57:01
电视真的被严重低估了!换个思路居然好用到惊呆,简直是人类之光

电视真的被严重低估了!换个思路居然好用到惊呆,简直是人类之光

Home范
2026-01-10 14:55:03
香港房价有多离谱?退役警察用不到一间厕所的钱,在广东买下豪宅

香港房价有多离谱?退役警察用不到一间厕所的钱,在广东买下豪宅

开着车去流浪
2026-01-14 20:33:32
寒潮预警!济南降雪降温最新预报:全市将有中到大雪,19日至22日将出现持续低温天气,局地最低温-20℃

寒潮预警!济南降雪降温最新预报:全市将有中到大雪,19日至22日将出现持续低温天气,局地最低温-20℃

鲁中晨报
2026-01-15 17:55:18
打破9年 “空窗期”,加拿大总理卡尼周三起访华

打破9年 “空窗期”,加拿大总理卡尼周三起访华

上观新闻
2026-01-12 20:31:06
体制内公示期有多恐怖?过来人说出实情:能捅你一刀的,都是熟人

体制内公示期有多恐怖?过来人说出实情:能捅你一刀的,都是熟人

妍妍教育日记
2026-01-10 12:48:21
47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

古希腊掌管松饼的神
2026-01-15 11:14:09
水贝银楼爆雷:老板未跑路但交不出货,涉事金额超千万

水贝银楼爆雷:老板未跑路但交不出货,涉事金额超千万

原点新财经
2026-01-16 11:35:33
营收缩水4成!36岁女婿接班后,上海卤味巨头风波不断

营收缩水4成!36岁女婿接班后,上海卤味巨头风波不断

毒sir财经
2026-01-14 20:00:26
孙艺珍晒一家三口庆生视频,3岁儿子声音好憨还好吃,像爸爸玄彬

孙艺珍晒一家三口庆生视频,3岁儿子声音好憨还好吃,像爸爸玄彬

八怪娱
2026-01-15 19:24:03
2026-01-16 12:08:49
TechWeb incentive-icons
TechWeb
做有态度的互联网资讯。
15362文章数 43053关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

本地
亲子
房产
教育
时尚

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

亲子要闻

答应我,今晚试试看,10分钟就行

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

教育要闻

学生恋爱问题,老教师会怎么处理?

年度最扎心电影,看得中年男女坐立难安

无障碍浏览 进入关怀版