网易首页 > 网易号 > 正文 申请入驻

梁文锋署名,DeepSeek论文上新

0
分享至

2026.01.13


本文字数:1017,阅读时长大约2分钟

作者 |第一财经 刘晓洁

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。


此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。

微信编辑| 七三

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央媒发话,房子是最大资产,2026房地产要下猛药了?

央媒发话,房子是最大资产,2026房地产要下猛药了?

毒sir财经
2026-03-24 23:51:50
伊朗警告“某地区国家”,不要怂恿美军夺岛,否则炸你们家油田

伊朗警告“某地区国家”,不要怂恿美军夺岛,否则炸你们家油田

强军路
2026-03-26 18:21:43
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
马斯克放出Optimus最新视频,称有望在今年夏季启动量产

马斯克放出Optimus最新视频,称有望在今年夏季启动量产

华尔街见闻官方
2026-03-26 14:11:25
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

黑鹰观军事
2026-03-26 18:06:35
国家发改委正式批复这条新建高铁,事关西安东出大通道!

国家发改委正式批复这条新建高铁,事关西安东出大通道!

荣耀西安网
2026-03-26 18:10:49
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
马英九基金会风波彻底失控!为何蔡正元两个词点透本质?

马英九基金会风波彻底失控!为何蔡正元两个词点透本质?

时尚的弄潮
2026-03-26 13:50:39
事关美国对伊朗动武,外媒最新爆料

事关美国对伊朗动武,外媒最新爆料

环球时报国际
2026-03-25 15:21:08
被伊朗打疼了?美国、以色列一边要求停火30天,一边密集调动特种部队!

被伊朗打疼了?美国、以色列一边要求停火30天,一边密集调动特种部队!

军武速递
2026-03-25 19:58:19
委内瑞拉代总统豁出去了!派代表团访美,关系能否破冰?

委内瑞拉代总统豁出去了!派代表团访美,关系能否破冰?

爱看剧的阿峰
2026-03-26 18:07:56
张雪峰走了,他公司所在的这栋楼高177.8米,耗资超10亿!

张雪峰走了,他公司所在的这栋楼高177.8米,耗资超10亿!

GA环球建筑
2026-03-26 01:37:19
张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

教育导向分享
2026-03-25 22:28:37
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

性商教母复出,周媛换平台直播,狡辩称没有违法,火速被封

非常先生看娱乐
2026-03-26 16:57:03
克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

克拉拉擦边香艳床戏包贝尔再演坏淫!这部网大爽得太肤浅

释凡电影
2026-03-24 04:57:40
黄瓜开始上市!医生再三强调:糖尿病患者吃黄瓜,多注意这几点!

黄瓜开始上市!医生再三强调:糖尿病患者吃黄瓜,多注意这几点!

王二哥老搞笑
2026-03-26 17:50:29
等了8年,青岛这条“土豪线”终于要通了!五四广场50分钟到机场

等了8年,青岛这条“土豪线”终于要通了!五四广场50分钟到机场

苗苗情感说
2026-03-26 16:47:34
拖垮一个普通家庭,只需要一台20万的车。

拖垮一个普通家庭,只需要一台20万的车。

老陆不老
2026-03-24 20:20:23
2026-03-26 19:31:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248239文章数 621904关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
健康
教育
数码

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

转头就晕的耳石症,能开车上班吗?

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

无障碍浏览 进入关怀版