网易首页 > 网易号 > 正文 申请入驻

梁文锋署名,DeepSeek论文上新

0
分享至

2026.01.13


本文字数:1017,阅读时长大约2分钟

作者 |第一财经 刘晓洁

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。


此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。

微信编辑| 七三

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明家电诈集团11人被执行死刑细节:有人浑身筛糠,明珍珍最怂

明家电诈集团11人被执行死刑细节:有人浑身筛糠,明珍珍最怂

胡侃社会百态
2026-01-29 17:20:07
论神棍的神逻辑:一边断网,一边号召上不了网的人民圣战

论神棍的神逻辑:一边断网,一边号召上不了网的人民圣战

常识群
2026-01-29 14:00:33
阿富汗真正的悲剧在于世界已经不在乎

阿富汗真正的悲剧在于世界已经不在乎

海子侃生活
2026-01-29 11:10:03
“夜间猎人”深夜突降伊朗,普京给想动手的美国,多焊了一道硬坎

“夜间猎人”深夜突降伊朗,普京给想动手的美国,多焊了一道硬坎

军机Talk
2026-01-29 15:18:21
又一艘驱逐舰抵达,美国在中东部署至少10艘军舰

又一艘驱逐舰抵达,美国在中东部署至少10艘军舰

界面新闻
2026-01-30 07:25:02
就外界担忧日本可能“强登钓鱼岛”,国防部答南都

就外界担忧日本可能“强登钓鱼岛”,国防部答南都

南方都市报
2026-01-29 16:42:07
队报:吉达联合要求本泽马大幅降薪,球员感到被欺骗拒绝出场

队报:吉达联合要求本泽马大幅降薪,球员感到被欺骗拒绝出场

懂球帝
2026-01-30 04:05:45
航母就位,狠话“刷屏” 专家:美已错过最佳打击时间,目前主要是逼伊“核让步”

航母就位,狠话“刷屏” 专家:美已错过最佳打击时间,目前主要是逼伊“核让步”

红星新闻
2026-01-29 18:13:29
开年首月,中央纪委打7虎

开年首月,中央纪委打7虎

上观新闻
2026-01-29 22:19:09
中国将对英国免签!

中国将对英国免签!

环球旅讯
2026-01-30 00:08:21
关键时刻,伊朗接收俄罗斯装备!哈梅内伊政治顾问:一旦美方采取军事行动,将打击以色列!中国代表发声

关键时刻,伊朗接收俄罗斯装备!哈梅内伊政治顾问:一旦美方采取军事行动,将打击以色列!中国代表发声

每日经济新闻
2026-01-29 18:00:08
杨兰兰与警方对峙画面曝光!因过度遮面警方无法核实身份产生冲突

杨兰兰与警方对峙画面曝光!因过度遮面警方无法核实身份产生冲突

麦杰逊
2026-01-29 12:47:34
金晨太抠门!顶包还想理赔,和狗仔没谈拢被曝光,沈腾真说对了

金晨太抠门!顶包还想理赔,和狗仔没谈拢被曝光,沈腾真说对了

萌神木木
2026-01-29 16:31:23
这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

百态人间
2026-01-29 16:04:26
百年浩劫:奴隶制将成为阿富汗永久国策!

百年浩劫:奴隶制将成为阿富汗永久国策!

大漠行舟
2026-01-29 00:57:23
德国急了!千吨黄金要不回,欧洲集体抛美债,金融霸权或将崩塌?

德国急了!千吨黄金要不回,欧洲集体抛美债,金融霸权或将崩塌?

长星寄明月
2026-01-29 23:06:42
3元续面大结局:民警致电道歉,面馆关了、招牌拆了、生意也没了

3元续面大结局:民警致电道歉,面馆关了、招牌拆了、生意也没了

阿纂看事
2026-01-29 09:36:34
7年后重返澳网决赛!老将张帅横扫晋级,大满贯第3冠一步之遥

7年后重返澳网决赛!老将张帅横扫晋级,大满贯第3冠一步之遥

全景体育V
2026-01-29 16:30:11
斯塔默:我想看清中国这头大象,而人们往往盲人摸象

斯塔默:我想看清中国这头大象,而人们往往盲人摸象

观察者网
2026-01-29 21:46:06
奥迪只卖10万了?多地奥迪4S店被曝闭店跑路!

奥迪只卖10万了?多地奥迪4S店被曝闭店跑路!

小南看车
2026-01-28 15:55:33
2026-01-30 08:51:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
243002文章数 621372关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

牛弹琴:沾满同胞鲜血的罪人被执行死刑 中国干得漂亮

头条要闻

牛弹琴:沾满同胞鲜血的罪人被执行死刑 中国干得漂亮

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

黄金"发疯"众生相:投资端"大口吃肉"

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

房产
艺术
数码
旅游
公开课

房产要闻

寰岛学校卖楼,二次流拍!

艺术要闻

广州这座“寿桃花”建筑,让王健林掏了1个亿!

数码要闻

曜越推出TR300机箱:可选实木格栅前板款,支持扩展6" LCD屏

旅游要闻

【文旅中国快报01.30】2026年全国春节文化和旅游消费月主场活动启幕;“知音

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版