网易首页 > 网易号 > 正文 申请入驻

DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

0
分享至

来源:第一财经

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。


此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗称又击落6架美以军方无人机

伊朗称又击落6架美以军方无人机

界面新闻
2026-03-04 12:55:21
多位明星被困中东,机票飙至550万一张?刘德华的话,终于应验了

多位明星被困中东,机票飙至550万一张?刘德华的话,终于应验了

壹月情感
2026-03-03 21:59:20
猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

蜉蝣说
2026-02-23 21:23:05
不要再叫喊击沉美航母了:击沉一艘航母有多难?你根本看不懂

不要再叫喊击沉美航母了:击沉一艘航母有多难?你根本看不懂

起喜电影
2026-03-02 07:35:37
特朗普预计不久后将访华?娄勤俭:中美合则两利、斗则俱伤

特朗普预计不久后将访华?娄勤俭:中美合则两利、斗则俱伤

极目新闻
2026-03-04 13:25:50
联合国官员点名批评中国!

联合国官员点名批评中国!

南权先生
2026-03-03 15:48:58
伊朗发起第16轮反击,导弹砸向以色列,美航母撤离,特朗普翻脸了

伊朗发起第16轮反击,导弹砸向以色列,美航母撤离,特朗普翻脸了

阿芒娱乐说
2026-03-04 17:23:58
最新消息,航母被炸

最新消息,航母被炸

武器纵论
2026-03-03 18:50:55
中央定调!15年最低缴费成历史,2030年15年缴费还能正常退休吗?

中央定调!15年最低缴费成历史,2030年15年缴费还能正常退休吗?

另子维爱读史
2026-03-03 21:58:41
拨通北京电话后,伊朗外长大倒苦水,王毅提醒德黑兰先做这3件事

拨通北京电话后,伊朗外长大倒苦水,王毅提醒德黑兰先做这3件事

岁暮的归南山
2026-03-04 18:32:34
儿童机票比成人贵60%?代表建议来了

儿童机票比成人贵60%?代表建议来了

中国新闻周刊
2026-03-04 12:20:28
莫雷加德等选手因赛事滞留,备战重庆冠军赛,WTT赛事很密集

莫雷加德等选手因赛事滞留,备战重庆冠军赛,WTT赛事很密集

卿子书
2026-03-04 08:59:15
纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

谈史论天地
2026-03-01 09:49:38
一名中国公民遇难!伊朗海军全灭,空军惨败,导弹部队孤军奋战

一名中国公民遇难!伊朗海军全灭,空军惨败,导弹部队孤军奋战

快看张同学
2026-03-03 14:22:39
本世纪第一艘航母被击沉,反舰导弹密集爆炸:美伊爆发大规模激战

本世纪第一艘航母被击沉,反舰导弹密集爆炸:美伊爆发大规模激战

赵昉是个热血青年
2026-03-04 14:40:06
秦岚担心的事发生了!33岁热巴最大遗憾,是没听她的一句劝

秦岚担心的事发生了!33岁热巴最大遗憾,是没听她的一句劝

阿纂看事
2026-03-04 09:19:52
何小鹏、雷军、姚劲波人民大会堂前合影

何小鹏、雷军、姚劲波人民大会堂前合影

凤凰网科技
2026-03-04 12:41:19
薛之谦出不出名 我不评价 但我敢确定一件事 就是在人品方面是真不错

薛之谦出不出名 我不评价 但我敢确定一件事 就是在人品方面是真不错

陈意小可爱
2026-03-04 13:23:27
600759,连续三天涨停!4股获巨资抢筹

600759,连续三天涨停!4股获巨资抢筹

证券时报e公司
2026-03-04 17:32:02
霍梅尼去世前,为何不选择儿子接班,而是把伊朗交给哈梅内伊?

霍梅尼去世前,为何不选择儿子接班,而是把伊朗交给哈梅内伊?

担扑
2026-03-02 22:35:09
2026-03-04 19:12:49
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
71124文章数 1068关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

旅游
本地
时尚
家居
公开课

旅游要闻

松柏返绿湖水清 枣庄龟山公园春意渐浓

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

三件外套拍出17万美元天价!为什么时装精都想买她的同款?

家居要闻

极简无界 静居自安然

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版