网易首页 > 网易号 > 正文 申请入驻

DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

0
分享至

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。


此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝克汉姆14岁女儿家庭风波首发声:大布被曝,声称只想和妹妹联系

贝克汉姆14岁女儿家庭风波首发声:大布被曝,声称只想和妹妹联系

老吴教育课堂
2026-01-27 09:07:03
亚历克斯・霍诺德徒手登顶台北101,坦言金属龙形装饰最令人恐惧

亚历克斯・霍诺德徒手登顶台北101,坦言金属龙形装饰最令人恐惧

译言
2026-01-27 13:28:15
目标库明加!Sidery:湖人近期向勇士提供了一份3换1交易方案

目标库明加!Sidery:湖人近期向勇士提供了一份3换1交易方案

移动挡拆
2026-01-27 06:43:26
原来她早已离世,一巴掌带火一部剧,却因角色一生未嫁,无儿无女

原来她早已离世,一巴掌带火一部剧,却因角色一生未嫁,无儿无女

小熊侃史
2026-01-27 07:30:05
宋喆近况曝光,隐居县城太落魄,判若两人,前妻杨慧已过上新生活

宋喆近况曝光,隐居县城太落魄,判若两人,前妻杨慧已过上新生活

老范谈史
2026-01-26 17:52:00
吉米·怀特评历史最佳:奥沙利文第一,亨得利上榜

吉米·怀特评历史最佳:奥沙利文第一,亨得利上榜

野蔷薇观察所
2026-01-26 16:50:24
172:199,日本选举杀出黑马,新首相浮现?对华态度成最大看点

172:199,日本选举杀出黑马,新首相浮现?对华态度成最大看点

面包夹知识
2026-01-27 11:45:52
中年人最佳抗衰老方式——练肌肉,3个方法提升肌肉量!

中年人最佳抗衰老方式——练肌肉,3个方法提升肌肉量!

增肌减脂
2025-11-30 18:15:06
高志凯翻出一张1946年的盟军最高司令部训令677号,日本炸锅

高志凯翻出一张1946年的盟军最高司令部训令677号,日本炸锅

扶苏聊历史
2026-01-08 18:19:48
1,654,042!徐杰蝉联CBA全明星总票王!

1,654,042!徐杰蝉联CBA全明星总票王!

广东华南虎
2026-01-27 17:59:20
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
特朗普暴跳如雷!英国专家:一种情况下,美国对中国将发起核打击

特朗普暴跳如雷!英国专家:一种情况下,美国对中国将发起核打击

现代小青青慕慕
2026-01-27 18:15:38
交易所紧急出手“降温”!有色金属“高烧”不退,谁是终极推手?

交易所紧急出手“降温”!有色金属“高烧”不退,谁是终极推手?

坠入二次元的海洋
2026-01-27 15:49:49
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
乌克兰4枚火烈鸟导弹击中俄军战机工厂!德国呼吁提供金牛座

乌克兰4枚火烈鸟导弹击中俄军战机工厂!德国呼吁提供金牛座

项鹏飞
2026-01-26 18:22:29
A股:刚刚,中央一部委发布,释放两个信号,周三将出现新的变数

A股:刚刚,中央一部委发布,释放两个信号,周三将出现新的变数

李健政观察
2026-01-27 17:06:29
房产证写谁的名字无意义,1月以后都已不重要?这4条才是分房关键

房产证写谁的名字无意义,1月以后都已不重要?这4条才是分房关键

复转这些年
2026-01-24 23:58:08
局部积雪可达12厘米!河南“掉雪窝了”,周四起全省有雨雪

局部积雪可达12厘米!河南“掉雪窝了”,周四起全省有雨雪

大象新闻
2026-01-27 12:57:04
北京局地将再飘雪,具体时间——

北京局地将再飘雪,具体时间——

首都之窗
2026-01-27 17:09:21
农村怪象升级!村干部坦言:比“光棍”更棘手的5个问题来了

农村怪象升级!村干部坦言:比“光棍”更棘手的5个问题来了

社会日日鲜
2026-01-24 08:12:23
2026-01-27 18:51:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
242699文章数 621331关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

在盒马买鲜百合被误送成水仙球 祖孙二人误食中毒送医

头条要闻

在盒马买鲜百合被误送成水仙球 祖孙二人误食中毒送医

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

本地
艺术
旅游
数码
时尚

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

艺术要闻

日本东京国立博物馆中的100幅宋画

旅游要闻

江西新余:梅开俏枝头 梅香绕古村

数码要闻

用DDR4内存装机省大钱,电源选择有讲究

降温了!羽绒服这样穿显瘦又时髦

无障碍浏览 进入关怀版