网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块

0
分享至

继2024年底发布一篇新论文后,1月12日晚间,DeepSeek再度发布重磅研究成果,此次论文聚焦大模型的条件记忆模块。DeepSeek在结论中明确指出,这一模块将成为下一代稀疏大模型中不可或缺的核心建模原语。结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测,近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图。


此次发布的论文题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),由DeepSeek与北京大学联合完成,DeepSeek创始人梁文锋亦位列作者名单。论文的核心洞察在于,大模型实际承担着两类性质迥异的任务:一类是需深度动态计算的组合推理任务,另一类是静态知识的检索任务。而现有Transformer架构缺乏原生知识查找机制,只能通过低效计算模拟检索过程——例如在调用固定知识时,模型仍需耗费算力重复推导,既耗时又占用资源。

为破解这一痛点,DeepSeek团队提出将条件记忆作为补充的稀疏性维度,并通过名为Engram的条件记忆模块实现这一构想,以此优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。团队还发现了“U型缩放定律”,该定律表明,在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型。值得关注的是,尽管记忆模块的设计初衷是提升知识检索效率,但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升。

通俗而言,当前MoE模型采用统一机制处理推理与固定知识存储两类任务,存在效率低下、算力浪费等问题。此次论文的核心价值在于为大模型实现“分工优化”:通过专属模块各司其职——由“记忆本”式的Engram模块负责固定知识存储,推理模块专注复杂思考,再通过最优比例分配资源,最终实现模型效率与性能的双重提升。DeepSeek在论文中强调,条件记忆将成为下一代稀疏模型的核心建模原语,这也让行业进一步猜测,该技术或正是DeepSeek V4模型的核心技术架构。

此前已有报道称,DeepSeek计划于2月发布新一代旗舰模型V4,内部初步测试显示,其编程能力已超越市场现有顶级模型。不过DeepSeek尚未对此消息作出回应,且报道提及发布计划可能根据实际情况调整。自2024年底发布V3模型后,DeepSeek的下一代旗舰模型便备受行业关注;去年底推出的V3.2小版本更新,曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro。业内普遍认为,V4模型的正式推出有望成为行业焦点事件。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新款宝马3系/i3/X3上市 售25.8-39.8万元

新款宝马3系/i3/X3上市 售25.8-39.8万元

车质网
2026-01-23 13:14:08
俄罗斯遭遇重大袭击!乌军首次使用火烈鸟巡航导弹!可覆盖莫斯科

俄罗斯遭遇重大袭击!乌军首次使用火烈鸟巡航导弹!可覆盖莫斯科

番茄说史聊
2026-01-22 09:53:30
陈亭妃、柯建铭、蔡英文纷纷跳出来!赖清德党内领导受挑战

陈亭妃、柯建铭、蔡英文纷纷跳出来!赖清德党内领导受挑战

金牛传音
2026-01-24 10:32:24
马斯克自称是外星人混进人类潜伏地球

马斯克自称是外星人混进人类潜伏地球

界面新闻
2026-01-23 16:46:04
中国队面临抉择!主力前锋4选2:拜合拉木5场0球,决赛或上向余望

中国队面临抉择!主力前锋4选2:拜合拉木5场0球,决赛或上向余望

球场没跑道
2026-01-23 15:13:08
澳网,中国莎娃淘汰大满贯冠军,排名126选手爆冷前十大种子

澳网,中国莎娃淘汰大满贯冠军,排名126选手爆冷前十大种子

五姑娘台球
2026-01-24 11:02:32
泰王真会玩:20位妃嫔被军事化编号,方便角色扮演,陪伴目的不同

泰王真会玩:20位妃嫔被军事化编号,方便角色扮演,陪伴目的不同

毒舌小红帽
2026-01-16 18:07:27
“最全布达拉宫内部照片”惊艳世界,一般人不给看!

“最全布达拉宫内部照片”惊艳世界,一般人不给看!

谭老师地理大课堂
2026-01-20 22:18:01
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
字节跳动的工资待遇,绝对是普通人的天花板…

字节跳动的工资待遇,绝对是普通人的天花板…

慧翔百科
2025-07-30 09:15:56
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
官媒发文,赵心童再破天花板,让罗伯逊和所有台球名将“沉默”了

官媒发文,赵心童再破天花板,让罗伯逊和所有台球名将“沉默”了

璀璨幻行者
2026-01-23 18:19:35
张柏芝小儿子机场露面,荒唐的一幕出现,还是为生父成谜付出代价

张柏芝小儿子机场露面,荒唐的一幕出现,还是为生父成谜付出代价

史行途
2026-01-23 19:15:24
快船没让湖人逆转,哈登:没我这家得散

快船没让湖人逆转,哈登:没我这家得散

张佳玮写字的地方
2026-01-23 14:24:53
合肥公司造出了比“光刻机”还要贵的大国重器,直接碾压日本货

合肥公司造出了比“光刻机”还要贵的大国重器,直接碾压日本货

我心纵横天地间
2026-01-23 18:15:26
北京动物园多只猴子冻得瑟瑟发抖,依偎在一起抱团取暖!工作人员:猴山有洞穴和高热量食物保障过冬

北京动物园多只猴子冻得瑟瑟发抖,依偎在一起抱团取暖!工作人员:猴山有洞穴和高热量食物保障过冬

台州交通广播
2026-01-21 21:38:27
他一生传奇,却信了子午谷奇谋,后全军覆没,自己被凌迟处死

他一生传奇,却信了子午谷奇谋,后全军覆没,自己被凌迟处死

长风文史
2026-01-09 13:34:08
新款宝马i3上市且全系降价!售价27.8万起,轴距近3米,续航625Km

新款宝马i3上市且全系降价!售价27.8万起,轴距近3米,续航625Km

小史谈车
2026-01-24 11:00:03
整天开会有啥必要啊?

整天开会有啥必要啊?

北京老付
2026-01-20 10:59:33
白雨露4比0吴安仪,夺得WSF女子锦标赛冠军,首次登顶女子世界第一

白雨露4比0吴安仪,夺得WSF女子锦标赛冠军,首次登顶女子世界第一

刘哥谈体育
2026-01-24 09:39:01
2026-01-24 11:44:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 545779关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

专家:特朗普或在春天访问中国 其被认为是"对华鸽派"

头条要闻

专家:特朗普或在春天访问中国 其被认为是"对华鸽派"

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

售75.58万元,新款大众途锐3.0TSI锐臻版上市

态度原创

游戏
教育
亲子
房产
旅游

硬刚DEI!独立游戏《骑士之路》在国外突然火了

教育要闻

瓜豆原理求路径长,一个视频学会!

亲子要闻

马年必入!4款亲子好物玩出年味与知识,承包孩子寒假快乐

房产要闻

正式官宣!三亚又一所名校要来了!

旅游要闻

各地以冰雪为“媒”打造“冰雪+”新场景 多元业态解锁文旅新玩法

无障碍浏览 进入关怀版