网易首页 > 网易号 > 正文 申请入驻

突发!DeepSeek梁文锋新论文开源,Engram模块亮相V4架构雏形初现

0
分享至



当大模型行业还在为参数规模突破争论不休时,一场关于“效率革命”的变革已悄然来临。2026年初,以技术深耕著称的DeepSeek再度发力,在GitHub开源全新Engram模块及配套论文,梁文锋团队提出的“查—算分离”创新机制,直接打破了传统大模型的架构桎梏。这一技术不仅让模型在同等参数、同等算力下,知识调用、逻辑推理、代码生成等核心任务表现大幅提升,更标志着大模型发展正式告别“盲目堆参数”的粗放模式,迈入“智能分工”的精细化新阶段。对于技术研究者而言,这是架构创新的全新参照;对于行业应用者来说,这意味着大模型落地的成本门槛有望进一步降低,高效普惠的AI应用场景正加速到来。



困局所在:大模型为何总做“无用功”?

现在我们常用的大语言模型,不管是传统的“全参激活”稠密模型,还是主流的混合专家模型(MoE),都藏着一个致命问题:把“记东西”和“算东西”这两件事混在一起做,导致算力被大量浪费。其实我们可以很简单地理解大模型的核心工作:一种是“死记硬背”的事实性记忆,比如回答“法国首都是巴黎”“珠穆朗玛峰是世界最高峰”,本质上就像查字典一样,找到对应的信息就行;另一种是“费脑思考”的逻辑计算,比如找代码里的Bug、理解复杂的哲学观点,这需要模型一层层拆解分析,靠精密的神经网络运算完成。



但在传统架构里,这两个任务被强行绑在一块。想让模型多记点知识?那就得增加参数量。可参数量一涨,稠密模型的计算量就会跟着爆炸,推理成本高得吓人;就算是MoE架构靠“只激活部分专家”解决了“算力随参数暴涨”的问题,DeepSeek的研究也发现,MoE处理“死记硬背”的任务时依然很笨拙。要知道,神经网络的核心是连续的数学变换,用这种高成本的矩阵运算去模拟简单的“查表”,就像用超级计算机算1+1等于几一样,完全是小题大做。更麻烦的是,这种“记算不分”还会让模型出现“记不住、算不准”的问题——长文本对话里丢关键信息、多轮推理中逻辑断链,这些都是大模型落地医疗、金融等垂直领域的拦路虎。

核心解法:Engram给大模型配“专属记忆抽屉”

DeepSeek推出的Engram模块,就是专门来解决“记算不分”这个痛点的。“Engram”这个词源自神经科学,意思是“记忆痕迹”,说白了,这就是给大模型量身定做的“可扩容、快查找的记忆抽屉”。它的核心创新的就是“查—算分离”的双系统设计:让Engram专门管“找记忆”,让原来的MoE专门管“做计算”,两者各司其职、协同配合,彻底告别“用复杂计算代替简单查找”的低效模式。

Engram之所以能快速找到记忆,靠的是“现代化的哈希N-Gram嵌入”技术。用大白话解释就是:它会先把输入的文字切成一段一段的连续词(比如“人工智能”“技术突破”这样的词片段,也就是N-Gram),再通过哈希算法给每个片段分配一个唯一的“地址”,存到一个巨大的可学习查找表里。这种哈希索引的好处特别明显——“确定性且O(1)时间复杂度”,不管这个查找表里存了几万亿个记忆片段,找到目标信息的速度都几乎一样快,而且消耗的算力少得可怜。这就像我们家里的抽屉式收纳,每个物品都有固定的格子,不管收纳柜多大,只要知道格子位置,一拉就找着,不用翻来翻去。

更聪明的是,Engram的记忆不是“死的”,而是“有条件的”。它不是一个简单的静态查找表,而是能根据当前对话的上下文,精准判断该提取哪些记忆。从架构位置来看,Engram模块装在Transformer层的最前面,相当于MoE这些“计算部门”开工前,先由Engram把相关的背景知识、历史对话模式都检索出来,当成“素材”递过去,让后续的计算更有针对性。论文里的实验数据也证明了它的优势:在27B规模的模型中,Engram可以占用大量参数来存记忆,但实际推理时的算力消耗却特别少,参数的利用效率大大提升。



协同增效:Engram与MoE的“分工艺术”

很多人会问:Engram和MoE都是“稀疏技术”,难道不是重复发明吗?其实不然,Engram开辟了和MoE完全不同的“稀疏性新赛道”——MoE是“条件计算”,靠少激活一些专家来减少计算量;Engram是“条件查找”,靠快速检索记忆来避免重复劳动,两者是互补关系,不是替代关系。

从目标、计算方式、优化方向和工作位置四个方面,就能清楚看清它们的分工:MoE的目标是“按需激活神经专家”,用部分密集计算处理深层推理;Engram的目标是“按需触发记忆查找”,用O(1)的快速查表完成早期的模式重建。这种分工让MoE彻底摆脱了“既要计算又要记知识”的沉重负担,能专心搞复杂的逻辑推理;而Engram则专注于高效检索固定知识,避免重复重建已经知道的模式。实验发现,当把20%-25%的稀疏参数分给Engram,剩下的留给MoE时,模型性能最好。比如在32k长上下文的检索任务中,Engram-27B模型的准确率比传统MoE高不少:多查询任务的准确率从84.2%升到了97.0%,变量追踪任务从77.0%升到了89.0%,实打实证明了“分工合作”的优势。



业界热议:从技术认可到V4架构猜想

Engram一开源,就立刻在Reddit、X等技术社区引发了热议。不少网友一眼就看到了它的核心价值:“现在大多数模型都只靠MoE扩展能力,Engram加了静态记忆这个稀疏性补充,O(1)的查找速度太关键了!”有资深开发者评价,这种设计其实是传统NLP技术的“现代化升级”,把高效的寻址机制和神经推理模块结合起来,既可行又实用,落地前景很好。

更让行业关注的是,很多网友都猜测Engram会成为DeepSeek V4模型的核心技术。有Reddit用户分析:“确定性寻址能把嵌入表放到主机内存里,不会增加太多推理开销,这很可能就是V4的关键升级点。”还有网友开玩笑说:“本来打算抄谷歌的技术,现在决定改抄DeepSeek了,因为这个方案更高效、更好用。”甚至有观点认为,给大模型加静态记忆查找是行业发展的“必然趋势”,这标志着整个行业从“比谁的参数多”的内卷,转向了“比谁的架构更智能”的理性竞争。对于普通开发者来说,Engram的O(1)查找机制就算没有GPU也能实现,这让大模型的本地部署变得更现实,进一步降低了AI技术落地的门槛。





结语:大模型高效时代的序幕已拉开

DeepSeek Engram的发布,不只是一次简单的技术突破,更预示着大模型发展的全新方向。当参数竞赛走到尽头,架构创新已经成为提升效率的核心密码。Engram的“查—算分离”机制,让大模型第一次有了“专属记忆库”,实现了记忆与计算的高效协同。这种创新不仅能降低大模型的推理成本,还能提升核心任务的表现,为大模型在企业客服、医疗问诊、代码生成等垂直领域的深度落地扫清了关键障碍。

随着Engram代码和论文的开源,相信会有更多研究者加入到这一架构的创新中来。如果网友的猜测属实,DeepSeek V4采用这一架构,很可能会带来大模型能力的又一次飞跃。未来,大模型的竞争不再是“参数规模的比拼”,而是“架构智能度和效率的较量”,而Engram,无疑已经为这场效率革命拉开了序幕。







特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你是如何意外发现自己生病的?网友:头疼十几年发现是心脏有问题

你是如何意外发现自己生病的?网友:头疼十几年发现是心脏有问题

带你感受人间冷暖
2026-02-11 15:53:14
一个人能无耻到什么地步?网友:十多年了,依然记得她当时的嘴脸

一个人能无耻到什么地步?网友:十多年了,依然记得她当时的嘴脸

另子维爱读史
2025-12-24 17:24:11
白高兴一场!日本赌中方忍让,扣船之后才知,中方没按剧本走!

白高兴一场!日本赌中方忍让,扣船之后才知,中方没按剧本走!

一网打尽全球焦点
2026-02-14 19:21:56
张水华辞职后连续斩获代言!网友:比医院强多了

张水华辞职后连续斩获代言!网友:比医院强多了

梅斯医学
2026-02-16 07:53:38
曼妙的身材:一副会呼吸的建筑

曼妙的身材:一副会呼吸的建筑

疾跑的小蜗牛
2026-01-20 22:35:32
13岁体操冠军傅佳丽被虐待导致跳楼 央媒跟进:2名涉事教练被立案

13岁体操冠军傅佳丽被虐待导致跳楼 央媒跟进:2名涉事教练被立案

做一个合格的吃瓜群众
2026-02-13 10:27:49
4-0!1.2亿巨星轮休,埃泽助攻梅开二度,阿森纳主场大胜晋级

4-0!1.2亿巨星轮休,埃泽助攻梅开二度,阿森纳主场大胜晋级

我的护球最独特
2026-02-16 02:24:31
高市早苗对俄强硬,俄方24小时内反击堵死日本后路

高市早苗对俄强硬,俄方24小时内反击堵死日本后路

瓦伦西亚月亮
2026-02-15 08:21:22
小米,开始整活了

小米,开始整活了

放毒
2026-02-15 18:29:07
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
哈登爽了!你好,DPOY!骑士四巨头即将合体

哈登爽了!你好,DPOY!骑士四巨头即将合体

篮球实战宝典
2026-02-15 17:39:57
罗恩-哈珀:我不是詹姆斯 没指望两个孩子都进全明星

罗恩-哈珀:我不是詹姆斯 没指望两个孩子都进全明星

北青网-北京青年报
2026-02-15 15:04:05
90岁美国心理专家临终告诫:真正折磨你的,是你自己

90岁美国心理专家临终告诫:真正折磨你的,是你自己

青苹果sht
2026-02-12 07:01:01
科学家立大功!中科大解决“固态电池”量产难题,成本可降20倍

科学家立大功!中科大解决“固态电池”量产难题,成本可降20倍

胖福的小木屋
2026-02-15 21:44:47
微信出现这条杠,说明你已被好友删除

微信出现这条杠,说明你已被好友删除

侃故事的阿庆
2026-02-14 17:01:56
奔驰也顶不住了!中国区业绩崩盘,首位中国籍CEO黯然离任!

奔驰也顶不住了!中国区业绩崩盘,首位中国籍CEO黯然离任!

i王石头
2026-02-15 23:29:03
澡堂女师傅穿三角裤连轴转,这画面不香艳,全是拿命换钱的残忍。

澡堂女师傅穿三角裤连轴转,这画面不香艳,全是拿命换钱的残忍。

小鹿姐姐情感说
2026-02-13 11:32:19
闹洞房时新娘国泰民安脸走红,会撒娇给足新郎面子,网友:捡到宝

闹洞房时新娘国泰民安脸走红,会撒娇给足新郎面子,网友:捡到宝

梅子的小情绪
2026-01-22 15:13:36
美军宣布:发动空袭

美军宣布:发动空袭

中国基金报
2026-02-15 16:10:23
几百名医生提醒:晨起喝温水对心脑血管的影响,建议抽1分钟看看

几百名医生提醒:晨起喝温水对心脑血管的影响,建议抽1分钟看看

刘哥谈体育
2026-02-14 18:29:44
2026-02-16 08:47:00
魏家东 incentive-icons
魏家东
一个人的营销商学院!
2371文章数 12184关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw,承诺开源绝不动摇

头条要闻

王菲将六登春晚 还未开唱歌曲已经火了

头条要闻

王菲将六登春晚 还未开唱歌曲已经火了

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

手机
亲子
数码
家居
公开课

手机要闻

开山鼻祖归来!荣耀Magic9将回归LOFIC技术

亲子要闻

“压岁钱”应该什么时候给?

数码要闻

盲测显示:音频发烧友无法分辨铜线、香蕉与湿泥传输的音频信号

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版