![]()
当前主流大模型都走在MoE混合专家模型的路径上,不管是GPT-4还是DeepSeek V3,核心思路都是通过稀疏激活让模型“少算一点”,控制计算成本。
![]()
DeepSeek这次跳出了固有思路,指出Transformer架构天生缺少“知识查找”能力。很多像查字典一样简单的事,比如识别“戴安娜,威尔士王妃”这样的命名实体,模型却要动用多层注意力机制“硬算”,效率极低。Engram的设计逻辑很直接,就是把这些局部、固定、重复出现的模式,交给专门的查表模块处理。
MoE负责动态推理和计算,Engram负责静态知识和模式检索。这一发现为稀疏化模型打开了“第二条赛道”,实现从计算稀疏到记忆稀疏的范式跃迁。
![]()
实验数据极具说服力,在参数量和计算量相等的前提下,Engram-27B全面超越传统MoE-27B基线。不仅知识密集型任务提升明显,MMLU提升3分,CMMLU提升4分,推理、代码、数学等领域也涨幅显著,BBH提升5分,HumanEval提升3分,GSM8K提升2.2分。
![]()
这个门控机制会根据任务灵活切换,处理“Alexander the Great”“四大发明”这类固定实体时强烈激活,需要推理时则保持低激活,把主动权交还给Transformer主干。更关键的是,Engram的确定性检索特性适合系统优化,检索索引仅依赖输入token序列,可提前预取、CPU卸载,把巨大的嵌入表存在便宜的内存里,为“更大参数、同等吞吐”提供了工程可行性。
![]()
![]()
全网都在猜测,春节档推出的DeepSeek V4是否会集成Engram。回顾DeepSeek的技术路线,每一代都有标志性创新,V2引入MLA提升推理效率,V3优化MoE实现无损负载均衡。
![]()
DeepSeek的Engram模块不仅解决了大模型的记忆痛点,更开辟了稀疏化的新路径。这场记忆革命将推动大模型架构迭代升级,国产大模型在核心技术领域的突破,也让行业未来发展更具想象力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.