33页论文引爆AI，圈，DeepSeek，破解，Transformer，软肋|推理|索引|大模型|新论文|deepseek|transformer

33页论文引爆AI，圈，DeepSeek，破解，Transformer，软肋

2026-01-15 16:17:35　来源: 生活的哲学

四川举报

分享至

当前主流大模型都走在MoE混合专家模型的路径上，不管是GPT-4还是DeepSeek V3，核心思路都是通过稀疏激活让模型“少算一点”，控制计算成本。

DeepSeek这次跳出了固有思路，指出Transformer架构天生缺少“知识查找”能力。很多像查字典一样简单的事，比如识别“戴安娜，威尔士王妃”这样的命名实体，模型却要动用多层注意力机制“硬算”，效率极低。Engram的设计逻辑很直接，就是把这些局部、固定、重复出现的模式，交给专门的查表模块处理。

MoE负责动态推理和计算，Engram负责静态知识和模式检索。这一发现为稀疏化模型打开了“第二条赛道”，实现从计算稀疏到记忆稀疏的范式跃迁。

实验数据极具说服力，在参数量和计算量相等的前提下，Engram-27B全面超越传统MoE-27B基线。不仅知识密集型任务提升明显，MMLU提升3分，CMMLU提升4分，推理、代码、数学等领域也涨幅显著，BBH提升5分，HumanEval提升3分，GSM8K提升2.2分。

这个门控机制会根据任务灵活切换，处理“Alexander the Great”“四大发明”这类固定实体时强烈激活，需要推理时则保持低激活，把主动权交还给Transformer主干。更关键的是，Engram的确定性检索特性适合系统优化，检索索引仅依赖输入token序列，可提前预取、CPU卸载，把巨大的嵌入表存在便宜的内存里，为“更大参数、同等吞吐”提供了工程可行性。

全网都在猜测，春节档推出的DeepSeek V4是否会集成Engram。回顾DeepSeek的技术路线，每一代都有标志性创新，V2引入MLA提升推理效率，V3优化MoE实现无损负载均衡。

DeepSeek的Engram模块不仅解决了大模型的记忆痛点，更开辟了稀疏化的新路径。这场记忆革命将推动大模型架构迭代升级，国产大模型在核心技术领域的突破，也让行业未来发展更具想象力。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.