网易首页 > 网易号 > 正文 申请入驻

33页论文引爆AI,圈,DeepSeek,破解,Transformer,软肋

0
分享至



当前主流大模型都走在MoE混合专家模型的路径上,不管是GPT-4还是DeepSeek V3,核心思路都是通过稀疏激活让模型“少算一点”,控制计算成本。



DeepSeek这次跳出了固有思路,指出Transformer架构天生缺少“知识查找”能力。很多像查字典一样简单的事,比如识别“戴安娜,威尔士王妃”这样的命名实体,模型却要动用多层注意力机制“硬算”,效率极低。Engram的设计逻辑很直接,就是把这些局部、固定、重复出现的模式,交给专门的查表模块处理。

MoE负责动态推理和计算,Engram负责静态知识和模式检索。这一发现为稀疏化模型打开了“第二条赛道”,实现从计算稀疏到记忆稀疏的范式跃迁。



实验数据极具说服力,在参数量和计算量相等的前提下,Engram-27B全面超越传统MoE-27B基线。不仅知识密集型任务提升明显,MMLU提升3分,CMMLU提升4分,推理、代码、数学等领域也涨幅显著,BBH提升5分,HumanEval提升3分,GSM8K提升2.2分。



这个门控机制会根据任务灵活切换,处理“Alexander the Great”“四大发明”这类固定实体时强烈激活,需要推理时则保持低激活,把主动权交还给Transformer主干。更关键的是,Engram的确定性检索特性适合系统优化,检索索引仅依赖输入token序列,可提前预取、CPU卸载,把巨大的嵌入表存在便宜的内存里,为“更大参数、同等吞吐”提供了工程可行性。





全网都在猜测,春节档推出的DeepSeek V4是否会集成Engram。回顾DeepSeek的技术路线,每一代都有标志性创新,V2引入MLA提升推理效率,V3优化MoE实现无损负载均衡。



DeepSeek的Engram模块不仅解决了大模型的记忆痛点,更开辟了稀疏化的新路径。这场记忆革命将推动大模型架构迭代升级,国产大模型在核心技术领域的突破,也让行业未来发展更具想象力。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙颖莎迎来绝好消息,王楚钦化身翩翩公子哥,马龙参加米兰时装周

孙颖莎迎来绝好消息,王楚钦化身翩翩公子哥,马龙参加米兰时装周

球盲百小易
2026-01-16 01:09:43
吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

饭小妹说历史
2025-12-16 16:38:39
帮闫学晶撒谎?新疆网2012年发的一篇文章,扯下中戏最后一丝体面

帮闫学晶撒谎?新疆网2012年发的一篇文章,扯下中戏最后一丝体面

八斗小先生
2026-01-14 13:54:37
远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

晓艾故事汇
2025-01-09 22:01:49
北京发布超1.4万亿元重点工程项目清单

北京发布超1.4万亿元重点工程项目清单

新华社
2026-01-15 21:54:18
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
李珊退出,天津排球主要领导均非排球出身!天津输球陈方有责任

李珊退出,天津排球主要领导均非排球出身!天津输球陈方有责任

金毛爱女排
2026-01-16 00:00:07
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

春秋论娱
2025-12-25 07:11:24
全国政协副主席,调研985大学

全国政协副主席,调研985大学

TOP大学来了
2026-01-15 21:39:39
性与命和寿的关系:好命长寿的男人,往往身上有这七种特征

性与命和寿的关系:好命长寿的男人,往往身上有这七种特征

行走的知识库
2025-11-30 11:49:39
检察机关依法分别对刘佳晨、屈振年、李维提起公诉

检察机关依法分别对刘佳晨、屈振年、李维提起公诉

环球网资讯
2026-01-15 16:37:05
78岁退休大爷被儿子送进养老院,捐光378万存款,3个月后儿子大笑

78岁退休大爷被儿子送进养老院,捐光378万存款,3个月后儿子大笑

青青会讲故事
2025-06-26 11:45:03
陪睡陪玩是冰山一角?又一女演员曝内娱潜规则,原来岳云鹏没说谎

陪睡陪玩是冰山一角?又一女演员曝内娱潜规则,原来岳云鹏没说谎

丰谭笔录
2026-01-14 07:05:08
碎三观!重庆一男子和妻妹发生不当关系转账380万,妻子默许了…

碎三观!重庆一男子和妻妹发生不当关系转账380万,妻子默许了…

火山诗话
2026-01-14 09:25:46
浙江多地曝诈骗大案!4种电话别接,一接或亏光积蓄

浙江多地曝诈骗大案!4种电话别接,一接或亏光积蓄

前沿天地
2026-01-15 11:23:08
索尼将退出中国,补偿方案也是值得学习

索尼将退出中国,补偿方案也是值得学习

比尔盖凯
2025-12-18 22:32:52
北京楼市迅雷不及掩耳,西城区待售二手房已由5542套涨至了9236套

北京楼市迅雷不及掩耳,西城区待售二手房已由5542套涨至了9236套

石辰搞笑日常
2026-01-14 02:15:07
孙坚带好朋友袁姗姗西安街头请大家吃烧烤,袁姗姗漂亮又温柔!

孙坚带好朋友袁姗姗西安街头请大家吃烧烤,袁姗姗漂亮又温柔!

动物奇奇怪怪
2026-01-15 14:43:06
-6℃!浙江迎来雨夹雪、雪

-6℃!浙江迎来雨夹雪、雪

台州交通广播
2026-01-15 17:24:37
“坚决反对像Tarriela这样的人,不管他找多少帮手——1个、10个还是100个,中方随时奉陪,而且奉陪到底”

“坚决反对像Tarriela这样的人,不管他找多少帮手——1个、10个还是100个,中方随时奉陪,而且奉陪到底”

新京报政事儿
2026-01-13 11:31:36
2026-01-16 04:32:49
生活的哲学
生活的哲学
世界风云变幻,深蓝航迹中的生活哲学你get了吗?
198文章数 135关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

时尚
亲子
手机
游戏
军事航空

年度最扎心电影,看得中年男女坐立难安

亲子要闻

爸爸妈妈必备的问题答案——这个世界没有鬼!因为孩子的认知和心理承受力太小了

手机要闻

三星手机屏幕防窥设计曝光,Galaxy AI基础功能永久免费

任天堂股价暴跌!为何索尼未收影响?专家分析来了

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版