网易首页 > 网易号 > 正文 申请入驻

早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

0
分享至


新智元报道

编辑:LRST

【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用token索引的embedding表直接读取记忆,彻底解耦记忆容量与计算开销。

近年来,随着大模型规模与知识密度的持续爆发,研究人员开始重新审视一个底层问题:模型的参数究竟该如何组织,才能最高效地承担「记忆」的功能?

在传统的Transformer架构中,前馈神经网络(FFN)的知识通常隐式地埋藏在up-projection等密集矩阵内 。这种通过输入进行动态激活的矩阵乘法,虽然保证了表达能力,却在参数的可寻址性、后期可编辑性以及系统计算效率上存在着天然的局限 。

为了突破这一瓶颈,学术界和工业界逐渐转向更离散、更结构化的参数组织路径

近期DeepSeek推出的engram机制成功引爆了业内对「查表式记忆(lookup-based memory)」的关注 。但令人瞩目的是,早于engram问世约三个月前,一篇入选 ICLR 的论文就已经对该方向进行了极其系统的探索 。


项目主页: https://infini-ai-lab.github.io/STEM/

与传统的混合专家模型(MoE)在现有稀疏路由上做修补不同,STEM(Scaling Transformers with Embedding Modules)选择直接对 FFN 结构「动刀」:它摒弃了动态运行时的路由机制,将 up-projection 替换为按token索引的层级 embedding 表,以一种纯静态的方式重构了 Transformer 的记忆访问路径 。

从「算地址」到「查地址」

如果用「键值对记忆(key-value memory)」的视角来审视标准 Transformer,像 SwiGLU 这样的 FFN 结构,本质上是通过一次 up-projection 将输入映射到高维空间,从而生成一个能被 gate 调制的「地址向量」 。这一过程极其依赖输入相关的密集矩阵乘法,不仅计算昂贵,而且参数高度耦合 。

STEM 团队提出了一个灵魂拷问:如果 FFN 的核心作用只是「按token访问记忆」,我们真的需要每次都动态计算这些地址向量吗?

基于此,STEM给出了一种极致简单直接的解法:

  • 彻底移除up-projection,不再动态计算地址向量 。

  • 为模型的每一层单独维护一个按token索引的embedding表

  • 在前向传播时,直接根据token id 「查表」,提取对应的静态向量 作为原先的 。

  • 完整保留gate与down-projection模块,用于对查表得到的向量进行上下文的压缩与调制 。

这一看似轻量的模块替换,实现了一个极其本质的架构跨越:模型的「记忆容量」终于与「单token的计算量」实现了彻底解耦


连锁效应

四大维度的全面跃升

虽然仅仅替换了FFN的一个子模块,STEM 却在实验中展现出了惊人的全方位优势 :

1. 即插即用的「知识编辑」

这是STEM最硬核的特性之一 。因为每一层的embedding都与特定token id强绑定,研究人员甚至不需要重新训练,只需替换特定token的STEM向量,就能直接修改模型输出的事实 。

例如,仅通过互换「Spain」与「Germany」的向量,模型在回答首都问题时就会发生相应的改变 。这为未来的模型内部机制理解与知识编辑打开了全新大门 。


2. 训练极度稳定(告别动态路由的烦恼)

与依赖运行时路由的MoE不同,STEM是一种静态稀疏架构 。由于每个token在每一层访问的 embedding 都是恒定确定的,它完美避开了MoE训练中令人头疼的负载倾斜(load skew)和损失突刺(loss spike)问题,且不需要任何all-to-all通信 。


3. 更宽广的「记忆空间」

从几何空间分布来看,STEM 的 embedding 表展现出了更大的角度散布(large angular spread) 。这意味着不同token 的向量更趋近于正交,大幅减少了参数间的相互干扰(cross-talk) 。在同等算力下,模型能塞下更多「可寻址的记忆槽位」 。

4. 计算与I/O双重减负

砍掉up-projection后,每一层都能省下庞大的矩阵乘法开销(约级别) 。更妙的是,庞大的embedding表完全可以离载(offload)到 CPU 内存中,配合异步预取(prefetch)和缓存策略高效运行 。

实验与落地

长上下文表现亮眼

团队在350M和1B规模的模型上对 STEM 进行了严密的消融实验 。数据表明,STEM 相比于 dense 架构基线,整体平均性能提升了约3–4%,在部分知识密集型任务上,提升幅度甚至飙升至9–10% 。特别是在大海捞针(Needle-in-a-Haystack)和LongBench等长文本评测中,上下文越长,STEM的优势就越显著。

对于工程落地,论文也给出了避坑指南:

  • 替换讲究位置:核心在于替换up-projection,如果盲目替换gate-projection,反而会破坏模型的上下文调制能力 。

  • 优化存储与显存:embedding表可放在CPU,但在训练时需注意将梯度写回对应的优化器状态 。在追求极致性价比时,还可以采用「部分层替换」或混合变体策略来平衡显存压力 。


结语

STEM架构向我们清晰地传达了一个信号:在无脑堆叠算力和参数量之外,通过巧妙重构参数的「组织方式」,我们依然能够榨取巨大的性能红利。 在当前基座大模型越发庞大复杂的语境下,STEM这种简洁、优雅且工程友好的设计,无疑是下一代模型演进路线上的一座重要灯塔

作者介绍

论文第一作者Ranajoy Sadhukhan为卡内基梅隆大学(CMU)InfiniAI Lab 博士生,师从陈贝迪教授。该工作完成于其在 Meta AI 实习期间,实习导师包括刘泽春、曹晟(Rick Cao)与田渊栋等研究人员。

InfiniAI Lab 由陈贝迪教授创立,致力于模型、系统与硬件协同设计,研究高效且可扩展的 AI 算法与系统,重点方向包括长上下文多模态建模、突破传统 scaling laws 的新一代模型架构,以及基础模型的理解与推理能力增强,同时推动算法与系统层面的效率优化,以促进 AI 技术的普及化。

刘泽春为Meta AI 研究科学家,研究方向涵盖基座模型训练,大模型压缩、稀疏化与端侧部署优化,专注于模型高效推理与系统协同设计。

曹晟(Rick Cao)为 Meta AI 研究员,主要研究大模型系统优化与高效推理架构设计,关注大规模模型在真实系统环境中的部署与加速问题。

田渊栋为 Meta AI 资深研究科学家,长期从事强化学习与大模型研究,曾参与 AlphaZero 等强化学习系统研发,并关注基础模型的推理与决策能力。

参考资料:

https://infini-ai-lab.github.io/STEM/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
半个世纪后,人类终于绕回月亮背后,顺手拍了几张绝版壁纸

半个世纪后,人类终于绕回月亮背后,顺手拍了几张绝版壁纸

果壳
2026-04-08 16:12:00
三星S26砍了3个按键,这家深圳公司用59美元补上了

三星S26砍了3个按键,这家深圳公司用59美元补上了

硬核玩家2哈
2026-04-09 17:16:03
附加赛赛程官宣!时间好赶啊!

附加赛赛程官宣!时间好赶啊!

柚子说球
2026-04-09 18:05:27
伊朗总统:停火是伊朗民众共同努力的结果

伊朗总统:停火是伊朗民众共同努力的结果

新京报
2026-04-08 18:30:07
一女子在从牙买加飞往纽约的航班上诞下新生儿,婴儿国籍引关注

一女子在从牙买加飞往纽约的航班上诞下新生儿,婴儿国籍引关注

看尽人间百态
2026-04-08 08:53:13
哈佛40年研究道出的养生真相:决定人一生健康的,是这几个小习惯

哈佛40年研究道出的养生真相:决定人一生健康的,是这几个小习惯

千秋文化
2026-04-07 19:41:39
油价大降超16.4%,汽柴油大降670元/吨,下次4月21日调价变下跌中

油价大降超16.4%,汽柴油大降670元/吨,下次4月21日调价变下跌中

猪友巴巴
2026-04-09 14:10:16
武汉急降暴雨冰雹,城区道路成河,有树木倒伏阻住道路;当地官方:未来仍会有强对流天气

武汉急降暴雨冰雹,城区道路成河,有树木倒伏阻住道路;当地官方:未来仍会有强对流天气

大风新闻
2026-04-09 17:17:02
陈丽华当年与赵本山聚餐时被演员敬酒,果然都是圈内的大佬

陈丽华当年与赵本山聚餐时被演员敬酒,果然都是圈内的大佬

喜欢历史的阿繁
2026-04-09 17:00:57
1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

1977年,李敏见到失散多年的亲姐杨月花,杨月花却向李敏提一要求

磊子讲史
2025-12-23 20:04:20
猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

蜉蝣说
2026-02-23 21:23:05
快讯!台“民众党主席”黄国昌发表声明了!

快讯!台“民众党主席”黄国昌发表声明了!

达文西看世界
2026-04-09 09:46:31
这绝对是地铁上见过最绝的女人

这绝对是地铁上见过最绝的女人

草莓解说体育
2026-04-09 17:33:48
原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

原来真的会“吓不长”!那些童年被吓到崩溃的孩子,后来都怎样了

日落于西
2026-03-20 12:23:08
以军:打死了纳伊姆·卡西姆

以军:打死了纳伊姆·卡西姆

澎湃新闻
2026-04-09 17:09:09
陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

汪镛的创业之路
2026-04-09 16:18:14
建国后粟裕为何仕途不顺?陈赓:没办法,不受欢迎的2种人他都占

建国后粟裕为何仕途不顺?陈赓:没办法,不受欢迎的2种人他都占

兴趣知识
2026-04-09 15:27:48
西部最新局势:雷霆锁常规赛冠军+5队定排名 掘金湖人火箭争第三

西部最新局势:雷霆锁常规赛冠军+5队定排名 掘金湖人火箭争第三

醉卧浮生
2026-04-09 13:05:29
孙杨一家5口同住杭州大平层,首次公开孩子,父母十分疼爱儿媳妇

孙杨一家5口同住杭州大平层,首次公开孩子,父母十分疼爱儿媳妇

椰黄娱乐
2026-04-09 15:26:09
骑士险胜!哈登21+5+4,赛后哈登直接走向通道,米切尔留在场内

骑士险胜!哈登21+5+4,赛后哈登直接走向通道,米切尔留在场内

担酒
2026-04-09 09:40:39
2026-04-09 18:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14933文章数 66756关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

一群人闯进女子刚买的新房砸了两面墙 物业称出于好心

头条要闻

一群人闯进女子刚买的新房砸了两面墙 物业称出于好心

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火首日,霍尔木兹仅有4艘船通过

汽车要闻

文飞的回归 给神行者带来什么?

态度原创

健康
教育
本地
家居
房产

干细胞抗衰4大误区,90%的人都中招

教育要闻

被严重低估!全市唯一有招生代码的公办高中国际部

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

清新自然 复古风尚

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

无障碍浏览 进入关怀版