网易首页 > 网易号 > 正文 申请入驻

ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer记忆

0
分享至



近年来,随着大语言模型规模与知识密度不断提升,研究者开始重新思考一个更本质的问题:模型中的参数应如何被组织,才能更高效地充当「记忆」。

在标准 Transformer 的 FFN 中,知识主要隐式存储在 up-projection 等密集矩阵里,并通过输入相关的矩阵乘法被动态激活,这种方式在表达力上有效,但在参数可寻址性、可编辑性与系统效率上存在天然限制。

围绕这一问题,学术界与工业界逐渐将目光投向更离散、更结构化的参数组织方式。以 DeepSeek 提出的 engram 为代表,近期多项工作重新唤起了对「查表式记忆(lookup-based memory)」的关注。而有意思的是,在 engram 发布之前约三个月,这篇 ICLR paper 也在这一方向进行系统探索 。



  • 论文链接:https://arxiv.org/pdf/2601.10639
  • 项目主页:https://infini-ai-lab.github.io/STEM/

与 MoE 相关工作不同,STEM 并非在现有稀疏路由框架上做局部改进,而是直接从 FFN 结构入手,将 up-projection 替换为按 token 索引的层级 embedding 表,以一种静态、无运行时路由的方式重构 Transformer 中「记忆」的访问路径。

从「算地址」到「查地址」:STEM 的核心直觉

如果从 key-value memory view 来看标准 Transformer,SwiGLU 等 FFN 结构通常通过一次 up-projection,将输入表示映射到高维空间,生成可被 gate 调制的「地址向量」。

这一过程本质上是输入相关的密集矩阵乘法,既昂贵,又在参数层面高度耦合。

STEM 的关键洞察在于:如果 FFN 的作用更接近于「按 token 访问记忆」,那么这些地址向量是否真的需要由输入动态生成?

基于这一问题,STEM 选择了一条极为直接的路径:不再通过 up-projection 计算地址向量,而是为每一层维护一个按 token 索引的 embedding 表,在前向传播时直接根据 token id 查表获取对应向量。





gate 与 down-projection 则被完整保留,用于对查表得到的向量进行上下文调制与压缩。

这一替换,使 FFN 的结构发生了一个本质变化:「记忆容量」第一次与「每 token 计算量」被明确解耦。

结构变化虽小,却带来一系列连锁效应

尽管 STEM 只替换了 FFN 中的一个子模块,但实验结果表明,这一设计在多个维度上产生了显著影响。

1. 可编辑性:直接修改「知识向量」

STEM 的一个尤为引人注目的特性,是其显式的 token–参数对应关系。



由于每一层的 embedding 都直接与 token id 绑定,研究者可以在不进行再训练的情况下,直接替换某个 token 的 STEM 向量,从而改变模型在相关事实上的输出行为。比如图中例子展示仅通过替换「Spain」与「Germany」的向量,就可以使模型对首都问题的回答发生对应变化。

这一能力为模型的知识编辑、和对模型的理解提供了一种新思路。

2. 训练稳定性:静态稀疏优于动态路由

与 MoE 等依赖运行时路由的方案不同,STEM 属于一种静态稀疏结构:每个 token 在每一层所访问的 embedding 是确定的,不涉及负载均衡或 all-to-all 通信。这种设计避免了 MoE 中常见的 load skew 与 loss spike 问题。



3. 更高效的「记忆空间」:embedding 几何结构的改变

从表示空间的角度看,用 token-indexed embedding 替代 up-projection,会显著改变 FFN 输入向量的几何分布。STEM 中的 embedding 表呈现出更大的角度散布(large angular spread),不同 token 的向量更加接近正交,从而有效减少了参数之间的相互干扰(cross-talk)。

这一性质意味着,在相同甚至更低的计算成本下,模型能够维持更多「可寻址的记忆槽位」,对知识存储和检索尤为有利。

4. 计算与系统效率:FLOPs 与 IO 的双重下降

从计算复杂度上看,移除 up-projection 后,每一层可节省约 d⋅d_ff 级别的矩阵乘法开销。更重要的是,大规模的 embedding 表可以被离载到 CPU,并通过异步 prefetch 与缓存策略进行访问。

实验结果:规模、任务与长上下文的系统验证

在 350M 与 1B 两个模型规模上,STEM 被系统性地与 dense baseline 进行对比。

结果显示:

  • 整体平均性能提升约3–4%,部分知识类任务提升幅度可达9–10%;
  • 在 Needle-in-a-Haystack 与 LongBench 等长上下文评测中,STEM 的优势还会随着上下文长度的增加而扩大。

工程视角:如何真正落地

论文也对 STEM 的系统实现给出了较为完整的讨论:

  • 替换位置:仅替换 up-projection 是关键,盲目替换 gate-projection 会破坏上下文调制能力;
  • 存储策略:embedding 表可 CPU 离载,训练时需要将梯度回写到对应的 optimizer state;
  • 折衷方案:在参数占比与显存压力之间,可采用部分层替换或混合变体进行平衡。

结语

STEM 展示了一种值得关注的趋势:通过改变参数的「组织方式」,而非一味增加规模或计算,模型同样可以获得显著能力提升。

在当前大模型架构逐渐走向复杂化的背景下,这种简洁、稳定且工程友好的设计思路,或许正是下一阶段基座模型演进中不可忽视的一条路径。

作者介绍

本文第一作者 Ranajoy Sadhukhan 为卡内基梅隆大学(CMU)InfiniAI Lab 博士生,师从陈贝迪教授。该工作完成于其在 Meta AI 实习期间,实习导师包括刘泽春、曹晟(Rick Cao)与田渊栋等研究人员。

InfiniAI Lab 由陈贝迪教授创立,致力于模型、系统与硬件协同设计,研究高效且可扩展的 AI 算法与系统,重点方向包括长上下文多模态建模、突破传统 scaling laws 的新一代模型架构,以及基础模型的理解与推理能力增强,同时推动算法与系统层面的效率优化,以促进 AI 技术的普及化。

刘泽春为 Meta AI 研究科学家,研究方向涵盖基座模型训练,大模型压缩、稀疏化与端侧部署优化,专注于模型高效推理与系统协同设计。

曹晟(Rick Cao)为 Meta AI 研究员,主要研究大模型系统优化与高效推理架构设计,关注大规模模型在真实系统环境中的部署与加速问题。

田渊栋为 Meta AI 资深研究科学家,长期从事强化学习与大模型研究,曾参与 AlphaZero 等强化学习系统研发,并关注基础模型的推理与决策能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美共同的两个敌人

中美共同的两个敌人

环球时报国际
2026-05-11 08:42:59
武大“自杀式”声明令人错愕,充分说明新闻学是一门真正有用的学问

武大“自杀式”声明令人错愕,充分说明新闻学是一门真正有用的学问

晓看说
2026-05-10 22:40:59
没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

寰球经纬所
2026-05-10 10:55:10
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
普京称俄乌冲突即将结束

普京称俄乌冲突即将结束

每日经济新闻
2026-05-10 09:23:00
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

体育知多少
2026-05-11 07:22:34
炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

游民星空
2026-05-10 17:44:13
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
世乒赛女团落幕:孙颖莎拿2分,国乒翻盘日本夺冠,马琳现场落泪

世乒赛女团落幕:孙颖莎拿2分,国乒翻盘日本夺冠,马琳现场落泪

侃球熊弟
2026-05-10 21:06:23
男子为泄愤将单身女邻居手机号写在公厕致其频遭骚扰,因诽谤罪一审获缓刑,赔偿5000余元;当事女子:量刑过轻,计划提起上诉

男子为泄愤将单身女邻居手机号写在公厕致其频遭骚扰,因诽谤罪一审获缓刑,赔偿5000余元;当事女子:量刑过轻,计划提起上诉

极目新闻
2026-05-11 07:34:42
上层圈子的潜规则:没人明说,但招招致命

上层圈子的潜规则:没人明说,但招招致命

细说职场
2026-05-10 09:39:27
72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

阿废冷眼观察所
2026-05-10 19:41:35
一特斯拉Model 3服役7年跑了61万公里后,实测续航缩水34.2%

一特斯拉Model 3服役7年跑了61万公里后,实测续航缩水34.2%

IT之家
2026-05-10 21:38:29
特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

新浪财经
2026-05-10 23:49:22
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

迷世书童H9527
2026-05-10 10:10:43
花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

李将平老师
2026-05-10 14:56:19
任正非罕见出镜:华为芯片基础技术研究实验室亮相《新闻联播》

任正非罕见出镜:华为芯片基础技术研究实验室亮相《新闻联播》

IT之家
2026-05-10 22:51:11
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
2026-05-11 09:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

股价一年暴涨160%!谷歌凭什么?

头条要闻

男子将女邻居手机号写在公厕致其频遭骚扰 一审获缓刑

头条要闻

男子将女邻居手机号写在公厕致其频遭骚扰 一审获缓刑

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
旅游
艺术
家居
数码

教育要闻

教育家精神背景下校长的六大意识

旅游要闻

渝见好“村”光|江津三河村:踏青石访古韵 邂逅千年驿路春光

艺术要闻

全国最值得去的八大最美古镇

家居要闻

菁英人居 全能豪宅

数码要闻

Valve老款ZOTAC Steam主机十年后再营业:显存仅3GB 仍能跑通《丝之歌》!

无障碍浏览 进入关怀版