网易首页 > 网易号 > 正文 申请入驻

上海AI Lab最新推出Mixture-of-Memories:线性注意力有稀疏记忆

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

回顾 AGI 的爆发,从最初的 pre-training (model/data) scaling,到 post-training (SFT/RLHF) scaling,再到 reasoning (RL) scaling,找到正确的 scaling 维度始终是问题的本质。2017 年发布的 Transformer 架构沿用至今,离不开 Transformer 强大的 “无损记忆” 能力,当然也需要付出巨大的 KV 缓存代价。换句话说,Transformer 架构具有强大的 memory scaling 能力。

DeepSeek NSA 通过三种方式压缩 “KV” 实现 sparse attention,但这只是一种可以工作但不优雅的折中方案。因为它在压缩 Transfromer 的记忆能力,以换取效率。

另一方面,大概从 2023 年火到今天的线性序列建模方法(包括 linear attention 类,Mamba 系列,RWKV 系列)则是另一个极端,只维护一份固定大小 dxd 的 RNN memory state,然后加 gate,改更新规则,但这种方式始终面临较低的性能上限,所以才会有各种混合架构的同样可以工作但不优雅的折中方案。

我们认为,未来的模型架构一定具有两点特性:强大的 memory scaling 能力 + 关于序列长度的低复杂度。后者可以通过高效注意力机制实现,比如:linear 或者 sparse attention,是实现长序列建模的必备性质。而前者仍然是一个有待探索的重要课题,我们把给出的方案称为 “sparse memory”。

这促使我们设计了MoM: Mixture-of-Memories,它让我们从目前主流线性序列建模方法改 gate 和 RNN 更新规则的套路中跳脱出来,稀疏且无限制地扩大 memory 大小。MoM 通过 router 分发 token(灵感来自 MoE)维护多个 KV memory,实现 memory 维度 scaling。每个 memory 又可以进行 RNN-style 计算,所以整体具有关于序列长度线性的训练复杂度,推理又是常数级复杂度。此外,我们又设计了 shared memory 和 local memory 合作分别处理全局和局部信息。实验表现相当惊艳,尤其是在目前 linear 类方法效果不好的 recall-instensive 任务上表现格外好,甚至在 1.3B 模型上已经和 Transformer 架构旗鼓相当。

  • 论文地址:https://arxiv.org/abs/2502.13685
  • 代码地址:https://github.com/OpenSparseLLMs/MoM
  • 未来还会集成在:https://github.com/OpenSparseLLMs/Linear-MoE
  • 模型权重开源在:https://huggingface.co/linear-moe-hub

方法细节

Linear Recurrent Memory

对于这部分内容,熟悉线性序列建模的小伙伴可以跳过了。

(各种方法本身有不同的符号,像 Mamba, HGRN 就不用 q k v,这里为了统一对比全部对标到 linear attention 形式。其中Titans的形式,把 memory update rule 看作 optimzier update 的话,最核心的还是 SGD 形式,暂时忽略momentum/weight decay ,只一个公式表达的话写成这种梯度更新的形式是合理的。)

其实这些方法又可以进一步细分为不同类别(很多地方都粗略的统一称为 linear RNN 或者 RNN),这里论文暂时没提:

  • Linear Attention, Lightning Attention, RetNet, GLA, DeltaNet, Gated DeltaNet 属于 linear attention 类
  • Mamba2 属于 SSM 类,HGRN2 属于 linear RNN 类
  • TTT, Titans 属于 Test-Time Training 类

Mixture-of-Memories

MoM 思路非常简单,和 MoE 一样按照 token 分发,通过 router 为每个 token 选择 topk 的 memories 并计算各自权重:

所有激活的 topk memories 按照各自权重加权求和得到一份混合记忆:

然后就又回到了 linear 类方法一贯的输出计算:

另外,这里我们额外引入了 shared memory 的概念,即每个 token 都会经过这个永远激活的 memory,有利于模型获取全局信息。相对而言,其他稀疏激活的 memory 更擅长获取局部信息。消融实验表明,shared memory 的存在对模型效果有明确的积极作用。

硬件高效实现

MoM的硬件高效Triton算子可以很方便地实现,其输出的计算可以简单写作:

也就是说 MoM 中每个 memory 的计算过程可以复用现有的单个算子,再把所有 memory 的输出加权求和起来。和直接在算子内先求和再算输出是数学等价的。

实验结果

in-context recall-instensive tasks

一直以来,线性序列建模方法因为自身非常有限的 memory 大小,在这类 in-context recall-intensive 任务上表现不好。同时 Transformer 模型得益于其强大的无损记忆能力,非常擅长这类任务。所以已经出现了各种层间 hybrid 的模型,来提升 linear 类模型在这类任务上的效果。

我们首先重点测试了这类任务(结果见下表),使用 Gated DeltaNet 作为 MoM 的 memory 计算形式(在 Memory 更新过程中,每个 memory 都使用 Gated DeltaNet 的 gate 和更新规则),总共 4 个 local sparse memory,激活 2 个,还有一个 shared memory。其中标 † 的模型来自开源项目(https://huggingface.co/fla-hub),没标 †的是我们从头预训练的模型。

结果还算相当不错,在没有数据污染或任何套路的情况下,结果显示 MoM 就是单纯地效果好。这也和预期一致,翻倍扩展 memory 大小,效果好过其他 linear 类方法。有一些意外的是,在 1.3B 的结果里,MoM 基本可以和 Transformer 相媲美。

其他评测效果

其他评测结果效果也不错:

推理效率

推理效率是线性序列建模方法的重点,结果显示 MoM 在常数级复杂度推理速度和显存占用方面,表现出强大的优势。

消融实验

Loss 曲线

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王鹤棣新综艺争议不断的嘉宾,又亲又抱腻过头,黄晓明都看不下去

王鹤棣新综艺争议不断的嘉宾,又亲又抱腻过头,黄晓明都看不下去

白面书誏
2026-02-14 19:29:46
退休大忌:别把这 3 个人当亲人,来往越多,晚年越凄凉

退休大忌:别把这 3 个人当亲人,来往越多,晚年越凄凉

新时代的两性情感
2026-02-15 16:32:14
全额退票!云南一超级演唱会宣布取消,开票仅3天

全额退票!云南一超级演唱会宣布取消,开票仅3天

打小我就醜
2026-02-15 14:23:22
中央明确!退休新规实施后,公务员及事业编制,不能延迟退休吗?

中央明确!退休新规实施后,公务员及事业编制,不能延迟退休吗?

另子维爱读史
2026-02-08 21:13:03
蒋万安不承认自己是中国人,为何还献唱《欢乐中国年》?

蒋万安不承认自己是中国人,为何还献唱《欢乐中国年》?

雪中风车
2026-02-15 12:36:02
大衣哥女婿身份曝光:不是博士公务员,只为女儿找个踏实人!

大衣哥女婿身份曝光:不是博士公务员,只为女儿找个踏实人!

小椰的奶奶
2026-02-15 16:23:32
这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

百态人间
2026-01-29 16:04:26
扎堆调研!外资机构盯上中国科技股(附表格)

扎堆调研!外资机构盯上中国科技股(附表格)

券商中国
2026-02-15 18:22:05
贵阳发布寒潮预警:今天有多暖 明天就有多冷

贵阳发布寒潮预警:今天有多暖 明天就有多冷

知知贵阳
2026-02-15 13:01:25
比特币的属性已经变了!从12万美元到6万美元,币价腰斩后,持币71万枚的“巨鲸”走到破产边缘

比特币的属性已经变了!从12万美元到6万美元,币价腰斩后,持币71万枚的“巨鲸”走到破产边缘

每日经济新闻
2026-02-13 14:51:06
他是浙江首任省长,49岁被撤销所有职务,56岁郁郁而终

他是浙江首任省长,49岁被撤销所有职务,56岁郁郁而终

历史甄有趣
2026-02-15 12:50:06
“价格屠夫”:河北电商,正在“血洗”全国批发市场

“价格屠夫”:河北电商,正在“血洗”全国批发市场

苏格拉高
2026-01-31 07:50:47
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
因涉嫌非国家公务人员受贿罪,大疆前销售副总裁袁某被刑事拘留

因涉嫌非国家公务人员受贿罪,大疆前销售副总裁袁某被刑事拘留

界面新闻
2026-02-15 13:18:52
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
41岁终娶王文娟,晚年却崩溃大哭,孙道临背后不为人知的故事

41岁终娶王文娟,晚年却崩溃大哭,孙道临背后不为人知的故事

往史过眼云烟
2026-02-14 19:30:45
有火锅店需排队三小时、翻台率涨三成!成都春节消费市场“热”力全开

有火锅店需排队三小时、翻台率涨三成!成都春节消费市场“热”力全开

红星新闻
2026-02-15 15:57:08
海南“封关”,美国和新加坡竟然没有发声?

海南“封关”,美国和新加坡竟然没有发声?

流苏晚晴
2025-12-24 18:12:19
醍醐灌顶!小孩是能分清真爱和假模假样的!当妈的我更能体会了

醍醐灌顶!小孩是能分清真爱和假模假样的!当妈的我更能体会了

夜深爱杂谈
2026-02-14 20:49:17
2026-02-15 19:07:03
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

杭州女子5年前在医美机构充值8万 5年后尴尬了

头条要闻

杭州女子5年前在医美机构充值8万 5年后尴尬了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

本地
教育
旅游
公开课
军事航空

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

教育要闻

五年级求面积,中点是解题关键

旅游要闻

连嗨三天!国际舞者快闪登陆天安千树,还有半马苏河市集,新春打卡必去!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版