网易首页 > 网易号 > 正文 申请入驻

有望成为Transformer杀手,谷歌DeepMind架构MoR实现两倍推理速度

0
分享至

机器之心报道

编辑:冷猫

大型语言模型已展现出卓越的能力,但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别,训练和推理的成本变得高昂,阻碍了其在许多实际应用中的推广与落地。

这促使研究者们围绕两个主要方向积极探索高效化技术:一是通过权重共享提升参数效率,二是根据输入复杂度动态分配计算资源,实现自适应计算

而一切的基础则是 Transformer 架构。这次谷歌又一次坐不住了,在递归 Transformer 的基础上再次进化,发布了名为 Mixture-of-Recursions (MoR)的新 LLM 模型架构,有学者认为这个新架构「有潜力成为 Transformer 的杀手」

MoR 框架引入了一种统一方法,同时实现参数共享和自适应计算。与以往孤立处理参数减少或自适应计算的方法不同,MoR 将动态 token 级路由集成到参数高效的递归 Transformer 中,创建了一种协同架构,实现了「无需承担大模型成本的大模型质量」。

  • 论文标题:Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
  • 论文链接:alphaxiv.org/abs/2507.10524

在本研究中,作者提出了Mixture-of-Recursions(MoR),一个统一框架,旨在充分发挥递归 Transformer 的潜力(如图所示)。MoR 通过端到端训练轻量级的路由,为每个 token 分配专属的递归深度:即根据每个 token 所需的「思考」深度,决定共享参数模块对其重复应用的次数,从而将计算资源精准地分配到最需要的部分。

这种基于 token 的动态递归机制,天然支持递归级的键值(KV)缓存,即根据每个 token 所分配的递归深度,有选择地存储和检索对应的键值对。该定向缓存策略显著降低了内存带宽压力,从而无需后处理操作就能提升推理吞吐量。

因此,MoR 在一个统一架构中同时实现了三项优化:

1.参数共享:通过权重绑定显著减少参数量;

2.计算路由:通过 token 路由避免冗余计算(减少无效的 FLOPs);

3.递归级缓存:按需缓存键值对,降低内存访问开销,提升吞吐效率。

MoR 以此兼顾了性能、效率和计算资源利用率,是递归 Transformer 架构的重要演进

MoR 总览

左图显示每个递归步骤由一组固定堆叠的层与一个路由(router)组成。路由会为每个 token 决定是继续通过递归块(进行下一轮递归),还是提前退出。图中灰色方框表示的就是该递归模块。

中图展示了完整的模型结构。对于每个 token,模型会根据路由的决策,对共享的递归模块最多重复应用 N_r 次,从而实现动态递归深度。

右图 是一个 token 级的路由示例,展示了每个 token 的实际递归次数。颜色越深的单元格表示该 token 在当前递归步骤中被激活参与了计算。底部显示了每个文本 token 实际经历的递归次数,使用不同颜色编码标注(如:紫色 1 次、蓝色 2 次、红色 3 次)。

核心架构与方法

递归 Transformer 模型基础

MoR 基于递归 Transformer,通过跨多个层共享权重来实现参数效率,而不是为每一层维护唯一参数。

多种参数共享模式

循环:递归块循环复用(例如,重复层 [0,1,2])

序列:每个块连续地重用相同的层(例如,[0,0,0],[1,1,1])

中周期 / 中序列:保留首层和尾层的独特参数,同时共享中间层权重的变体

中周期策略在经验上被证明最为有效,在参数效率和模型表达能力之间提供了最佳平衡。

动态路由机制

MoR 的核心创新在于其动态路由系统,该系统根据单个 token 的计算需求分配不同的递归深度。实现了两种主要的路由策略:

1、在每一个递归步骤 r,路由器 G 会对每个 token 当前的隐藏状态进行评估,并选择 top-k 的 token 继续进入下一层递归。

这会形成一个逐步收窄的计算漏斗:复杂的 token 会接受更深层的处理,而简单的 token 会更早退出计算。然而,这种方法在训练过程中会面临因果性挑战,因此需要采用一些专门的技术:

  • 辅助路由(Auxiliary Router):一个单独的轻量网络,用于在推理阶段预测 top-k 的选择;
  • 辅助损失(Auxiliary Loss):采用二元交叉熵损失,鼓励路由器输出接近二值化,从而实现更清晰的阈值判断。

2、Token 选择路由(Token-Choice Routing):每个 token 在一开始就做出一次路由决策,以确定其完整的递归深度。这种方式天然满足因果性要求,但需要引入负载均衡机制:

  • 均衡损失(Balancing Loss):正则项,用于鼓励递归深度之间的均匀分布;
  • 路由偏置(Router Bias):在训练过程中动态调整各专家的偏置项。

KV缓存优化

MoR 引入了两种针对动态深度模型的专用 KV 缓存策略:

递归式 KV 缓存:在每个递归深度选择性地缓存 KV 对,注意力仅限于本地缓存的 token:

递归 KV 共享:所有 token 都会遍历第一个递归块,该块的 KV 对会被缓存并在后续递归中重用:

实验结果

MoR 在相同计算预算下以更少参数优于基线模型

在等效的训练预算(16.5 × 10¹⁸ FLOPs)下,作者将 MoR 模型与 原始 Transformer 及递归 Transformer 进行了比较。如表 3 所示,MoR 模型采用「专家选择路由」(expert-choice routing)和两层递归(N_r = 2),实现了更低的验证损失,并在少样本学习平均准确率上超越基线(43.1% 对比 42.3%)。值得注意的是,尽管参数量减少近 50%,MoR 依然取得了更优性能。这一优势归因于其更高的计算效率,使其在相同 FLOPs 预算下处理了更多训练 token。

在固定 FLOPs(16.5e18)与固定 token 数(20B)两种设定下,对 MoR、递归 Transformer(Recursive)和标准 Transformer(Vanilla)进行了对比。

MoR 在相同数据下以更少计算超越基线模型

为了单独分析架构差异,作者在固定训练 token 数量(20B)下进行评估。结果显示,MoR 模型(N_r = 2)在使用比基线模型少 25% 的 FLOPs情况下,仍实现了更低的验证损失和更高的准确率。

这种理论上的效率优势在实践中带来了显著提升:相比于基线模型,MoR 的训练时间减少 19%,峰值内存使用量下降 25%。这些改进来源于 MoR 的层级过滤机制与递归注意力策略,有效缩短了序列长度,实现了更优的计算 - 准确率平衡,甚至在预训练阶段亦是如此。

MoR 性能受路由与缓存策略影响

作者还评估了 MoR 架构下的一些设计变体,特别是在轻量级的三层递归设置(N_r = 3)下仍具可比性的 Vanilla 模型。结果显示,采用「token 选择路由」时准确率较低(40.0%),而「专家选择路由」表现更好(42.6%),表明路由粒度对模型性能具有关键影响。

此外,采用 KV 缓存共享略微降低了性能,但显著提升了内存效率。在对内存占用有要求的部署场景中,这种性能与资源之间的权衡是值得接受的。

不同计算预算下的验证损失,在四种模型规模(135M、360M、730M 和 1.7B 参数量)下进行对比。

MoR 是一种可扩展且参数高效的架构

如图所示,MoR 在所有模型规模和计算预算下都稳定优于递归基线模型。尽管在最小规模(135M)下表现略低于原始 Transformer(可能由于递归容量瓶颈所致),但这种差距随着模型规模的扩大迅速缩小。在参数量超过 360M 时,MoR 不仅能够追平,而且在低至中等预算下常常超越原始 Transformer。

结果表明:MoR 是标准 Transformer 的一种可扩展且高效的替代方案

它在使用显著更少参数的情况下,取得了优异的验证性能,因而非常适合用于预训练以及大规模部署。

MoR 通过连续深度批处理提升推理吞吐量

如图 4a 所示,在上述两种批处理设置下,所有 MoR 变体的推理吞吐量均高于 Transformer 基线模型。

随着递归深度的增加,更多 token 可在早期阶段退出,从而减少 KV 缓存的使用。这一机制显著提升了推理速度:

例如,MoR-4 在最大批量配置下的吞吐量提升可达 2.06 倍

虽然这伴随着轻微的性能下降,但考虑到吞吐量的大幅提升,这种权衡是值得的。

实验结果表明:将深度方向批处理范式与提前退出机制相结合,能够显著提升 MoR 在实际部署场景中的推理吞吐能力。

图中 (a) 在固定批量和最大批量设置下,MoR 与原始 Transformer 在推理吞吐量与对数似然(log-likelihood)之间的帕累托前沿(Pareto frontier)表现对比。

(b) 参数共享策略对递归 Transformer 的影响:展示了递归次数为 = 3 的递归 Transformers 在四种不同参数共享策略下的负对数似然(NLL)表现。这些模型在 100 亿 token 上预训练。图中红色虚线表示完整规模的原始 Transformer,黑色虚线表示参数量约为其三分之一的基线模型。

(c) 四种不同架构在启用 KV 缓存共享时的 NLL 表现对比。其中:

  • MoR 的绿色表示禁用递归级 KV 缓存(recursion-wise KV caching),
  • 蓝色表示启用递归级 KV 缓存共享(recursive KV sharing);
  • MoR-E 表示采用专家选择路由(expert-choice routing)的 MoR,
  • MoR-T 表示采用 token 选择路由(token-choice routing)的 MoR。

另有消融实验,请参照原论文。

总结与讨论

MoR 通过证明参数效率和自适应计算可以协同结合,为高效的 LLM 架构建立了一种新的范例。该框架实现大型模型质量的同时显著降低了计算需求的能力,解决了语言建模中的基本可扩展性挑战。

最重要的是,MoR 为开发更具认知启发性的 AI 系统提供了基础。其在生成过程中能够按每个 token 自适应地分配「思考深度」的能力,与语言模型中新兴的潜在推理和内部思考研究相一致。这表明 MoR 可以作为一个平台,用于研究模型如何学会在保持常规任务效率的同时,更深入地思考复杂问题。

该方法的确提高了推理速度,降低了 KV 缓存,但其是否能被称为「Transformer 杀手」,仍然存在很多质疑。

更多细节内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普再次就停战谈判威胁伊朗

特朗普再次就停战谈判威胁伊朗

澎湃新闻
2026-03-26 20:24:03
巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

游民星空
2026-03-25 19:48:32
奥迪突然官宣:32.29万起,新车正式上市

奥迪突然官宣:32.29万起,新车正式上市

高科技爱好者
2026-03-25 23:08:37
杜淳老婆太能买了!戴4条金手链录开箱视频,保守估计花了10W+

杜淳老婆太能买了!戴4条金手链录开箱视频,保守估计花了10W+

蒂蒂茱家
2026-03-25 11:56:39
举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

超人强动物俱乐部
2026-03-26 16:54:48
导弹打击效果显著,为什么伊朗不“梭哈”,要慢慢放以色列的血?

导弹打击效果显著,为什么伊朗不“梭哈”,要慢慢放以色列的血?

Ck的蜜糖
2026-03-24 01:46:13
近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

无处遁形
2026-03-26 07:18:10
为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

为啥一听说给农民涨养老金,就有一群人激烈反对?真相太沉重

复转这些年
2026-03-14 23:48:05
我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

大象新闻
2026-03-24 13:53:11
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
特朗普拒绝承认对伊朗打击是战争

特朗普拒绝承认对伊朗打击是战争

界面新闻
2026-03-26 15:51:22
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
吕迪格:几乎没有比战拜仁更大的挑战了;凯恩是世界前三中锋

吕迪格:几乎没有比战拜仁更大的挑战了;凯恩是世界前三中锋

懂球帝
2026-03-26 21:51:04
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
湖北气温直冲26℃!随后大逆转,外套先别收

湖北气温直冲26℃!随后大逆转,外套先别收

鲁中晨报
2026-03-26 19:57:02
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
2026-03-26 23:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
艺术
时尚
亲子

教育要闻

骂人没有杀伤力?那不是白忙活吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

亲子要闻

你好,我是馒头,快开门!

无障碍浏览 进入关怀版