网易首页 > 网易号 > 正文 申请入驻

Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

超越Transformer,谷歌推出全新底层架构——

Mixture-of-Recursions(MoR),注意不是MoE,它能推理速度提高2倍,而KV内存直接减半!

而且All in One,首次在单一框架中实现,用同一组参数处理不同任务的同时,进行动态分配计算资源。

就像给LLM开了个双层增强buff,模型性能和效率全都要。

谷歌DeepMind联合KAIST AI、Mila人团队通过统一参数共享自适应递归深度高效KV缓存,在保持大模型性能的同时降低计算和内存成本,形成新的效率最优解。

不少网友甚至将它形容为Transformer Killer

更有甚者表示,该架构的出现或许能代表,潜在空间推理也许将会成为下一个LLM突破所在。

具体MoR创新在哪些方面?下面一一详解。

MoR:首次统一参数共享与自适应计算

Transformer的出现虽然带来了优秀的少样本泛化和推理能力,但随之而来庞大的计算和内存需求还是让训练和部署成为难题。

目前相关优化方法主要是参数共享和自适应计算,但往往只能二选一,无法同时兼顾。

于是研究人员提出了递归混合模型MoR,可以在单一递归Transformer中同时融合两个效率维度。

首先采用的递归Transformer,相比通过多个独特层构建token的标准Transformer,其直接将模型划分为递归块,复用一组共享参数池。

主要包含三种参数共享策略:

  1. Cycle:循环复用层。
  2. Sequence:连续复用同一层。
  3. Middle变体:保留首尾层独特参数,仅共享中间层。

利用参数共享,可以减少独特参数数量,提升分布式训练效率,并通过连续深度批处理消除计算 “气泡”,提高推理吞吐量。

然后MoR采用动态路由机制,通过轻量级路由器为每个token分配不同递归深度,并集中计算在复杂token上,可以分为两种:

  • Expert-choice路由:将每个递归步骤视作 “专家”,基于隐藏状态计算分数,通过阈值选择合适的token继续计算,采用层级过滤,优先为复杂token分配计算。
  • Token-choice路由:初始阶段为每个token分配固定递归深度,通过softmax/sigmoid确定专家,然后token按分配深度依次完成递归。

另外,MoR本身还借助KV缓存策略,管理键值的存储与使用,同时确保内存效率的提升:

  • Recursion-wise缓存:仅缓存当前递归步骤中活跃token的KV对,将注意力计算限制在本地缓存,降低内存和IO需求。
  • Recursive KV共享:复用首次递归的KV对供后续步骤使用,确保所有token可访问历史上下文,减少预填充操作,而此时注意力计算量下降幅度较小。

在三种策略共同作用下,MoR通过在解码每个token时直接进行潜在思考,路由机制让模型能进行自适应推理,突破了先前固定思考深度的限制,实现了参数效率与自适应计算的统一。

性能超越Transformer

研究人员在135M到1.7B不同参数规模的模型上,就原始Transformer递归基线模型MoR进行对比实验。

实验表明,在相同的16.5e18 FLOPs的训练预算下,MoR使用了将近50%的更少参数,但实现了更低的验证损失和更高的平均少样本准确率43.1%

而vanilla模型的少样本准确率此时是42.3%,说明MoR拥有更高的计算效率,可以在相同FLOPs预算下处理更多训练token。

在训练固定的20B token时,MoR也减少了25%的训练FLOPs,训练时间还缩短了19%,峰值内存减少25%。

另外,通过分析路由策略,发现Expert-choice路由的性能会在一定程度上优于Token-choice路由,说明路由粒度会对性能产生重要影响。

研究人员还对MoR进行了IsoFLOP分析,发现在135M、360M、730M和1.7B参数规模,以及2e18、5e18、16.5e18的FLOPs预算下,MoR始终优于递归基线模型。

虽然受递归容量瓶颈限制,在135M时略逊于vanilla模型,但在360M及规模的进一步扩大,MoR性能接近甚至超过Vanilla模型,且参数仅为后者的1/3,验证了MoR的可扩展性。

推理吞吐量评估上,360M规模的MoR模型在固定批大小和最大批大小设置下,均优于vanilla。

递归深度的增加让更多token提前退出,KV缓存占用减少,吞吐量显著提升,验证了深度批处理与早期退出结合对部署效率的提升。

谷歌对底层架构的再思考

这已经不是谷歌第一次对底层架构进行重新思考,甚至可以说,谷歌始终希望利用架构创新重构计算范式,重新寻找AI新的平衡。

例如混合专家模型(MoE)正是这一理念的集中体现。

最早是在2017年,谷歌首次将MoE引入LSTM层,通过稀疏门控机制,仅激活部分专家网络从事输入处理,但仍能让参数量高达137B的模型保持高效训练。

后面推出的GShard将MoE与Transformer结合,可实现动态负载均衡,2021年的Switch Transformer又进一步地简化了路由机制。

Gemini 1.5 Pro就是采用的分层MoE架构,将专家网络与多模态处理深度结合,可以处理更为复杂的多模态任务,训练和服务效率也得到显著提升。

MoE的底层逻辑设计突破了传统全连接模型的计算缺陷,现在已经成为了许多超大规模模型的优先选择,为应对算力瓶颈提供了新范式。

另外还有像TokenFormer等可扩展架构,将模型参数视为可学习的token,通过增量训练无缝扩展模型规模,为未来千亿级模型的低成本迭代提供了可能。

所以有网友认为,关于谷歌如今推出的MoR,会在未来彻底改变AI世界规则,会超越Transformer吗?一切交给时间验证

参考链接:
[1]https://x.com/deedydas/status/1945313404958466519
[2]https://www.alphaxiv.org/abs/2507.10524
[3]https://x.com/reza_byt/status/1945498424536862841
[4]https://arxiv.org/abs/1701.06538

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥尔莫:队内为了抢10号球衣大打出手?根本没有这事

奥尔莫:队内为了抢10号球衣大打出手?根本没有这事

懂球帝
2026-06-02 21:41:25
戏混子又来嚯嚯央视剧?只会一个表情抿嘴干瞪眼,张嘉益都带不动

戏混子又来嚯嚯央视剧?只会一个表情抿嘴干瞪眼,张嘉益都带不动

不似少年游
2026-06-01 16:56:28
王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

韩小娱
2026-06-02 15:22:29
【西班牙】警察解救3名华人女子,被逼性奴卖YIN,因为恶臭被邻居发现报警...

【西班牙】警察解救3名华人女子,被逼性奴卖YIN,因为恶臭被邻居发现报警...

鲁晓芙看欧洲
2026-06-02 20:56:44
为了杰伦布朗,火箭队需送出2主力1替补?若成功,全新阵容太豪华

为了杰伦布朗,火箭队需送出2主力1替补?若成功,全新阵容太豪华

熊哥爱篮球
2026-06-02 15:00:59
24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

爱下厨的阿酾
2026-06-02 17:12:48
周星驰入股江苏一企业

周星驰入股江苏一企业

中吴网
2026-06-02 19:24:23
中国车企三强:比亚迪、奇瑞、吉利5月销量公布,差距拉开了

中国车企三强:比亚迪、奇瑞、吉利5月销量公布,差距拉开了

刘哥谈体育
2026-06-02 18:19:55
张学友的嘴,是开了光的预言家…

张学友的嘴,是开了光的预言家…

慧翔百科
2026-06-03 08:46:01
被印度断油后,尼泊尔疯抢电动车,穷国逆袭全球第二,真相太扎心

被印度断油后,尼泊尔疯抢电动车,穷国逆袭全球第二,真相太扎心

青眼财经
2026-06-02 18:57:47
莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

品读时刻
2026-05-27 09:00:58
完爆克鲁皮!阿森纳赚大了!8000 万英超巨星主动投奔

完爆克鲁皮!阿森纳赚大了!8000 万英超巨星主动投奔

澜归序
2026-06-03 06:07:33
燃油车再掀集中降价潮!多款车型创历史最低价:轩逸低配跌破6万、雅阁裸车11万

燃油车再掀集中降价潮!多款车型创历史最低价:轩逸低配跌破6万、雅阁裸车11万

快科技
2026-06-02 16:29:22
总价4500万 曼联与26岁巴西国脚签约4年 或再买2名中场+夏窗砸3亿

总价4500万 曼联与26岁巴西国脚签约4年 或再买2名中场+夏窗砸3亿

我爱英超
2026-06-03 06:46:55
黎巴嫩政府的悲剧:当短视取代了战略清醒

黎巴嫩政府的悲剧:当短视取代了战略清醒

民间胡扯老哥
2026-05-14 13:12:11
中方呼吁罗马尼亚无人机事件有关方保持冷静克制

中方呼吁罗马尼亚无人机事件有关方保持冷静克制

环球网资讯
2026-06-02 09:23:09
美军证实拦截伊朗导弹和无人机 称空袭格什姆岛

美军证实拦截伊朗导弹和无人机 称空袭格什姆岛

新华社
2026-06-03 07:46:07
资治通鉴:当你混到没人给你打电话发信息、没人找你聚会、没人约你吃饭的时候,那么说明你可能在慢慢变好,你的人生正在走上坡路

资治通鉴:当你混到没人给你打电话发信息、没人找你聚会、没人约你吃饭的时候,那么说明你可能在慢慢变好,你的人生正在走上坡路

心理观察局
2026-06-03 07:06:09
2020年杜少平被押火葬场,抬进死刑执行车,8分钟后结束罪恶一生

2020年杜少平被押火葬场,抬进死刑执行车,8分钟后结束罪恶一生

莫地方
2026-06-03 01:45:03
老人精通一绝技,四年拿下二十六女,背后真相令人震惊

老人精通一绝技,四年拿下二十六女,背后真相令人震惊

雾岛夜话
2025-06-02 17:30:56
2026-06-03 10:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12732文章数 176476关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
数码
手机
家居
公开课

教育要闻

小学几何题,难倒了不少的家长和学生,换个思路试试

数码要闻

映众展出显卡概念设计:前后双涡轮风扇散热、智能屏显冰龙

手机要闻

三星Galaxy Z Fold8 / Ultra机模对比照片曝光

家居要闻

流线型轮廓 包容多元身形

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版