网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

2025-07-17 17:22:15　来源: 量子位

北京举报

0

分享至

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

超越Transformer，谷歌推出全新底层架构——

Mixture-of-Recursions（MoR），注意不是MoE，它能推理速度提高2倍，而KV内存直接减半！

而且All in One，首次在单一框架中实现，用同一组参数处理不同任务的同时，进行动态分配计算资源。

就像给LLM开了个双层增强buff，模型性能和效率全都要。

谷歌DeepMind联合KAIST AI、Mila人团队通过统一参数共享、自适应递归深度和高效KV缓存，在保持大模型性能的同时降低计算和内存成本，形成新的效率最优解。

不少网友甚至将它形容为Transformer Killer。

更有甚者表示，该架构的出现或许能代表，潜在空间推理也许将会成为下一个LLM突破所在。

具体MoR创新在哪些方面？下面一一详解。

MoR：首次统一参数共享与自适应计算

Transformer的出现虽然带来了优秀的少样本泛化和推理能力，但随之而来庞大的计算和内存需求还是让训练和部署成为难题。

目前相关优化方法主要是参数共享和自适应计算，但往往只能二选一，无法同时兼顾。

于是研究人员提出了递归混合模型MoR，可以在单一递归Transformer中同时融合两个效率维度。

首先采用的递归Transformer，相比通过多个独特层构建token的标准Transformer，其直接将模型划分为递归块，复用一组共享参数池。

主要包含三种参数共享策略：

Cycle：循环复用层。
Sequence：连续复用同一层。
Middle变体：保留首尾层独特参数，仅共享中间层。

利用参数共享，可以减少独特参数数量，提升分布式训练效率，并通过连续深度批处理消除计算 “气泡”，提高推理吞吐量。

然后MoR采用动态路由机制，通过轻量级路由器为每个token分配不同递归深度，并集中计算在复杂token上，可以分为两种：

Expert-choice路由：将每个递归步骤视作 “专家”，基于隐藏状态计算分数，通过阈值选择合适的token继续计算，采用层级过滤，优先为复杂token分配计算。
Token-choice路由：初始阶段为每个token分配固定递归深度，通过softmax/sigmoid确定专家，然后token按分配深度依次完成递归。

另外，MoR本身还借助KV缓存策略，管理键值的存储与使用，同时确保内存效率的提升：

Recursion-wise缓存：仅缓存当前递归步骤中活跃token的KV对，将注意力计算限制在本地缓存，降低内存和IO需求。
Recursive KV共享：复用首次递归的KV对供后续步骤使用，确保所有token可访问历史上下文，减少预填充操作，而此时注意力计算量下降幅度较小。

在三种策略共同作用下，MoR通过在解码每个token时直接进行潜在思考，路由机制让模型能进行自适应推理，突破了先前固定思考深度的限制，实现了参数效率与自适应计算的统一。

性能超越Transformer

研究人员在135M到1.7B不同参数规模的模型上，就原始Transformer、递归基线模型和MoR进行对比实验。

实验表明，在相同的16.5e18 FLOPs的训练预算下，MoR使用了将近50%的更少参数，但实现了更低的验证损失和更高的平均少样本准确率43.1%。

而vanilla模型的少样本准确率此时是42.3%，说明MoR拥有更高的计算效率，可以在相同FLOPs预算下处理更多训练token。

在训练固定的20B token时，MoR也减少了25%的训练FLOPs，训练时间还缩短了19%，峰值内存减少25%。

另外，通过分析路由策略，发现Expert-choice路由的性能会在一定程度上优于Token-choice路由，说明路由粒度会对性能产生重要影响。

研究人员还对MoR进行了IsoFLOP分析，发现在135M、360M、730M和1.7B参数规模，以及2e18、5e18、16.5e18的FLOPs预算下，MoR始终优于递归基线模型。

虽然受递归容量瓶颈限制，在135M时略逊于vanilla模型，但在360M及规模的进一步扩大，MoR性能接近甚至超过Vanilla模型，且参数仅为后者的1/3，验证了MoR的可扩展性。

在推理吞吐量评估上，360M规模的MoR模型在固定批大小和最大批大小设置下，均优于vanilla。

递归深度的增加让更多token提前退出，KV缓存占用减少，吞吐量显著提升，验证了深度批处理与早期退出结合对部署效率的提升。

谷歌对底层架构的再思考

这已经不是谷歌第一次对底层架构进行重新思考，甚至可以说，谷歌始终希望利用架构创新重构计算范式，重新寻找AI新的平衡。

例如混合专家模型（MoE）正是这一理念的集中体现。

最早是在2017年，谷歌首次将MoE引入LSTM层，通过稀疏门控机制，仅激活部分专家网络从事输入处理，但仍能让参数量高达137B的模型保持高效训练。

后面推出的GShard将MoE与Transformer结合，可实现动态负载均衡，2021年的Switch Transformer又进一步地简化了路由机制。

而Gemini 1.5 Pro就是采用的分层MoE架构，将专家网络与多模态处理深度结合，可以处理更为复杂的多模态任务，训练和服务效率也得到显著提升。

MoE的底层逻辑设计突破了传统全连接模型的计算缺陷，现在已经成为了许多超大规模模型的优先选择，为应对算力瓶颈提供了新范式。

另外还有像TokenFormer等可扩展架构，将模型参数视为可学习的token，通过增量训练无缝扩展模型规模，为未来千亿级模型的低成本迭代提供了可能。

所以有网友认为，关于谷歌如今推出的MoR，会在未来彻底改变AI世界规则，会超越Transformer吗？一切交给时间验证。

参考链接：
[1]https://x.com/deedydas/status/1945313404958466519
[2]https://www.alphaxiv.org/abs/2507.10524
[3]https://x.com/reza_byt/status/1945498424536862841
[4]https://arxiv.org/abs/1701.06538

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

大模型API的大众点评来了：7×24小时实测，毫秒级延迟智能路由

量子位 2026-02-02 11:48:44
0 跟贴 0
ICLR 2026 | LightMem：把大模型「长期记忆」的成本打下来

机器之心Pro 2026-02-26 14:47:50
0 跟贴 0

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

机器之心Pro 2025-10-20 18:23:17
0 跟贴 0

比比皆是的下一个创新点：Prompt Learning进化到SIPDO闭环自进化

机器之心Pro 2026-02-28 11:17:43
0 跟贴 0
FOCUS 关键帧提取：长视频理解能力提升11.9%，只需采样<2% 帧

机器之心Pro 2026-02-28 14:36:23
0 跟贴 0

Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

量子位 2025-09-12 11:07:58
0 跟贴 0

“手机将全面涨价”，冲上热搜

南方都市报 2026-02-27 14:31:12
0 跟贴 0
谷歌创始人布林：当年发完Transformer论文，我们太不当回事了

机器之心Pro 2025-12-15 10:18:00
35 跟贴 35

内存硬盘疯涨全球最大经典在线游戏库宣布关闭：390TB数据没了

快科技 2026-03-01 09:36:13
8 跟贴 8
1000 倍效率神话，Taalas如何用 “模型即芯片” 暴打英伟达

钛媒体APP 2026-02-24 15:35:10
0 跟贴 0
手机集体涨价后，汽车会是下一个吗？

第一财经资讯 2026-02-27 21:22:09
117 跟贴 117
【数智周报】OpenAI宣布获得1100亿美元新投资；Anthropic指控三家中国模型“非法蒸馏” 马斯克：贼喊捉贼；国产芯片公司集体涨价

钛媒体APP 2026-03-01 11:00:06
3 跟贴 3
三星内存涨价100% 苹果秒答应我买！

快科技 2026-02-28 15:20:21
0 跟贴 0
机器人进汽车厂，给波士顿动力，装上谷歌最强大脑

机器之心Pro 2026-01-06 19:02:05
3 跟贴 3
谷歌Nano Banana 2发布，支持4K，成本减半

甲子光年 2026-02-28 12:01:16
0 跟贴 0
超节点三大特点打破通信墙，具备大带宽、低时延、内存统一编址

量子位 2026-02-05 16:43:10
0 跟贴 0
高速上看见黑烟直冒，一看远处框架，这就是为啥不能买新能源原因

阿萌搞怪 2026-03-01 17:01:02
1 跟贴 1
“翻版”豆包AI手机，谷歌和三星还是太保守了

钛媒体APP 2026-02-28 21:14:14
0 跟贴 0
手机行业涨价大潮扑来：内存猛涨80%还未到顶，千元机或将消失

钛媒体APP 2026-02-27 18:57:07
14 跟贴 14
沪游观察｜谷歌AI项目将颠覆游戏业？

澎湃新闻 2026-02-28 15:58:28
0 跟贴 0
DeepMind负责人：2036 AI意识觉醒？LeCun怒怼：LLM路线全错！

新智元 2025-12-16 16:55:25
0 跟贴 0
再现逆转！中国男篮击败中国台北男篮，世预赛赛场斩获连胜

澎湃新闻 2026-03-01 17:52:27
3363 跟贴 3363
下一代谷歌头显，XREAL x Google 定义混合现实头显

爱范儿 2025-12-10 05:12:08
0 跟贴 0
上海浦东机场多架航班返航！中国旅客：我已经哭过了，感到后怕；中东机场改签排队数百米，国内三大航可免费退改签

大象新闻 2026-03-01 14:45:10
11 跟贴 11
DeepSeek推理分裂出多重人格，越社交越聪明

量子位 2026-02-04 03:32:03
0 跟贴 0
谷歌突发Nano Banana 2，性能屠榜速度飞升

极果酷玩 2026-02-27 17:27:47
0 跟贴 0
DeepSeek V4下周上线？原生多模态架构技术报告同步开放

财联社 2026-03-01 14:57:36
5 跟贴 5
极氪公布春节十大猎装旅行路线，揭秘深度自驾游版图

鲁中晨报 2026-02-26 12:29:41
15583 跟贴 15583
年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

环球网资讯 2026-02-27 09:52:19
525 跟贴 525
涡轮风扇发动机模型套件(1)

制造科技 2026-02-27 19:30:03
0 跟贴 0
男子爬到何仙姑雕像头顶拍照，山东蓬莱阁景区回应：“八仙过海”石雕属于公共区域无人值守，后续会加强巡逻

三湘都市报 2026-02-28 13:37:39
1179 跟贴 1179
“AI编程明星”Cursor CEO：AI软件开发的“第三时代”已经到来

华尔街见闻官方 2026-03-01 15:59:52
2 跟贴 2
“带看几次房要收15000元！”上海市民购房意向金，竟遭中介“高额截留”

上观新闻 2026-03-01 12:27:10
127 跟贴 127
热声模型引擎微距特写细节

制造科技 2026-02-28 11:54:31
0 跟贴 0
P90魔改后有多帅？人机功效和扩展性直接拉满

军迷科普 2026-02-28 13:09:49
0 跟贴 0
2万余名旅客滞留阿联酋政府将承担因此产生费用

看看新闻Knews 2026-03-01 18:15:18
157 跟贴 157
Seedance2.0从“地表最强”变“排队最长”，记者实测：基础会员要排10小时

每日经济新闻 2026-03-01 18:05:05
0 跟贴 0
老外用不起GPT，全跑来“薅”中国大模型的羊毛了

钛媒体APP 2026-03-01 08:43:07
3 跟贴 3
「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

机器之心Pro 2026-01-08 17:51:14
0 跟贴 0
热闻|B费一传一射，谢什科三连杀！曼联2-1逆转水晶宫杀入英超前三

齐鲁壹点 2026-03-02 06:58:19
97 跟贴 97

央八新剧仅播五晚，就被观众要求下架？理由：胡编乱造、假的离谱

央八新剧仅播五晚，就被观众要求下架？理由：胡编乱造、假的离谱

墨笑墨侃本尊

2026-02-27 21:10:41

强援参战，伊军第6轮导弹雨来袭，黑色血旗升起，特朗普真上当了

强援参战，伊军第6轮导弹雨来袭，黑色血旗升起，特朗普真上当了

桑启红原

2026-03-02 09:58:13

姚明曾有类似伤病！华裔中锋伊迪再次接受脚踝手术

姚明曾有类似伤病！华裔中锋伊迪再次接受脚踝手术

体坛周报

2026-03-02 08:27:23

县政府投书人民日报称“读者反映情况不属实”，记者两赴调查：自来水确实时有时无

县政府投书人民日报称“读者反映情况不属实”，记者两赴调查：自来水确实时有时无

上观新闻

2026-03-02 09:40:04

黄巢兵败被杀，10余名姬妾被俘，唐僖宗报复有多狠？史官都不敢写

黄巢兵败被杀，10余名姬妾被俘，唐僖宗报复有多狠？史官都不敢写

掠影后有感

2026-03-01 10:09:20

哈梅内伊遇袭详情披露伊朗伊斯兰革命卫队：“历史上最猛烈的进攻行动”即将开始

哈梅内伊遇袭详情披露伊朗伊斯兰革命卫队：“历史上最猛烈的进攻行动”即将开始

新浪财经

2026-03-02 10:53:45

老板娘问我想不想把纹身看全？我该怎么回答？

老板娘问我想不想把纹身看全？我该怎么回答？

太急张三疯

2026-03-02 08:16:08

演都不演了！刚复出就开演唱会，票价卖到1280，到底谁给的自信？

演都不演了！刚复出就开演唱会，票价卖到1280，到底谁给的自信？

科学发掘

2026-03-01 21:35:04

中国演员度假滞留迪拜，航班一次又一次被取消，发视频称“想回家”

中国演员度假滞留迪拜，航班一次又一次被取消，发视频称“想回家”

上观新闻

2026-03-01 17:25:04

体制内情商高能带来啥意外惊喜?网友：别在地铁看，别问我为什么

体制内情商高能带来啥意外惊喜?网友：别在地铁看，别问我为什么

带你感受人间冷暖

2026-02-24 01:03:13

伊朗革命卫队宣布大规模军事行动

伊朗革命卫队宣布大规模军事行动

界面新闻

2026-02-28 18:18:55

伊朗外长：新任最高领袖将在“一或两天”内被选出

伊朗外长：新任最高领袖将在“一或两天”内被选出

参考消息

2026-03-01 23:29:38

美国终于明白，当年他们“误炸”中国大使馆，中国为什么不反击

美国终于明白，当年他们“误炸”中国大使馆，中国为什么不反击

蜉蝣说

2025-10-07 16:08:53

89岁朱逢博:丈夫病逝18年，她跟着儿子养老

89岁朱逢博:丈夫病逝18年，她跟着儿子养老

细品名人

2026-03-01 07:42:37

特朗普：军事行动或持续约4周，同意与伊朗新领导层对话；内贾德身亡细节曝光

特朗普：军事行动或持续约4周，同意与伊朗新领导层对话；内贾德身亡细节曝光

上观新闻

2026-03-02 08:47:17

哈梅内伊接班人真狠人，一夜打遍中东美军：打出半个世纪最强战绩

哈梅内伊接班人真狠人，一夜打遍中东美军：打出半个世纪最强战绩

安珈使者啊

2026-03-02 10:43:06

美以对伊朗“斩首”行动为何成功？揭秘以色列情报机构的“通天本领”

美以对伊朗“斩首”行动为何成功？揭秘以色列情报机构的“通天本领”

环球网资讯

2026-03-01 21:51:11

顶峰相见！王楚钦孙颖莎领奖时“吵了”起来大头贴心服软：我来

顶峰相见！王楚钦孙颖莎领奖时“吵了”起来大头贴心服软：我来

风过乡

2026-03-02 08:04:58

华为2025年营收超 8800 亿，远不如苹果三星，但有一点彻底胜出！

华为2025年营收超 8800 亿，远不如苹果三星，但有一点彻底胜出！

好贤观史记

2026-03-01 18:56:32

这样的教材，教出来的究竟是人才还是蠢材？

这样的教材，教出来的究竟是人才还是蠢材？

作家加野

2026-02-06 10:01:56

追踪人工智能动态

12211文章数 176399关注度

往期回顾全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛给世界5个深刻教训

体育要闻

卡里克主场5连胜！队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发，多位明星被困中东

财经要闻

中东局势影响如何？十大券商策略来了

汽车要闻

预售11.28万起狐全新阿尔法S5标配宁德时代

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

时尚

本地

家居

转头就晕的耳石症，能开车上班吗？

教育要闻

2027–28申请季：当背景趋同、高分扎堆，你还能靠什么赢得offer？

从每天只睡4小时到8小时：一个失眠者的自救指南

本地新闻

津南好·四时总相宜

家居要闻

万物互联享科技福祉

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版