网易首页 > 网易号 > 正文 申请入驻

谷歌发布新架构,用一半内存实现推理速度翻倍

0
分享至

谷歌 DeepMind 与韩国科学技术院(KAIST)的研究人员近日联合发布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模型架构。据称能在保持模型性能的同时,实现了推理速度翻倍、训练计算量减少并降低了约 50% 的 KV 缓存内存使用。论文一经发布,便在社交媒体上引发了广泛关注,甚至有评论称其或许是“Transformer 杀手”。

自 2017 年问世以来,Transformer 架构已成为大型语言模型的技术基础,目前几乎所有先进模型都建立在这一架构之上。但随着模型规模越来越大,Transformer 架构对计算和内存资源的需求也日益增加,训练和部署成本十分高昂。过去的效率优化方法通常只关注单一方向,例如通过参数共享来缩小模型尺寸,或通过自适应计算来按需分配算力,但很少能将多个效率目标同时优化。

MoR 架构的核心创新在于将递归计算与动态路由机制相结合,在一个统一框架内解决多重效率问题。在标准的 Transformer 模型中,输入文本的每一个 token 都要经过相同数量的计算层处理。MoR 则改变了这一模式,它允许不同的 token 根据自身的复杂度,接受不同深度的处理。


图丨MoR 架构的概览(来源:arXiv)

具体来说,MoR 使用共享的参数块来提升参数效率,同时通过一个轻量级的“路由器”,来决定每个 token 需要经历多少次递归计算。研究团队测试了多种路由策略,例如“专家选择”(expert-choice)和“token 选择”(token-choice),以平衡计算负载和避免信息处理中的逻辑问题。在参数共享方面,测试结果表明“Middle-Cycle”策略表现最好,该策略保持模型的第一层和最后一层使用独立的参数,只在中间层之间共享权重,以此在参数效率和模型的表达能力之间取得较好的平衡。


图丨MoR 的核心组件(来源:arXiv)

内存管理是 MoR 的另一项关键改进。即使参数共享了,传统递归模型在每一层递归时仍会产生独立的 KV 缓存,导致内存占用依然很高。MoR 提出了两种新的 KV 缓存策略来应对这一问题。一种是“递归式缓存”,只为被路由到特定递归步骤的 token 存储 KV 数据,并将注意力计算限制在这些本地数据中,从而有效降低了 KV 缓存的内存占用和数据读写量。另一种“递归共享”策略则更进一步,利用所有 token 都会经过第一个递归块的特性,只在第一步缓存 KV 数据,供后续所有递归步骤重复使用,以此最大化地节省内存。

研究团队在 1.35 亿到 17 亿参数的多个模型规模上进行了测试。结果表明,在相同的训练计算预算下,一个采用 MoR 架构的模型,虽然其参数量比基准 Transformer 模型少了近一半,但在多项少样本学习任务中的平均准确率达到了 43.1%,超过了基准模型的 42.3%。


(来源:arXiv)

更重要的是,MoR 更高的计算效率,使其能在相同的计算预算内处理更多的训练数据,这反过来也提升了模型的最终性能。在固定训练数据量的对比实验中,一个 MoR 配置在使用少 25% 训练计算量的情况下,其性能依然超过了基准模型,同时训练时间减少了 19%,峰值内存使用也降低了 25%。

在推理性能上,MoR 的优势更加明显。它采用了一种连续深度批处理技术,可以将处在不同计算阶段的 token 组合到同一个批次中进行处理,因为它们都使用相同的参数块。该技术配合模型的早期退出机制,显著提升了处理吞吐量。在 3.6 亿规模的模型测试中,MoR-4 配置在特定设置下实现了高达 2.06 倍的推理加速。

研究还发现,MoR 模型在处理不同类型 token 时,表现出一种与语义重要性相关的模式。内容丰富的 token,如“People”或“defensively confident”,会被分配更多的递归次数(三次);而功能性词汇,如“and”,通常只需要较少的递归次数。这表明,模型学会了将更多的计算资源用于处理更重要的信息。

实际上,MoR 的出现也离不开谷歌此前相关研究的铺垫。在早前的 Mixture-of-Depths(MoD)等技术中,谷歌 DeepMind 就已经探索了动态分配计算资源的方法。同时,递归 Transformer 作为一种参数共享技术,也为 MoR 提供了理论基础。

MoR 进一步延续了这些研究对 AI 效率优化的探索,即从单一维度的优化,转向参数、计算和内存等多个维度的协同优化。这对于降低大语言模型的部署和使用成本具有较大的实际意义。

总体而言,虽然现在断言 MoR 能否完全替代 Transformer 还为时过早,但它确实为未来的语言模型架构设计,提供了一个在性能和效率上都极具潜力的发展方向。

参考资料:

1.https://arxiv.org/abs/2507.10524

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今夜,利空!跳水!

今夜,利空!跳水!

中国基金报
2025-11-14 00:15:40
【2025.11.14】爆姐的饭后爆料:生命不止,爆料不息!

【2025.11.14】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2025-11-14 23:07:58
C罗红牌摊上大事!极端情况:遭FIFA重罚 无缘世界杯前2场

C罗红牌摊上大事!极端情况:遭FIFA重罚 无缘世界杯前2场

叶青足球世界
2025-11-14 20:52:40
从5-10到13-11:她逆转的何止是局点,更是赢回人生的四年

从5-10到13-11:她逆转的何止是局点,更是赢回人生的四年

曹老师评球
2025-11-12 14:12:50
杀鸡儆猴,中方开始动真格了!德国想买稀土,就必须先交敏感数据

杀鸡儆猴,中方开始动真格了!德国想买稀土,就必须先交敏感数据

闻识
2025-10-29 15:34:13
耻辱!非洲雄狮无缘世界杯:0-1输鱼腩队 对手再赢1场每人奖700万

耻辱!非洲雄狮无缘世界杯:0-1输鱼腩队 对手再赢1场每人奖700万

风过乡
2025-11-14 07:46:19
神舟二十一号返回!超快速:神20航天员回来了,比神19短3.5小时

神舟二十一号返回!超快速:神20航天员回来了,比神19短3.5小时

火星一号
2025-11-14 12:56:11
又一科技巨头暴雷!5000人近10亿被套,人去楼空,老板已跑路?

又一科技巨头暴雷!5000人近10亿被套,人去楼空,老板已跑路?

云景侃记
2025-11-14 14:33:57
阿里对标ChatGPT项目来了?通义App正式更名“千问”

阿里对标ChatGPT项目来了?通义App正式更名“千问”

IT之家
2025-11-14 13:08:04
2026款斯柯达明锐太卷了,640L后备厢,比思域更实用!

2026款斯柯达明锐太卷了,640L后备厢,比思域更实用!

剑速时刻
2025-11-15 00:49:11
没劲,这就怂了?知道事情闹大了,高市早苗慌忙找补:我就是假设

没劲,这就怂了?知道事情闹大了,高市早苗慌忙找补:我就是假设

飞花逐月大帝
2025-11-14 10:40:56
争议!C罗肘击+做哭泣动作被直红罚下,国家队生涯226场首张红牌

争议!C罗肘击+做哭泣动作被直红罚下,国家队生涯226场首张红牌

念洲
2025-11-14 06:10:04
年薪650万 魔笛买17欧元机票回国家队!乘客沸腾 官方调侃

年薪650万 魔笛买17欧元机票回国家队!乘客沸腾 官方调侃

叶青足球世界
2025-11-13 21:12:18
继续硬刚,薛剑总领事再度发声,用实力告诉日本,阻挠统一的下场

继续硬刚,薛剑总领事再度发声,用实力告诉日本,阻挠统一的下场

通文知史
2025-11-13 21:00:02
转了大半个中国,毫不夸张地说:未来最霸气的城市肯定是广州

转了大半个中国,毫不夸张地说:未来最霸气的城市肯定是广州

夜深爱杂谈
2025-11-06 21:03:38
“80后”魏伟已任湖北省卫健委党组成员、副主任

“80后”魏伟已任湖北省卫健委党组成员、副主任

奇思妙想生活家
2025-11-14 17:18:02
石宇奇先声夺人,陆光祖攻下天王山,江苏3-2浙江成就六冠王霸业

石宇奇先声夺人,陆光祖攻下天王山,江苏3-2浙江成就六冠王霸业

钉钉陌上花开
2025-11-15 00:42:42
欧盟:将提前对价值低于150欧元的免税“小额包裹”征税

欧盟:将提前对价值低于150欧元的免税“小额包裹”征税

财联社
2025-11-14 08:40:06
金价、银价,突然跳水!

金价、银价,突然跳水!

证券时报
2025-11-14 23:43:09
3-0!全运会:河南女排遭遇首败,朱婷独木难支,吴梦洁发挥最佳

3-0!全运会:河南女排遭遇首败,朱婷独木难支,吴梦洁发挥最佳

知轩体育
2025-11-14 22:06:00
2025-11-15 01:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15860文章数 514299关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

家居
数码
亲子
公开课
军事航空

家居要闻

现代简逸 寻找生活的光

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

亲子要闻

细思极恐!全球1.14亿孩子患高血压,3大原因你娃可能都有!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

国防部:日方若胆敢铤而走险必将碰得头破血流

无障碍浏览 进入关怀版