网易首页 > 网易号 > 正文 申请入驻

谷歌发布新架构,用一半内存实现推理速度翻倍

0
分享至

谷歌 DeepMind 与韩国科学技术院(KAIST)的研究人员近日联合发布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模型架构。据称能在保持模型性能的同时,实现了推理速度翻倍、训练计算量减少并降低了约 50% 的 KV 缓存内存使用。论文一经发布,便在社交媒体上引发了广泛关注,甚至有评论称其或许是“Transformer 杀手”。

自 2017 年问世以来,Transformer 架构已成为大型语言模型的技术基础,目前几乎所有先进模型都建立在这一架构之上。但随着模型规模越来越大,Transformer 架构对计算和内存资源的需求也日益增加,训练和部署成本十分高昂。过去的效率优化方法通常只关注单一方向,例如通过参数共享来缩小模型尺寸,或通过自适应计算来按需分配算力,但很少能将多个效率目标同时优化。

MoR 架构的核心创新在于将递归计算与动态路由机制相结合,在一个统一框架内解决多重效率问题。在标准的 Transformer 模型中,输入文本的每一个 token 都要经过相同数量的计算层处理。MoR 则改变了这一模式,它允许不同的 token 根据自身的复杂度,接受不同深度的处理。


图丨MoR 架构的概览(来源:arXiv)

具体来说,MoR 使用共享的参数块来提升参数效率,同时通过一个轻量级的“路由器”,来决定每个 token 需要经历多少次递归计算。研究团队测试了多种路由策略,例如“专家选择”(expert-choice)和“token 选择”(token-choice),以平衡计算负载和避免信息处理中的逻辑问题。在参数共享方面,测试结果表明“Middle-Cycle”策略表现最好,该策略保持模型的第一层和最后一层使用独立的参数,只在中间层之间共享权重,以此在参数效率和模型的表达能力之间取得较好的平衡。


图丨MoR 的核心组件(来源:arXiv)

内存管理是 MoR 的另一项关键改进。即使参数共享了,传统递归模型在每一层递归时仍会产生独立的 KV 缓存,导致内存占用依然很高。MoR 提出了两种新的 KV 缓存策略来应对这一问题。一种是“递归式缓存”,只为被路由到特定递归步骤的 token 存储 KV 数据,并将注意力计算限制在这些本地数据中,从而有效降低了 KV 缓存的内存占用和数据读写量。另一种“递归共享”策略则更进一步,利用所有 token 都会经过第一个递归块的特性,只在第一步缓存 KV 数据,供后续所有递归步骤重复使用,以此最大化地节省内存。

研究团队在 1.35 亿到 17 亿参数的多个模型规模上进行了测试。结果表明,在相同的训练计算预算下,一个采用 MoR 架构的模型,虽然其参数量比基准 Transformer 模型少了近一半,但在多项少样本学习任务中的平均准确率达到了 43.1%,超过了基准模型的 42.3%。


(来源:arXiv)

更重要的是,MoR 更高的计算效率,使其能在相同的计算预算内处理更多的训练数据,这反过来也提升了模型的最终性能。在固定训练数据量的对比实验中,一个 MoR 配置在使用少 25% 训练计算量的情况下,其性能依然超过了基准模型,同时训练时间减少了 19%,峰值内存使用也降低了 25%。

在推理性能上,MoR 的优势更加明显。它采用了一种连续深度批处理技术,可以将处在不同计算阶段的 token 组合到同一个批次中进行处理,因为它们都使用相同的参数块。该技术配合模型的早期退出机制,显著提升了处理吞吐量。在 3.6 亿规模的模型测试中,MoR-4 配置在特定设置下实现了高达 2.06 倍的推理加速。

研究还发现,MoR 模型在处理不同类型 token 时,表现出一种与语义重要性相关的模式。内容丰富的 token,如“People”或“defensively confident”,会被分配更多的递归次数(三次);而功能性词汇,如“and”,通常只需要较少的递归次数。这表明,模型学会了将更多的计算资源用于处理更重要的信息。

实际上,MoR 的出现也离不开谷歌此前相关研究的铺垫。在早前的 Mixture-of-Depths(MoD)等技术中,谷歌 DeepMind 就已经探索了动态分配计算资源的方法。同时,递归 Transformer 作为一种参数共享技术,也为 MoR 提供了理论基础。

MoR 进一步延续了这些研究对 AI 效率优化的探索,即从单一维度的优化,转向参数、计算和内存等多个维度的协同优化。这对于降低大语言模型的部署和使用成本具有较大的实际意义。

总体而言,虽然现在断言 MoR 能否完全替代 Transformer 还为时过早,但它确实为未来的语言模型架构设计,提供了一个在性能和效率上都极具潜力的发展方向。

参考资料:

1.https://arxiv.org/abs/2507.10524

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离过年不到2月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

离过年不到2月,52岁辛柏青高调传出喜讯,朱媛媛终于可以放心了

涵豆说娱
2026-01-14 16:26:28
中戏院长主动投案!闫学晶儿子学籍疑云反转?背后牵扯不简单?

中戏院长主动投案!闫学晶儿子学籍疑云反转?背后牵扯不简单?

复转这些年
2026-01-14 18:39:16
佟丽娅连续三年收到苏翊鸣的滑板,苏翊鸣10岁就和佟丽娅演过电影

佟丽娅连续三年收到苏翊鸣的滑板,苏翊鸣10岁就和佟丽娅演过电影

韩小娱
2026-01-15 07:25:13
克里斯-保罗谈退役:我太热爱篮球了,我不想以这种方式结束

克里斯-保罗谈退役:我太热爱篮球了,我不想以这种方式结束

懂球帝
2026-01-15 11:54:37
为了能让特朗普痛快洗澡,美众议院通过“洗澡法案”,此前他抱怨“我需要站在水流下15分钟才能打湿秀发”

为了能让特朗普痛快洗澡,美众议院通过“洗澡法案”,此前他抱怨“我需要站在水流下15分钟才能打湿秀发”

极目新闻
2026-01-15 11:56:03
拒27分逆转!猛龙三杀步行者 巴恩斯26+7+13莺歌30+7

拒27分逆转!猛龙三杀步行者 巴恩斯26+7+13莺歌30+7

醉卧浮生
2026-01-15 10:35:53
不满,里夫斯经纪人就詹姆斯经纪人提出的湖人的交易建议与他对质

不满,里夫斯经纪人就詹姆斯经纪人提出的湖人的交易建议与他对质

好火子
2026-01-15 01:33:22
国台办回应美领导人涉台言论:解决台湾问题是中国人自己的事

国台办回应美领导人涉台言论:解决台湾问题是中国人自己的事

澎湃新闻
2026-01-14 11:18:24
7年前那个诬告朱军“性骚扰”,让朱军身败名裂的弦子,如今怎样

7年前那个诬告朱军“性骚扰”,让朱军身败名裂的弦子,如今怎样

寒士之言本尊
2025-12-01 16:49:52
梅里诺接近最终离队

梅里诺接近最终离队

绿茵情报局
2026-01-15 07:25:30
美媒评新季十大球星:杜兰特垫底、库里第7,前3毫无争议

美媒评新季十大球星:杜兰特垫底、库里第7,前3毫无争议

篮球看比赛
2026-01-15 11:25:58
原来她就是肖战妻子,怪不得能当国乒副总教练,娶一个贤妻旺三代

原来她就是肖战妻子,怪不得能当国乒副总教练,娶一个贤妻旺三代

深析古今
2026-01-14 18:20:18
华野刚成立就强悍无比,源于一位重要功臣,功劳不亚于陈毅粟裕

华野刚成立就强悍无比,源于一位重要功臣,功劳不亚于陈毅粟裕

浩渺青史
2026-01-14 15:59:43
29分钟连吃3黄!U23国足遭针对,胡荷韬暴怒,媒体人集体不满

29分钟连吃3黄!U23国足遭针对,胡荷韬暴怒,媒体人集体不满

奥拜尔
2026-01-14 20:09:50
大爆冷!国乒全国冠军1:3不敌日本选手,国乒单打4人被淘汰出局

大爆冷!国乒全国冠军1:3不敌日本选手,国乒单打4人被淘汰出局

国乒二三事
2026-01-15 06:16:39
难怪原著马天生逼死李云龙后,会主动调离部队,原来是担心这一点

难怪原著马天生逼死李云龙后,会主动调离部队,原来是担心这一点

以茶带书
2025-12-03 12:20:37
再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

爱史纪
2026-01-06 18:39:35
格纳布里将功补过,韩国铁卫攻防一体,拜仁3-1科隆造德甲神迹

格纳布里将功补过,韩国铁卫攻防一体,拜仁3-1科隆造德甲神迹

钉钉陌上花开
2026-01-15 05:36:05
善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

单手搓核弹
2026-01-06 14:04:34
肖战升任国乒队副总教练!前女友是陈静,儿子是演员,再婚也幸福

肖战升任国乒队副总教练!前女友是陈静,儿子是演员,再婚也幸福

观察鉴娱
2026-01-14 09:17:59
2026-01-15 12:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16124文章数 514485关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
游戏
健康
教育
旅游

最时髦的单品,难道不是背肌吗?

COD跌出前五!25年PS商店畅销榜被体育游戏统治

血常规3项异常,是身体警报!

教育要闻

航海类专业赢麻了!交通运输部2025拟录697人,多名专科生上岸

旅游要闻

北非摩洛哥纪行:哈桑二世清真寺,大西洋畔的伊斯兰建筑奇迹(6)

无障碍浏览 进入关怀版