网易首页 > 网易号 > 正文 申请入驻

谷歌发布新架构,用一半内存实现推理速度翻倍

0
分享至

谷歌 DeepMind 与韩国科学技术院(KAIST)的研究人员近日联合发布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模型架构。据称能在保持模型性能的同时,实现了推理速度翻倍、训练计算量减少并降低了约 50% 的 KV 缓存内存使用。论文一经发布,便在社交媒体上引发了广泛关注,甚至有评论称其或许是“Transformer 杀手”。

自 2017 年问世以来,Transformer 架构已成为大型语言模型的技术基础,目前几乎所有先进模型都建立在这一架构之上。但随着模型规模越来越大,Transformer 架构对计算和内存资源的需求也日益增加,训练和部署成本十分高昂。过去的效率优化方法通常只关注单一方向,例如通过参数共享来缩小模型尺寸,或通过自适应计算来按需分配算力,但很少能将多个效率目标同时优化。

MoR 架构的核心创新在于将递归计算与动态路由机制相结合,在一个统一框架内解决多重效率问题。在标准的 Transformer 模型中,输入文本的每一个 token 都要经过相同数量的计算层处理。MoR 则改变了这一模式,它允许不同的 token 根据自身的复杂度,接受不同深度的处理。

具体来说,MoR 使用共享的参数块来提升参数效率,同时通过一个轻量级的“路由器”,来决定每个 token 需要经历多少次递归计算。研究团队测试了多种路由策略,例如“专家选择”(expert-choice)和“token 选择”(token-choice),以平衡计算负载和避免信息处理中的逻辑问题。在参数共享方面,测试结果表明“Middle-Cycle”策略表现最好,该策略保持模型的第一层和最后一层使用独立的参数,只在中间层之间共享权重,以此在参数效率和模型的表达能力之间取得较好的平衡。

内存管理是 MoR 的另一项关键改进。即使参数共享了,传统递归模型在每一层递归时仍会产生独立的 KV 缓存,导致内存占用依然很高。MoR 提出了两种新的 KV 缓存策略来应对这一问题。一种是“递归式缓存”,只为被路由到特定递归步骤的 token 存储 KV 数据,并将注意力计算限制在这些本地数据中,从而有效降低了 KV 缓存的内存占用和数据读写量。另一种“递归共享”策略则更进一步,利用所有 token 都会经过第一个递归块的特性,只在第一步缓存 KV 数据,供后续所有递归步骤重复使用,以此最大化地节省内存。

研究团队在 1.35 亿到 17 亿参数的多个模型规模上进行了测试。结果表明,在相同的训练计算预算下,一个采用 MoR 架构的模型,虽然其参数量比基准 Transformer 模型少了近一半,但在多项少样本学习任务中的平均准确率达到了 43.1%,超过了基准模型的 42.3%。

更重要的是,MoR 更高的计算效率,使其能在相同的计算预算内处理更多的训练数据,这反过来也提升了模型的最终性能。在固定训练数据量的对比实验中,一个 MoR 配置在使用少 25% 训练计算量的情况下,其性能依然超过了基准模型,同时训练时间减少了 19%,峰值内存使用也降低了 25%。

在推理性能上,MoR 的优势更加明显。它采用了一种连续深度批处理技术,可以将处在不同计算阶段的 token 组合到同一个批次中进行处理,因为它们都使用相同的参数块。该技术配合模型的早期退出机制,显著提升了处理吞吐量。在 3.6 亿规模的模型测试中,MoR-4 配置在特定设置下实现了高达 2.06 倍的推理加速。

研究还发现,MoR 模型在处理不同类型 token 时,表现出一种与语义重要性相关的模式。内容丰富的 token,如“People”或“defensively confident”,会被分配更多的递归次数(三次);而功能性词汇,如“and”,通常只需要较少的递归次数。这表明,模型学会了将更多的计算资源用于处理更重要的信息。

实际上,MoR 的出现也离不开谷歌此前相关研究的铺垫。在早前的 Mixture-of-Depths(MoD)等技术中,谷歌 DeepMind 就已经探索了动态分配计算资源的方法。同时,递归 Transformer 作为一种参数共享技术,也为 MoR 提供了理论基础。

MoR 进一步延续了这些研究对 AI 效率优化的探索,即从单一维度的优化,转向参数、计算和内存等多个维度的协同优化。这对于降低大语言模型的部署和使用成本具有较大的实际意义。

总体而言,虽然现在断言 MoR 能否完全替代 Transformer 还为时过早,但它确实为未来的语言模型架构设计,提供了一个在性能和效率上都极具潜力的发展方向。

参考资料:

1.https://arxiv.org/abs/2507.10524

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
顺德莫氏鸡煲4月20日停业!网红流量狂欢,邻居抗议问题根源在哪

顺德莫氏鸡煲4月20日停业!网红流量狂欢,邻居抗议问题根源在哪

王姐懒人家常菜
2026-04-21 00:56:35
诺基亚魔改版iPhone,完美运行iOS系统!闲鱼标价三千块

诺基亚魔改版iPhone,完美运行iOS系统!闲鱼标价三千块

科技海岸线
2026-04-19 11:20:03
中日情况有变,岸田已扛旗,数万人逼高市辞职,052D抵近奄美大岛

中日情况有变,岸田已扛旗,数万人逼高市辞职,052D抵近奄美大岛

Ck的蜜糖
2026-04-20 14:52:14
黑奴贸易里,将黑人扒光并让男女挤一起,只是为了省钱省事吗

黑奴贸易里,将黑人扒光并让男女挤一起,只是为了省钱省事吗

小豫讲故事
2026-04-18 06:00:12
英国超新星穆迪抢丁俊晖风头,戴维斯:他或破最年轻世界冠军纪录

英国超新星穆迪抢丁俊晖风头,戴维斯:他或破最年轻世界冠军纪录

杨华评论
2026-04-20 21:00:34
雄鹿有意聘请詹金斯出任新帅!双方商讨建队方向 魔术也可能抢他

雄鹿有意聘请詹金斯出任新帅!双方商讨建队方向 魔术也可能抢他

罗说NBA
2026-04-21 08:05:08
减速机订单已排到明年!人形机器人“物种爆发” 2030年全球出货量将超50万?

减速机订单已排到明年!人形机器人“物种爆发” 2030年全球出货量将超50万?

财联社
2026-04-21 07:54:05
从0开始,在国内用上Claude Code的终极保姆教程来了。

从0开始,在国内用上Claude Code的终极保姆教程来了。

数字生命卡兹克
2026-04-20 10:11:26
真当中国不敢动手?中方向全世界宣布:退出1900亿大项目

真当中国不敢动手?中方向全世界宣布:退出1900亿大项目

来科点谱
2026-02-22 07:16:20
确定!英超争冠不会有附加赛,如果同分,曼城比阿森纳多一个优势

确定!英超争冠不会有附加赛,如果同分,曼城比阿森纳多一个优势

嗨皮看球
2026-04-20 11:23:17
同时聊300个“老头”,能月入两三万?专挑8090后下手,批量收割

同时聊300个“老头”,能月入两三万?专挑8090后下手,批量收割

米果说识
2026-04-19 22:20:16
世锦赛:希金斯逆转卡特晋级,吴宜泽大胜晋级16强

世锦赛:希金斯逆转卡特晋级,吴宜泽大胜晋级16强

余蹮搞笑段子
2026-04-21 01:25:36
京东股权曝光:刘强东控制12.7%股权有73%投票权 获1亿美元股息

京东股权曝光:刘强东控制12.7%股权有73%投票权 获1亿美元股息

雷递
2026-04-20 10:11:22
过气明星多可怜?四处欠债,朋友绝交,41岁靠苦力谋生,渴求复出

过气明星多可怜?四处欠债,朋友绝交,41岁靠苦力谋生,渴求复出

林轻吟
2026-04-21 07:31:49
穆里尼奥神换人定乾坤!本菲卡2-1绝杀葡萄牙体育,登顶联赛第二

穆里尼奥神换人定乾坤!本菲卡2-1绝杀葡萄牙体育,登顶联赛第二

田先生篮球
2026-04-20 08:25:34
莫氏鸡煲店老板公开秘方后,广东卫健局紧急提醒

莫氏鸡煲店老板公开秘方后,广东卫健局紧急提醒

华庭讲美食
2026-04-21 00:02:49
商业航天重启:有望接棒光通信,15只龙头值得关注

商业航天重启:有望接棒光通信,15只龙头值得关注

普陀动物世界
2026-04-21 00:47:12
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
拆迁款分配完,弟弟一家转走980万,我被打发6万,半个月后反转

拆迁款分配完,弟弟一家转走980万,我被打发6万,半个月后反转

枫红染山径
2026-04-21 08:01:15
开了一年的Model Y,我把账单摊桌上,发现“省钱”这事水太深了!

开了一年的Model Y,我把账单摊桌上,发现“省钱”这事水太深了!

小李子体育
2026-04-20 18:05:08
2026-04-21 11:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16603文章数 514894关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

牛弹琴:特朗普成美伊谈判最大障碍 伊朗果然勃然大怒

头条要闻

牛弹琴:特朗普成美伊谈判最大障碍 伊朗果然勃然大怒

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
教育
亲子
本地
家居

“爆冷”又如何?陈法拉的人生本就是一场逆袭大戏

教育要闻

“学硕不让读,专硕21.8万!”复旦让普通人看清现实:没钱别硬卷

亲子要闻

孩子休学躺平,我做的第一件事,是放过自己

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

诗意光影 窥见自然之境

无障碍浏览 进入关怀版