网易首页 > 网易号 > 正文 申请入驻

ACL 2026:RouteMoA动态路由,无需预推理的高效多智能体解决方案

0
分享至

本篇论文已被 ACL 2026 接收,主要作者来自上海交通大学自动化与感知学院 IWIN 中心团队。团队负责人为关新平教授,指导老师为陈彩莲教授和乐心怡教授,合作作者还包括南洋理工大学陶大程教授。其他作者来自腾讯、上海人工智能实验室、香港中文大学等机构。第一作者王骥泽为上海交通大学博士生,研究方向为大模型智能体。

近年来,大语言模型的发展,正在从 “单模型能力提升” 走向 “多模型协作”。这是一个很自然的方向:既然不同模型各有所长,有的擅长数学,有的擅长代码,有的更懂医学,那为什么不让它们协同起来,共同解决更复杂的问题?

Mixture-of-Agents(MoA)正是在这样的背景下提出的。它通过让多个模型并行生成、逐层交互、反复融合,往往能够得到比单一模型更强的结果。问题也很明显:性能提升的同时,成本和延迟也随之迅速上升。

在标准 MoA 中,每一轮通常都要调用多个模型,再基于它们的输出进行筛选和融合。但究竟该让哪些模型参与、哪些模型可以跳过,往往缺乏明确的选择机制。模型越多、层数越深,整体开销就越高,在大规模模型池场景下,系统效率和可扩展性都会面临很大挑战。

也正因如此,研究者开始尝试让 MoA 变稀疏。例如,一些方法如 Sparse MoA 会先让模型池中的所有模型生成回答,再通过额外的评审模型进行打分和筛选,只保留一部分模型进入后续协作。这样虽然减少了后续融合的负担,但本质上仍然绕不开一个问题:为了决定该选谁,系统还是得先让所有模型都推理一遍。

于是,这篇工作的核心问题就变得非常直接:我们真的需要先让所有模型都回答一遍,才能决定该选谁吗?


  • 论文标题:RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

  • 论文链接:https://arxiv.org/abs/2601.18130

  • 代码链接:https://github.com/Jize-W/RouteMoA

一句话总结:RouteMoA 的核心思想是,通过在推理前进行模型能力预测,避免对所有模型进行无效推理。



现有方法的问题:

效率瓶颈不在融合,而在全量推理

当前 MoA 系列方法的一个共同假设是:要判断哪个模型更好,必须先看到它的输出。因此,无论是经典 MoA,还是引入 judge 的 Sparse MoA,本质上都绕不开一个步骤:所有模型先推理 -> 再筛选 -> 再融合。

这带来两个问题:

第一,计算成本无法下降。即使最后只用少数模型,前面已经为所有模型付出了推理代价。

第二,难以扩展到大模型池。当模型数量增加时,全量推理会迅速变得不可承受,甚至超出上下文限制。

也就是说,瓶颈并不在 “如何选”,而在 “选之前已经太贵了”。

RouteMoA:

把 “选模型” 前移到推理之前


RouteMoA 的关键创新,是把模型选择从 “后验判断” 变成 “先验预测 + 轻量修正”。

整个流程可以分为三个步骤:

1. 先验筛选:不推理,也能判断谁更可能做对

RouteMoA 引入了一个轻量级 scorer,只根据用户 query,就预测每个模型的潜在表现。这个过程不需要调用大模型推理,只做一个粗粒度打分,把模型池缩小到一个潜力子集。本质上,这是在做一件过去被忽略的事情:用 query 本身的信息,提前判断模型能力匹配度。

2. 后验修正:用已有输出做低成本评审

初筛不可避免会有误差,因此 RouteMoA 引入了 mixture-of-judges:

  • self-assessment:模型对自己的答案打分

  • cross-assessment:高质量模型评估其他模型

关键在于:这些评估只基于已经生成的输出,不引入额外推理调用。也就是说,系统通过已有信息进行纠错,而不是再算一轮。

3. 综合排序:性能、成本、延迟一起优化

最终,RouteMoA 在模型选择时不仅仅考虑性能,而是同时考虑:

  • 输出质量

  • token 成本

  • 推理延迟

从而在实际系统中实现一个更接近工程最优的决策,而不是单纯追求 accuracy。

实验结果:

少花 90% 的钱,反而更强

在包含 15 个模型的大规模模型池实验中,RouteMoA 的结果非常直观:

  • 成本降低 89.8%

  • 延迟降低 63.6%

  • 同时整体准确率相对 MoA 和 SMoA 有所提升

这说明一件事:减少无效计算,不仅不会伤害性能,反而会让系统更专注于对的模型。


一个关键洞察:

多模型系统的本质是稀疏的

论文中一个非常重要的观察是:在绝大多数 query 上,真正关键的模型只占少数。只要初始阶段能把这些模型保留下来,后续协作就足以放大正确答案。实验中,scorer 在 Top-3 内命中正确模型的概率接近 98%,这意味着:系统并不需要看所有答案,只需要别漏掉对的模型。

进一步分析:

失败不在选错模型,而在融合阶段


一个很有意思的发现是,在失败案例中:

  • 超过 50% 的错误来自最终答案融合(aggregation drift)

  • 而真正因为选错模型的比例要低得多

可见,多模型系统的瓶颈正在发生转移:从 “选谁来回答”,转向 “如何整合多个答案”。

总结:多模型时代,调度很重要

RouteMoA 的意义,并不只是一个更高效的 MoA 变体,而是提供了一种新的范式:

  • 不再默认所有模型都要参与

  • 而是先判断谁值得参与

  • 再用协作机制校正和放大正确答案

换句话说,随着多模型协作的兴起,系统层的调度与协同,正变得与模型能力同样重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再添一冠,弟媳随波尔图夺得葡超冠军,职业生涯已拿33冠

再添一冠,弟媳随波尔图夺得葡超冠军,职业生涯已拿33冠

懂球帝
2026-05-03 06:40:14
日本媒体惊呼:中国电动两轮车横扫越南,让本田措手不及

日本媒体惊呼:中国电动两轮车横扫越南,让本田措手不及

阿芒娱乐说
2026-05-02 01:54:13
你见过创业最惨的人是啥样?网友:我被前任刷了30万信用卡

你见过创业最惨的人是啥样?网友:我被前任刷了30万信用卡

带你感受人间冷暖
2026-04-07 00:15:06
安东内利三连杆!维斯塔潘头排发车!

安东内利三连杆!维斯塔潘头排发车!

五星体育
2026-05-03 05:20:40
悲哀!38.8万彩礼加20万下车礼,新娘进门清礼金,新郎坐旁吃残羹

悲哀!38.8万彩礼加20万下车礼,新娘进门清礼金,新郎坐旁吃残羹

火山詩话
2026-05-02 06:53:57
坚决反对中国建造核动力航母?不打仗优点多多,一打仗全是缺点?

坚决反对中国建造核动力航母?不打仗优点多多,一打仗全是缺点?

小嵩
2026-04-14 23:37:17
小米汽车全新子品牌曝光

小米汽车全新子品牌曝光

电动知家
2026-05-01 13:47:49
俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正恐怖的并非西方围堵,而是我们低估了自己

混沌录
2026-04-09 16:27:09
北电96级再聚首,黄晓明一身肌肉,赵薇罕见现身,52岁祖峰好沧桑

北电96级再聚首,黄晓明一身肌肉,赵薇罕见现身,52岁祖峰好沧桑

冷紫葉
2026-04-30 15:43:10
赫格塞斯下达新命令:不愿剃胡子的美国海军陆战队队员,强制退役

赫格塞斯下达新命令:不愿剃胡子的美国海军陆战队队员,强制退役

墨羽怪谈
2026-05-02 14:13:22
命硬!43岁墨菲轰4连鞭大逆转 第5次进决赛:或迎战第4位中国选手

命硬!43岁墨菲轰4连鞭大逆转 第5次进决赛:或迎战第4位中国选手

风过乡
2026-05-03 01:38:11
回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

回国后我才敢说:印尼是我去过的所有东南亚国家中,最被低估的

千秋文化
2026-04-28 20:20:16
令人愤怒“妈妈身上只剩4383块”事件:病态教育观,毁了多少孩子

令人愤怒“妈妈身上只剩4383块”事件:病态教育观,毁了多少孩子

夜深爱杂谈
2026-04-30 07:23:39
阿尔特塔:要谨慎安排萨卡的出场;也许该早点让斯凯利踢中场

阿尔特塔:要谨慎安排萨卡的出场;也许该早点让斯凯利踢中场

懂球帝
2026-05-03 04:27:04
汤尤杯战报:决赛对阵出炉!21-5,石宇奇暴打世界第3!阿尤什惨败

汤尤杯战报:决赛对阵出炉!21-5,石宇奇暴打世界第3!阿尤什惨败

求球不落谛
2026-05-03 01:37:31
汤尤杯第9日:国羽男女团晋级决赛剑指卫冕,王祉怡再战安洗莹

汤尤杯第9日:国羽男女团晋级决赛剑指卫冕,王祉怡再战安洗莹

钉钉陌上花开
2026-05-03 06:20:25
李镇全腓骨骨折后踢了7分钟,运动医学专家:不用手术,有望两个月左右康复

李镇全腓骨骨折后踢了7分钟,运动医学专家:不用手术,有望两个月左右康复

上游新闻
2026-05-02 17:15:17
高鑫夫妇给女儿过18岁生日,礼物收到手软是全家团宠,外貌像姥姥

高鑫夫妇给女儿过18岁生日,礼物收到手软是全家团宠,外貌像姥姥

白面书誏
2026-04-30 15:55:48
内存成本上升,库克不想再回答了

内存成本上升,库克不想再回答了

虎嗅APP
2026-05-02 23:20:05
比祖比门迪更强!阿森纳 3-0 大胜藏王炸,阿尔特塔找到新扎卡

比祖比门迪更强!阿森纳 3-0 大胜藏王炸,阿尔特塔找到新扎卡

奶盖熊本熊
2026-05-03 03:11:46
2026-05-03 08:27:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
531文章数 8351关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

伊朗公布伊方最新谈判方案: 总计14点提议 聚焦终战

头条要闻

伊朗公布伊方最新谈判方案: 总计14点提议 聚焦终战

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
健康
教育
手机
公开课

数码要闻

库克称MacBook Neo需求超出苹果预期:目前处于供应受限状态

干细胞治烧烫伤面临这些“瓶颈”

教育要闻

高考地理:分析黄土高原红土柱的形成过程

手机要闻

联想拯救者手机Y70新一代规格曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版