网易首页 > 网易号 > 正文 申请入驻

多轮LLM Router问世 Router-R1让大模型学会「思考–路由–聚合」

0
分享至

Haozhen Zhang 现为南洋理工大学(NTU)博士一年级学生,本工作完成于其在伊利诺伊大学厄巴纳-香槟分校(UIUC)实习期间。Tao Feng 为 UIUC 博士二年级学生,Jiaxuan You 为 UIUC 计算机系助理教授。团队长期聚焦 LLM Router 方向,已产出 GraphRouter、FusionFactory 及本文 Router-R1 等多项代表性研究成果。

“如果一个问题只需小模型就能回答,为什么还要让更贵的大模型去思考?”

在大语言模型(LLM)种类爆炸的时代,这个看似简单的问题,正成为 AI 系统设计的关键瓶颈。面对性能、延迟与成本的多重平衡,如何智能地在不同 LLM 之间分配任务,已经成为 AI 基础设施的新挑战。

近日,来自伊利诺伊大学香槟分校(UIUC)的研究团队在 NeurIPS 2025 上发布了新作:《Router-R1:Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》,本文提出了首个多轮 LLM Router 框架Router-R1,让 LLM 不止会 “回答”,还会 “思考、调度与协调其他模型” 来达到可控的性能与成本平衡。

  • 论文标题:Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
  • 作者团队: Haozhen Zhang, Tao Feng, Jiaxuan You
  • 机构: University of Illinois at Urbana-Champaign
  • 论文地址: https://arxiv.org/abs/2506.09033
  • 代码地址: https://github.com/ulab-uiuc/Router-R1

背景:从「一个模型回答所有问题」到「智能调度」

ChatGPT、Claude、Gemini、Qwen、LLaMA……,短短两年,LLM 家族已从寥寥数个增长到百余种。不同模型各有优势,有的擅长逻辑推理,有的在知识问答上精准,有的响应快、成本低。

但如今的 AI 应用,大多依赖单一模型推理,即用户问题会直接被送入某个固定的 LLM 中进行回答。这种方式虽然简单,但却意味着:简单问题可能导致算力浪费;复杂问题又可能因模型能力不足而回答错误。

因此,“LLM Router” 应运而生并正在成为 AI 系统的新前台大脑:不同于 Token-level Router(如 MoE),LLM Router 在 Query-level 层面进行路由,它能够判断一个问题的复杂度、匹配最合适的模型,甚至动态组合多个模型完成推理。

然而,现有的 LLM Router(如 GraphRouter、RouterDC 等)大多采用单轮决策机制:给定一个问题,只路由到一个候选模型完成回答,这种单轮路由机制难以处理多跳推理或跨领域的复杂任务。

Router-R1:让 Router 本身成为一个「会思考的 LLM」

本文提出的 Router-R1 的核心创新在于让 Router 自身成为一个具备推理能力的 Policy LLM。

也就是说,Router-R1 不再只是一个 “Query 分发器”,而是一个拥有思维链,能主动进行 “思考 — 选择模型 — 聚合” 的智能体,可以在思考,路由,聚合几种行为之间反复切换并进行多轮路由迭代,逐步构建最终答案:

  • 1️⃣Think(思考):在接收到 User Query 后,Router-R1 会首先执行 “思考” 阶段进行内部推理分析,并判断是否需要外部信息进行辅助;
  • 2️⃣Route(路由):若发现需要额外信息,Router-R1 则触发 “路由” 指令根据每个 LLM 的 Descriptor Prompt 动态调用合适的外部候选模型(如 Qwen、LLaMA、Gemma、Mixtral 等)进行回答子问题;
  • 3️⃣Aggregate(聚合):外部模型调用的回复结果返回后继续插入 Policy LLM 的 Evolving Context 进行聚合,并继续进行后续的多轮推理逐步生成最终答案。

这种 “思考–路由–聚合” 的交替机制,使 Router-R1 能充分利用不同 LLM 的互补优势(例如一个擅长数学推理、另一个擅长知识检索),潜在实现真正的多模型协同推理。

用强化学习教 Router 平衡性能与成本

Router-R1 将整个多轮路由过程形式化为一个序列决策问题,并通过强化学习训练 Router 使之学会在复杂决策空间中优化 Performance-Cost Trade-off。论文中设计了三类直观的奖励函数:

1️⃣ Format Reward:输出 Format 正确性奖励

确保模型输出严格遵守如

等格式约束,防止训练早期生成无效文本。

2️⃣ Final Outcome Reward:结果正确性奖励

采用 Exact Match(EM)指标衡量生成答案与标准答案是否完全一致,直接激励 Router 输出正确结果。

3️⃣ Cost Reward:成本约束奖励

Router-R1 创新地引入了计算成本奖励机制,根据被调用模型的参数规模及输出 Token 数设计反比例奖励函数:

综合三者后,Router-R1 的总奖励为:

其中超参 α 控制性能与成本的权衡程度。

七大基准全面领先:准确率 + 泛化性双提升

研究团队在7 个 QA Benchmark上对 Router-R1 进行了系统评测,涵盖单跳与多跳推理任务,包括 NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle。Router-R1 仅在 NQ 与 HotpotQA 数据集上进行训练,在其余数据集上执行 Out-of-domain Evaluation。

如上图所示,当 α=0 时(即只优化 performance 不考虑 cost),Router-R1 在所有数据集上达到了综合最强的性能,击败了如 GraphRouter/RouterDC 等单轮路由方法,并展现出了对 Unseen Dataset 的较强泛化性。

如上图所示,当继续改变超参 α 来探究性能成本权衡时,随着 α 增加,调用成本显著下降,为可控成本的 LLM 智能调度策略开辟了新的范式。

同时,为了检测 Router-R1 对外部候选 LLM 的泛化性,如上图所示在未参与训练的外部模型加入后,无需重新训练即可保证性能的相对稳定并在此基础上实现提升,显示出 Router-R1 优异的零样本迁移能力。

总结:迈向「多模型协同智能体」的时代

本文提出的 Router-R1 不是又一个 “更大的模型”,而是让多个模型协同工作的新范式。Router-R1 通过强化学习,让 LLM 从 “单一回答者” 进化为「多智能体协调者」,在性能与成本之间实现动态平衡。得益于此,Router-R1 能在减少算力和成本开销的同时保持高质量输出,降低大模型部署的环境与资源压力。Router-R1 天然支持模型重用与模块化组合,只需添加新模型描述即可快速集成,为构建可扩展、多模型共生的 AI 基础设施奠定了基础。

值得注意的是,最新的 GPT-5 技术报告也已明确采用 LLM Router 机制来进行不同版本模型的动态调度,这进一步印证了 Router-R1 所代表的趋势:多模型协同路由将成为未来大模型生态不可或缺的底层基础设施

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
季后赛首轮G2总结:湖人骑士雷霆引3组2-0 5组1-1战况激烈

季后赛首轮G2总结:湖人骑士雷霆引3组2-0 5组1-1战况激烈

醉卧浮生
2026-04-23 12:15:59
“曝李小冉退出浪姐”冲上热搜!李小冉发文

“曝李小冉退出浪姐”冲上热搜!李小冉发文

陈意小可爱
2026-04-21 20:02:49
国家其实已经暗示得很明白了,只是很多人一直没真正听明白!

国家其实已经暗示得很明白了,只是很多人一直没真正听明白!

Ck的蜜糖
2026-04-10 17:45:46
驻日武官王庆简:为日本潜伏20年出卖军事机密,却因一动作暴露身份

驻日武官王庆简:为日本潜伏20年出卖军事机密,却因一动作暴露身份

睡前讲故事
2026-02-03 20:55:43
“乌龙法规”引发关注,央媒:“空气法”荒唐剧映照形式主义积弊

“乌龙法规”引发关注,央媒:“空气法”荒唐剧映照形式主义积弊

澎湃新闻
2026-04-23 19:07:04
泽连斯基:美国,不要忘记乌克兰

泽连斯基:美国,不要忘记乌克兰

第一财经资讯
2026-04-23 20:19:36
迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

乔话
2026-04-22 20:36:30
全球外交大地震!美俄同月来访,世界终于认清,中国才是最稳码头

全球外交大地震!美俄同月来访,世界终于认清,中国才是最稳码头

何侦爱体育
2026-04-24 00:28:29
金价:大家不用等待!不出意外,金价或将历史重演

金价:大家不用等待!不出意外,金价或将历史重演

次元君情感
2026-04-23 06:39:45
麦迪:詹杜库还在闪耀因为有球权 我当年只能替补

麦迪:詹杜库还在闪耀因为有球权 我当年只能替补

体坛周报
2026-04-23 20:48:17
北京“最火驻京办”关门半个月重开业,菜有调整吗?饭点排队超1小时…

北京“最火驻京办”关门半个月重开业,菜有调整吗?饭点排队超1小时…

北京商报
2026-04-22 22:48:43
网购完剩下的“快递气柱袋”都能拿来干嘛?网友的点子,绝了

网购完剩下的“快递气柱袋”都能拿来干嘛?网友的点子,绝了

美家指南
2026-04-20 16:05:59
著名书法家、北京市文史馆资深馆员爱新觉罗·启骧逝世

著名书法家、北京市文史馆资深馆员爱新觉罗·启骧逝世

澎湃新闻
2026-04-23 14:06:27
当不成总统了?美国四大前总统联手,打响了扳倒特朗普的第一枪!

当不成总统了?美国四大前总统联手,打响了扳倒特朗普的第一枪!

春若秋水
2026-04-23 22:27:39
我结扎10年,44岁妻子突然怀孕,我没闹,亲子鉴定结果让我懵了

我结扎10年,44岁妻子突然怀孕,我没闹,亲子鉴定结果让我懵了

云端小院
2026-04-23 06:33:40
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
A股,尾盘传来一个“重磅利空”信号,明天,或将迎来大变盘!

A股,尾盘传来一个“重磅利空”信号,明天,或将迎来大变盘!

夜深爱杂谈
2026-04-23 19:52:51
张天爱太丰满了!穿挂脖裙都兜不住好身材,性感又撩人!

张天爱太丰满了!穿挂脖裙都兜不住好身材,性感又撩人!

小椰的奶奶
2026-04-23 18:12:08
88号女技师这按压力度也太大了点吧?看完动图真是墙都不扶就服你哈哈

88号女技师这按压力度也太大了点吧?看完动图真是墙都不扶就服你哈哈

经典段子
2026-04-23 22:35:18
后续来了!被保安扇耳光女士确诊耳膜穿孔,新线索对保安不利

后续来了!被保安扇耳光女士确诊耳膜穿孔,新线索对保安不利

蜜桔娱乐
2026-04-23 08:32:28
2026-04-24 01:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12839文章数 142635关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

时尚
家居
旅游
数码
房产

李昀锐:林深见木

家居要闻

浪漫协奏 法式风格

旅游要闻

山西运城牡丹园免费开放,游客偷花:老板含泪闭园

数码要闻

799元!小米推出米家无线吸尘器4C:170AW大吸力、75分钟长续航

房产要闻

三亚安居房,突然官宣!

无障碍浏览 进入关怀版