网易首页 > 网易号 > 正文 申请入驻

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

0
分享至

新智元报道

编辑:LRST 好困

【新智元导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务,使研究者可在单卡甚至笔记本电脑上开展前沿研究。这一突破不仅为学术界提供了低门槛的研究工具,更为大模型性能优化提供了新的思路:通过智能调度实现异构模型的协同增效,以极低的计算成本突破单一模型的性能上限。

当前大模型研究面临三大困境:算力垄断(顶尖成果集中于大厂)、成本壁垒(单次训练成本高,可能需要数千GPU小时)以及技术路径单一化(过度依赖单一模型的规模扩展)。

为突破这些限制,路由LLM(Routing LLM)范式应运而生——通过智能调度实现多个开源小模型的协同增效,以「组合创新」替代「规模竞赛」。

代码:https://github.com/MilkThink-Lab/RouterEval

论文: https://arxiv.org/abs/2503.10657

论文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

路由LLM实际上是model level的MoE(Mixture-of-Experts),传统MoE通过在模型内部扩展专家网络(如稀疏激活的FFN层)提升性能,而路由LLM将完整LLM视为独立「专家」,通过预训练Router动态分配任务输入。

三个大模型=OpenAI

这种范式具有三重优势:

  1. 异构兼容性:支持闭源模型(如GPT-4)、开源模型(如Llama系列)及专用微调模型的混合部署。

  2. 多目标优化:可根据场景需求,在性能、成本、风险控制等维度实现动态权衡

  3. 灵活部署:可根据实际需求动态调整候选模型池,针对特定场景(如代码生成、医疗问答)快速定制专属解决方案,而无需从头训练大模型

路由LLM范式的核心机制

路由LLM系统采用「输入-路由-执行器」三级架构,其中路由层是系统的智能中枢,承担着任务分配与资源调度的核心功能:

  1. 输入层:接收多样化的用户请求,包括文本生成、文本摘要、代码补全等任务

  2. 路由层:通过预训练Router对输入进行深度分析,基于多维度特征选择最优LLM执行器

性能优先模式:识别任务领域特征,匹配性能最优的LLM(当前版本核心目标)

成本优化模式:平衡性能与计算开销,选择性价比最高的LLM(后续版本特性)

风险控制模式:通过多模型交叉验证,降低单一模型的幻觉风险(后续版本特性)

  1. 执行层:由候选LLM池中被选定的模型完成实际推理,并将结果返回给用户

与MoE(Mixture-of-Experts)相比,路由LLM实现了两大突破:

协作粒度:在模型级实现专家协作,而非传统MoE的层间专家扩展

系统开放性:支持跨架构、跨训练阶段的LLM协同,包括闭源模型、开源模型及专用微调模型的混合部署

这种架构使得路由LLM既能继承MoE的动态优势,又突破了其封闭性限制,为构建开放、灵活的大模型协作系统奠定了基础。

RouterEval解决了什么问题?

研究人员系统性收集、整理并开源了涵盖8567个不同LLM在12个主流评测基准(包括MMLU、GSM8K等)下的2亿条性能记录,基于这些数据构建了面向 router的基准测试平台RouterEval,创新性体现在:

  1. 数据完备性:覆盖从7B到数百B参数规模的LLM,涵盖通用能力、领域专长等多维度的 Benchmark,为router设计提供了全面的训练与验证数据

  2. 研究低门槛化:所有性能记录均已预处理完成,研究者只需训练一个分类器(即router)即可开展实验,支持在单卡GPU甚至笔记本电脑上运行,极大降低了参与门槛

  3. 问题范式转化:将复杂的路由LLM问题转化为标准的分类任务,使研究者可复用成熟的机器学习方法(如few-shot learning、对比学习等)快速切入

8000+模型的参数量分布

基于RouterEval的海量数据,研究团队首次揭示了Model-level Scaling Up现象:在具备一定能力的router调度下,路由LLM系统的性能可随候选LLM池的扩大而快速提升。这一现象在以往研究中难以被观察到,主要受限于候选模型数量不足(通常<20个)。

RouterEval的发现

Model level scaling up现象

利用RouterEval基准中的2亿条性能记录,研究团队构建了理论性能上限——Oracle Router(r_o)。Oracle Router是一种理想化的路由器,它能够始终为每个输入选择性能最佳的LLM,因此代表了路由LLM系统的性能上限。

为了系统研究router性能对系统整体表现的影响,研究人员定义了router性能的连续谱系r_o(p):

  • 当p→1时,r_o(p)趋近于Oracle Router,代表分类性能接近理论上限

  • 当p→0时,r_o(p)退化为随机router,即随机选择候选LLM

  • 中间状态r_o(p)(0

实验结果表明:

  • 强router的scaling up效应:当p>0.3时,系统性能随候选LLM数量呈明显快速上升

  • 弱router的性能瓶颈:随机router(p=0)几乎未表现出scaling up现象

  • 超越参考模型:一般候选LLM数量在3~10且p在0.5~0.7时,系统性能可以接近甚至超过参考模型(参考模型一般是GPT-4)

候选模型数量m = 5

弱模型逆袭效应

通过智能路由调度,多个性能一般的LLM可以协同实现超越顶级单体模型的性能表现。例如,当使用Oracle Router(r_o)调度5个在MMLU基准上单独表现仅为0.2-0.3的弱模型时,系统整体性能可跃升至0.95,显著超越GPT-4(0.86)。

这一发现为资源有限的研究者提供了新的技术路径:无需追求单一超大模型,而是通过多个中小模型的智能组合实现性能突破。

候选池规模阈值

从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。

实验数据表明,路由LLM系统的性能提升存在明显的规模经济拐点:

  • 3-5个候选LLM:可覆盖大部分常见任务需求,部署成本相比单一顶级模型低。

  • 5-10个候选LLM:性能进入稳定提升期,在多数基准上可超越GPT-4等顶级单体模型

  • 多于10个候选LLM:性能增益存在边际效应,每增加1个模型带来的性能提升并不大

这一发现为实际部署提供了重要指导:在大多数应用场景下,维护一个5-10个模型的候选池即可实现性能与成本的最佳平衡。

例如,在智能客服系统中,组合使用GPT-4(复杂问题)、Llama-3-8B(常规问题)和Phi-3(意图识别)三个模型,即可在保证服务质量的同时将运营成本显著降低。

主要挑战

数据壁垒

要训练出高性能的router,当前可用的性能记录数据仍然远远不足。由于大多数LLM的性能数据掌握在少数科技公司手中且未开源,这需要整个研究社区的共同努力来构建更全面的数据集。目前,可以通过迁移学习、数据增强等算法技术在一定程度上缓解数据不足的问题;

多候选分类挑战

随着候选LLM数量的增加,router需要处理的分类任务复杂度显著上升。这不仅增加了模型训练的难度,也对router的泛化能力提出了更高要求。如何在保证分类精度的同时控制计算开销,是未来研究的重点方向之一;

多目标权衡局限

虽然路由LLM理论上可以同时优化性能、计算成本和幻觉风险等多个目标,但RouterEval目前仅聚焦于性能优化。这是因为当前router的性能水平尚未达到理想状态,过早引入多目标优化可能会分散研究重点。此外,计算成本和幻觉风险等指标的数据采集难度较大,需要社区共同推动相关数据集的构建;

部署复杂度

即使获得了高性能的router,实际部署仍面临诸多挑战。多个LLM的协同运行需要解决计算负载均衡、资源动态分配、模型高效激活等系统级问题。幸运的是,实验表明仅需部署3-10个LLM即可获得优异性能,这大大降低了实际应用的复杂度。未来研究可借鉴分布式计算领域的技术成果,进一步优化部署方案。

参考资料:

https://arxiv.org/abs/2503.10657

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方多个用词罕见!高市的“存亡危机”不在台海

中方多个用词罕见!高市的“存亡危机”不在台海

齐鲁壹点
2025-11-16 08:01:56
油箱见底了!打完这个赛季,可能退役的七位球星

油箱见底了!打完这个赛季,可能退役的七位球星

球毛鬼胎
2025-11-10 18:50:33
撒贝宁二胎实锤?全家公园野餐,李白小腹微凸腿长及老公腰疑怀孕

撒贝宁二胎实锤?全家公园野餐,李白小腹微凸腿长及老公腰疑怀孕

八星人
2025-11-16 16:02:30
“高中女生”VS“职高女生”对比图火了:差距太大,家长看清现实

“高中女生”VS“职高女生”对比图火了:差距太大,家长看清现实

妍妍教育日记
2025-11-16 11:50:00
科索沃队史首次杀入世欧预附加赛,并保有末轮直通世界杯的可能

科索沃队史首次杀入世欧预附加赛,并保有末轮直通世界杯的可能

懂球帝
2025-11-16 12:12:22
浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

红豆讲堂
2024-10-21 09:30:24
一旦台海爆发冲突,最难的不是台湾,而是距大陆仅50公里的东引岛

一旦台海爆发冲突,最难的不是台湾,而是距大陆仅50公里的东引岛

放开他让wo来
2025-11-08 22:41:14
曹德旺预言成真了?我国二三十层的电梯房,或将面临同一个结局

曹德旺预言成真了?我国二三十层的电梯房,或将面临同一个结局

石辰搞笑日常
2025-11-16 18:01:47
日本人眼中的日本,和中国人眼中的日本,相差有多大?

日本人眼中的日本,和中国人眼中的日本,相差有多大?

世界纵横说
2025-11-15 11:42:34
盲眼龙婆重返人间,带来2025惊天预言!世界末日真的会到来吗?

盲眼龙婆重返人间,带来2025惊天预言!世界末日真的会到来吗?

飞云如水
2024-11-15 23:16:08
“中国式买车”害人不浅,明明新车开回家,可为什么买完就后悔?

“中国式买车”害人不浅,明明新车开回家,可为什么买完就后悔?

阿芒娱乐说
2025-11-16 10:56:43
5.8万人军演!日本自卫队配合高市早苗亮刀?

5.8万人军演!日本自卫队配合高市早苗亮刀?

看看新闻Knews
2025-11-15 12:24:13
已确认,今天晚上抵达宁波!务必提前准备

已确认,今天晚上抵达宁波!务必提前准备

鲁中晨报
2025-11-16 15:37:08
三星Galaxy S26+真机现身,与传言高度一致

三星Galaxy S26+真机现身,与传言高度一致

三易生活
2025-11-16 18:53:17
空船出征!神舟二十二号紧急升空,变太空货拉拉,这才是王炸后手

空船出征!神舟二十二号紧急升空,变太空货拉拉,这才是王炸后手

李将平老师
2025-11-16 10:58:07
全运会铜牌赛圆梦:陈梦大爆发4-1横扫朱雨玲,斩获铜牌!

全运会铜牌赛圆梦:陈梦大爆发4-1横扫朱雨玲,斩获铜牌!

曹焋解说
2025-11-16 21:56:25
杀鸡儆猴,中方开始动真格了!德国想买稀土,就必须先交敏感数据

杀鸡儆猴,中方开始动真格了!德国想买稀土,就必须先交敏感数据

闻识
2025-10-29 15:34:13
日本诺贝尔奖获得者:如果中日再次开战,日本仍然有能力战胜中国

日本诺贝尔奖获得者:如果中日再次开战,日本仍然有能力战胜中国

文史达观
2023-12-31 21:33:06
就冲这个胸,这个扣子,不颁奖给她,都说不过去!

就冲这个胸,这个扣子,不颁奖给她,都说不过去!

另子维爱读史
2025-08-31 19:15:27
张国立也没想到,那个被他儿子暴打的童瑶,早已让他们高攀不上

张国立也没想到,那个被他儿子暴打的童瑶,早已让他们高攀不上

日不西沉
2025-11-13 12:41:02
2025-11-16 22:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13882文章数 66249关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

日高层:高市早苗今后应该不会再有此类发言

头条要闻

日高层:高市早苗今后应该不会再有此类发言

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

教育
时尚
亲子
手机
房产

教育要闻

聊天肉麻一点,女生真的很吃这套

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

亲子要闻

一分钟教你判断孩子的咳嗽代表什么

手机要闻

手机周报份额再次出炉:苹果份额微降仍第一,小米vivo等谁能突围

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

无障碍浏览 进入关怀版