网易首页 > 网易号 > 正文 申请入驻

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

0
分享至

新智元报道

编辑:LRST 好困

【新智元导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务,使研究者可在单卡甚至笔记本电脑上开展前沿研究。这一突破不仅为学术界提供了低门槛的研究工具,更为大模型性能优化提供了新的思路:通过智能调度实现异构模型的协同增效,以极低的计算成本突破单一模型的性能上限。

当前大模型研究面临三大困境:算力垄断(顶尖成果集中于大厂)、成本壁垒(单次训练成本高,可能需要数千GPU小时)以及技术路径单一化(过度依赖单一模型的规模扩展)。

为突破这些限制,路由LLM(Routing LLM)范式应运而生——通过智能调度实现多个开源小模型的协同增效,以「组合创新」替代「规模竞赛」。

代码:https://github.com/MilkThink-Lab/RouterEval

论文: https://arxiv.org/abs/2503.10657

论文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

路由LLM实际上是model level的MoE(Mixture-of-Experts),传统MoE通过在模型内部扩展专家网络(如稀疏激活的FFN层)提升性能,而路由LLM将完整LLM视为独立「专家」,通过预训练Router动态分配任务输入。

三个大模型=OpenAI

这种范式具有三重优势:

  1. 异构兼容性:支持闭源模型(如GPT-4)、开源模型(如Llama系列)及专用微调模型的混合部署。

  2. 多目标优化:可根据场景需求,在性能、成本、风险控制等维度实现动态权衡

  3. 灵活部署:可根据实际需求动态调整候选模型池,针对特定场景(如代码生成、医疗问答)快速定制专属解决方案,而无需从头训练大模型

路由LLM范式的核心机制

路由LLM系统采用「输入-路由-执行器」三级架构,其中路由层是系统的智能中枢,承担着任务分配与资源调度的核心功能:

  1. 输入层:接收多样化的用户请求,包括文本生成、文本摘要、代码补全等任务

  2. 路由层:通过预训练Router对输入进行深度分析,基于多维度特征选择最优LLM执行器

性能优先模式:识别任务领域特征,匹配性能最优的LLM(当前版本核心目标)

成本优化模式:平衡性能与计算开销,选择性价比最高的LLM(后续版本特性)

风险控制模式:通过多模型交叉验证,降低单一模型的幻觉风险(后续版本特性)

  1. 执行层:由候选LLM池中被选定的模型完成实际推理,并将结果返回给用户

与MoE(Mixture-of-Experts)相比,路由LLM实现了两大突破:

协作粒度:在模型级实现专家协作,而非传统MoE的层间专家扩展

系统开放性:支持跨架构、跨训练阶段的LLM协同,包括闭源模型、开源模型及专用微调模型的混合部署

这种架构使得路由LLM既能继承MoE的动态优势,又突破了其封闭性限制,为构建开放、灵活的大模型协作系统奠定了基础。

RouterEval解决了什么问题?

研究人员系统性收集、整理并开源了涵盖8567个不同LLM在12个主流评测基准(包括MMLU、GSM8K等)下的2亿条性能记录,基于这些数据构建了面向 router的基准测试平台RouterEval,创新性体现在:

  1. 数据完备性:覆盖从7B到数百B参数规模的LLM,涵盖通用能力、领域专长等多维度的 Benchmark,为router设计提供了全面的训练与验证数据

  2. 研究低门槛化:所有性能记录均已预处理完成,研究者只需训练一个分类器(即router)即可开展实验,支持在单卡GPU甚至笔记本电脑上运行,极大降低了参与门槛

  3. 问题范式转化:将复杂的路由LLM问题转化为标准的分类任务,使研究者可复用成熟的机器学习方法(如few-shot learning、对比学习等)快速切入

8000+模型的参数量分布

基于RouterEval的海量数据,研究团队首次揭示了Model-level Scaling Up现象:在具备一定能力的router调度下,路由LLM系统的性能可随候选LLM池的扩大而快速提升。这一现象在以往研究中难以被观察到,主要受限于候选模型数量不足(通常<20个)。

RouterEval的发现

Model level scaling up现象

利用RouterEval基准中的2亿条性能记录,研究团队构建了理论性能上限——Oracle Router(r_o)。Oracle Router是一种理想化的路由器,它能够始终为每个输入选择性能最佳的LLM,因此代表了路由LLM系统的性能上限。

为了系统研究router性能对系统整体表现的影响,研究人员定义了router性能的连续谱系r_o(p):

  • 当p→1时,r_o(p)趋近于Oracle Router,代表分类性能接近理论上限

  • 当p→0时,r_o(p)退化为随机router,即随机选择候选LLM

  • 中间状态r_o(p)(0

实验结果表明:

  • 强router的scaling up效应:当p>0.3时,系统性能随候选LLM数量呈明显快速上升

  • 弱router的性能瓶颈:随机router(p=0)几乎未表现出scaling up现象

  • 超越参考模型:一般候选LLM数量在3~10且p在0.5~0.7时,系统性能可以接近甚至超过参考模型(参考模型一般是GPT-4)

候选模型数量m = 5

弱模型逆袭效应

通过智能路由调度,多个性能一般的LLM可以协同实现超越顶级单体模型的性能表现。例如,当使用Oracle Router(r_o)调度5个在MMLU基准上单独表现仅为0.2-0.3的弱模型时,系统整体性能可跃升至0.95,显著超越GPT-4(0.86)。

这一发现为资源有限的研究者提供了新的技术路径:无需追求单一超大模型,而是通过多个中小模型的智能组合实现性能突破。

候选池规模阈值

从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。

实验数据表明,路由LLM系统的性能提升存在明显的规模经济拐点:

  • 3-5个候选LLM:可覆盖大部分常见任务需求,部署成本相比单一顶级模型低。

  • 5-10个候选LLM:性能进入稳定提升期,在多数基准上可超越GPT-4等顶级单体模型

  • 多于10个候选LLM:性能增益存在边际效应,每增加1个模型带来的性能提升并不大

这一发现为实际部署提供了重要指导:在大多数应用场景下,维护一个5-10个模型的候选池即可实现性能与成本的最佳平衡。

例如,在智能客服系统中,组合使用GPT-4(复杂问题)、Llama-3-8B(常规问题)和Phi-3(意图识别)三个模型,即可在保证服务质量的同时将运营成本显著降低。

主要挑战

数据壁垒

要训练出高性能的router,当前可用的性能记录数据仍然远远不足。由于大多数LLM的性能数据掌握在少数科技公司手中且未开源,这需要整个研究社区的共同努力来构建更全面的数据集。目前,可以通过迁移学习、数据增强等算法技术在一定程度上缓解数据不足的问题;

多候选分类挑战

随着候选LLM数量的增加,router需要处理的分类任务复杂度显著上升。这不仅增加了模型训练的难度,也对router的泛化能力提出了更高要求。如何在保证分类精度的同时控制计算开销,是未来研究的重点方向之一;

多目标权衡局限

虽然路由LLM理论上可以同时优化性能、计算成本和幻觉风险等多个目标,但RouterEval目前仅聚焦于性能优化。这是因为当前router的性能水平尚未达到理想状态,过早引入多目标优化可能会分散研究重点。此外,计算成本和幻觉风险等指标的数据采集难度较大,需要社区共同推动相关数据集的构建;

部署复杂度

即使获得了高性能的router,实际部署仍面临诸多挑战。多个LLM的协同运行需要解决计算负载均衡、资源动态分配、模型高效激活等系统级问题。幸运的是,实验表明仅需部署3-10个LLM即可获得优异性能,这大大降低了实际应用的复杂度。未来研究可借鉴分布式计算领域的技术成果,进一步优化部署方案。

参考资料:

https://arxiv.org/abs/2503.10657

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
分手后是怎样复合的。看网友分享的小手段本人望尘莫及难怪我单身

分手后是怎样复合的。看网友分享的小手段本人望尘莫及难怪我单身

侃神评故事
2025-10-11 11:30:03
25岁小伙邀请38岁少妇过夜!女子两小时后却不堪忍受,真的受不了

25岁小伙邀请38岁少妇过夜!女子两小时后却不堪忍受,真的受不了

特特农村生活
2025-11-09 08:47:56
关于香港的现状,这些话不知当讲不当讲!

关于香港的现状,这些话不知当讲不当讲!

科学发掘
2025-11-07 11:55:52
推荐次顶配 长安第四代CS55PLUS购车指南

推荐次顶配 长安第四代CS55PLUS购车指南

车质网
2025-11-16 07:11:32
美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

心灵短笛
2025-05-15 15:12:03
火车上男孩总踢我座位,刚想教育他,他扔来张纸条,看后我立马报警

火车上男孩总踢我座位,刚想教育他,他扔来张纸条,看后我立马报警

悬案解密档案
2025-11-13 15:37:30
“南朝四百八十寺之一”被烧?——今日辟谣(2025年11月14日)

“南朝四百八十寺之一”被烧?——今日辟谣(2025年11月14日)

今日辟谣
2025-11-14 17:22:06
都是谁在买?1899元的iPhonePocket开售即售罄,39.9元高仿已现

都是谁在买?1899元的iPhonePocket开售即售罄,39.9元高仿已现

21世纪经济报道
2025-11-14 16:17:37
卷疯了!网约车司机一天跑12小时,月收入约4000元,7家平台退场

卷疯了!网约车司机一天跑12小时,月收入约4000元,7家平台退场

网约车观察室
2025-11-15 09:52:24
女歌手“阿珍”意外身亡,很多剧院都有的电动座椅竟如此危险?业内人士推测:事发时可能忘切电源

女歌手“阿珍”意外身亡,很多剧院都有的电动座椅竟如此危险?业内人士推测:事发时可能忘切电源

极目新闻
2025-11-14 20:10:12
81岁白韵琴在江门旅游,与小15岁丈夫依偎像母子!谢伟俊感慨颇深

81岁白韵琴在江门旅游,与小15岁丈夫依偎像母子!谢伟俊感慨颇深

户外小阿隋
2025-11-15 14:05:00
女同事欠我两万不还,说要钱没有要人随便,我迫不得已去了她家

女同事欠我两万不还,说要钱没有要人随便,我迫不得已去了她家

小莫哥哥野钓日记
2024-03-14 19:01:10
全运乒乓球结束,女乒世界最新排名,王曼昱孙颖莎排名更新

全运乒乓球结束,女乒世界最新排名,王曼昱孙颖莎排名更新

世间一分钟
2025-11-17 00:32:06
国常会部署“促消费稳投资”,新一轮降准降息有望实施

国常会部署“促消费稳投资”,新一轮降准降息有望实施

第一财经资讯
2025-11-16 20:52:20
G7发表联合声明,不许中国援俄,不许对台动武,不许阻止稀土出口

G7发表联合声明,不许中国援俄,不许对台动武,不许阻止稀土出口

花花娱界
2025-11-14 21:54:35
湖南一对夫妇冷战20年从不亲热,谁料,妻子突然去世,丈夫整理遗物才知真相...

湖南一对夫妇冷战20年从不亲热,谁料,妻子突然去世,丈夫整理遗物才知真相...

二胡的岁月如歌
2025-10-27 18:29:26
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

喜欢历史的阿繁
2025-11-08 15:09:21
女狱警痴迷“纹身坏男孩”,恋上囚犯,为爱改造身体?

女狱警痴迷“纹身坏男孩”,恋上囚犯,为爱改造身体?

新欧洲
2025-11-15 19:50:03
48岁女人网恋瑞士银行家,飞往瑞士后才知男友的真实身份

48岁女人网恋瑞士银行家,飞往瑞士后才知男友的真实身份

张道陵秘话
2025-11-08 00:00:15
知名女演员宣布已离婚,结束7年豪门婚姻

知名女演员宣布已离婚,结束7年豪门婚姻

早安英文
2025-09-28 05:33:37
2025-11-17 04:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13882文章数 66249关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

亲子
本地
手机
数码
公开课

亲子要闻

一分钟教你判断孩子的咳嗽代表什么

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

手机要闻

古尔曼:苹果iPhone正经历史上最大变革,iPhone 18/Pro分开发布

数码要闻

华为鸿蒙HarmonyOS 6.0.0.112版本首曝,支持电脑投平板

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版