三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭|算法|复杂度|oracle

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

2025-04-08 12:05:26　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRST 好困

【新智元导读】路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准，通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务，使研究者可在单卡甚至笔记本电脑上开展前沿研究。这一突破不仅为学术界提供了低门槛的研究工具，更为大模型性能优化提供了新的思路：通过智能调度实现异构模型的协同增效，以极低的计算成本突破单一模型的性能上限。

当前大模型研究面临三大困境：算力垄断（顶尖成果集中于大厂）、成本壁垒（单次训练成本高，可能需要数千GPU小时）以及技术路径单一化（过度依赖单一模型的规模扩展）。

为突破这些限制，路由LLM（Routing LLM）范式应运而生——通过智能调度实现多个开源小模型的协同增效，以「组合创新」替代「规模竞赛」。

代码：https://github.com/MilkThink-Lab/RouterEval

论文: https://arxiv.org/abs/2503.10657

论文合集：https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

路由LLM实际上是model level的MoE（Mixture-of-Experts），传统MoE通过在模型内部扩展专家网络（如稀疏激活的FFN层）提升性能，而路由LLM将完整LLM视为独立「专家」，通过预训练Router动态分配任务输入。

三个大模型=OpenAI

这种范式具有三重优势：

异构兼容性：支持闭源模型（如GPT-4）、开源模型（如Llama系列）及专用微调模型的混合部署。
多目标优化：可根据场景需求，在性能、成本、风险控制等维度实现动态权衡
灵活部署：可根据实际需求动态调整候选模型池，针对特定场景（如代码生成、医疗问答）快速定制专属解决方案，而无需从头训练大模型

路由LLM范式的核心机制

路由LLM系统采用「输入-路由-执行器」三级架构，其中路由层是系统的智能中枢，承担着任务分配与资源调度的核心功能：

输入层：接收多样化的用户请求，包括文本生成、文本摘要、代码补全等任务
路由层：通过预训练Router对输入进行深度分析，基于多维度特征选择最优LLM执行器

性能优先模式：识别任务领域特征，匹配性能最优的LLM（当前版本核心目标）

成本优化模式：平衡性能与计算开销，选择性价比最高的LLM（后续版本特性）

风险控制模式：通过多模型交叉验证，降低单一模型的幻觉风险（后续版本特性）

执行层：由候选LLM池中被选定的模型完成实际推理，并将结果返回给用户

与MoE（Mixture-of-Experts）相比，路由LLM实现了两大突破：

协作粒度：在模型级实现专家协作，而非传统MoE的层间专家扩展

系统开放性：支持跨架构、跨训练阶段的LLM协同，包括闭源模型、开源模型及专用微调模型的混合部署

这种架构使得路由LLM既能继承MoE的动态优势，又突破了其封闭性限制，为构建开放、灵活的大模型协作系统奠定了基础。

RouterEval解决了什么问题？

研究人员系统性收集、整理并开源了涵盖8567个不同LLM在12个主流评测基准（包括MMLU、GSM8K等）下的2亿条性能记录，基于这些数据构建了面向 router的基准测试平台RouterEval，创新性体现在：

数据完备性：覆盖从7B到数百B参数规模的LLM，涵盖通用能力、领域专长等多维度的 Benchmark，为router设计提供了全面的训练与验证数据
研究低门槛化：所有性能记录均已预处理完成，研究者只需训练一个分类器（即router）即可开展实验，支持在单卡GPU甚至笔记本电脑上运行，极大降低了参与门槛
问题范式转化：将复杂的路由LLM问题转化为标准的分类任务，使研究者可复用成熟的机器学习方法（如few-shot learning、对比学习等）快速切入

8000+模型的参数量分布

基于RouterEval的海量数据，研究团队首次揭示了Model-level Scaling Up现象：在具备一定能力的router调度下，路由LLM系统的性能可随候选LLM池的扩大而快速提升。这一现象在以往研究中难以被观察到，主要受限于候选模型数量不足（通常<20个）。

RouterEval的发现

Model level scaling up现象

利用RouterEval基准中的2亿条性能记录，研究团队构建了理论性能上限——Oracle Router（r_o）。Oracle Router是一种理想化的路由器，它能够始终为每个输入选择性能最佳的LLM，因此代表了路由LLM系统的性能上限。

为了系统研究router性能对系统整体表现的影响，研究人员定义了router性能的连续谱系r_o(p)：

当p→1时，r_o(p)趋近于Oracle Router，代表分类性能接近理论上限
当p→0时，r_o(p)退化为随机router，即随机选择候选LLM
中间状态r_o(p)（0

实验结果表明：

强router的scaling up效应：当p＞0.3时，系统性能随候选LLM数量呈明显快速上升
弱router的性能瓶颈：随机router（p=0）几乎未表现出scaling up现象
超越参考模型：一般候选LLM数量在3~10且p在0.5~0.7时，系统性能可以接近甚至超过参考模型（参考模型一般是GPT-4）

候选模型数量m = 5

弱模型逆袭效应

通过智能路由调度，多个性能一般的LLM可以协同实现超越顶级单体模型的性能表现。例如，当使用Oracle Router（r_o）调度5个在MMLU基准上单独表现仅为0.2-0.3的弱模型时，系统整体性能可跃升至0.95，显著超越GPT-4（0.86）。

这一发现为资源有限的研究者提供了新的技术路径：无需追求单一超大模型，而是通过多个中小模型的智能组合实现性能突破。

候选池规模阈值

从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高，具有很高的性价比。

实验数据表明，路由LLM系统的性能提升存在明显的规模经济拐点：

3-5个候选LLM：可覆盖大部分常见任务需求，部署成本相比单一顶级模型低。
5-10个候选LLM：性能进入稳定提升期，在多数基准上可超越GPT-4等顶级单体模型
多于10个候选LLM：性能增益存在边际效应，每增加1个模型带来的性能提升并不大

这一发现为实际部署提供了重要指导：在大多数应用场景下，维护一个5-10个模型的候选池即可实现性能与成本的最佳平衡。

例如，在智能客服系统中，组合使用GPT-4（复杂问题）、Llama-3-8B（常规问题）和Phi-3（意图识别）三个模型，即可在保证服务质量的同时将运营成本显著降低。

主要挑战

数据壁垒

要训练出高性能的router，当前可用的性能记录数据仍然远远不足。由于大多数LLM的性能数据掌握在少数科技公司手中且未开源，这需要整个研究社区的共同努力来构建更全面的数据集。目前，可以通过迁移学习、数据增强等算法技术在一定程度上缓解数据不足的问题；

多候选分类挑战

随着候选LLM数量的增加，router需要处理的分类任务复杂度显著上升。这不仅增加了模型训练的难度，也对router的泛化能力提出了更高要求。如何在保证分类精度的同时控制计算开销，是未来研究的重点方向之一；

多目标权衡局限

虽然路由LLM理论上可以同时优化性能、计算成本和幻觉风险等多个目标，但RouterEval目前仅聚焦于性能优化。这是因为当前router的性能水平尚未达到理想状态，过早引入多目标优化可能会分散研究重点。此外，计算成本和幻觉风险等指标的数据采集难度较大，需要社区共同推动相关数据集的构建；

部署复杂度

即使获得了高性能的router，实际部署仍面临诸多挑战。多个LLM的协同运行需要解决计算负载均衡、资源动态分配、模型高效激活等系统级问题。幸运的是，实验表明仅需部署3-10个LLM即可获得优异性能，这大大降低了实际应用的复杂度。未来研究可借鉴分布式计算领域的技术成果，进一步优化部署方案。

参考资料：

https://arxiv.org/abs/2503.10657

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.