网易首页 > 网易号 > 正文 申请入驻

路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

0
分享至

MilkThink团队 投稿
量子位 | 公众号 QbitAI

事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了——

共计收集和整理了涉及8500+个LLM,在12个Benchmark上的共2亿条性能记录!



先来简单科普一下路由LLM。

这种方法主要是把像ChatGPT、Qwen、DeepSeek这些成型的LLM当作 “专家” ,当给一个输入的时候,有分类能力的Router(路由器)就会把这个输入分配给合适的LLM处理。

如此一来,就能实现高性能、低计算消耗、低幻觉等目标。

而来自中山大学普渡大学的研究人员在基于上述海量的记录做了一番探索之后,发现了一个现象,叫做Model-level Scaling Up

一言蔽之,就是一个好的Router,可以让路由LLM范式的性能随着LLM候选数量的增加迅速变强。

随后,他们通过这些数据构建了针对Router设计的评测RouterEval

值得注意的是,其他研究人员,也可以通过RouterEval在很少的计算资源下(如笔记本单卡GPU上)就能参与到该路由LLM的研究当中。

2亿条记录中发现的新现象

当大多数研究人员和开发者第一次听到Mixture-of-Expert (MoE) 的时候,可能第一反应不是现在常见的对结构中的FFN层进行扩展,以FFN层作为”expert”。

而是直接将每一个成型的LLM,比如ChatGPT、Qwen、DeepSeek等直接看做是”expert”。

实际上,这种范式也称为路由LLM(Routing LLMs)。



简单地说,就是给定一个输入input,一个具有一定分类能力的Router (路由器)会将input分配给指定的LLM进行处理,以达到高性能、低计算消耗或者是低幻觉等各种各样的目标,或组合目标。

这类问题可以被认为是分类问题、推荐系统问题、Agent规划甚至是检索问题(注意,不是检索数据for LLM,而是检索LLM for 数据)。

一些典型的例子有:

  1. 人机客服切换:机器人客服无法解决问题的时候自动切换到更高级的客服,比如更智能的机器人,甚至人类;
  2. 强弱LLM切换:比如困难问题给GPT4解决(费用贵),简单问题给GPT3解决(费用低)



△路由LLM (Routing LLMs)示意图

路由LLM具有很高的应用潜力和兼容性,不同LLM都可以被添加到LLM候选Pool中参与routing(包括异构LLM,各种tuning/pretraining方法下得到的LLM,等等),而且可以发挥很强的性能。

比如最近UCB提出的Prompt-to-Leaderboard以很低的训练成本,以路由LLM的范式下实现和需要数十万个GPU训练得到的Grok3相当的性能,并登上Arena排行榜第一。

然而当前路由LLM领域仍然存在一些挑战影响了Router的发展:

  1. 缺乏统一的benchmark。各个研究都在小范围的构建各种的benchmark进行研究;
  2. 当前benchmark不够全面:当前的工作一般只涉及少量的LLM、evaluations,而且大多数是闭源不公开。

于是,研究团队收集并整理且开源了涉及8567个不同LLMs在12个evaluations下2亿条性能记录,并通过这些记录发现:

  1. Model-level Scaling Up现象:有一定能力的Router,可以使得routing llm范式下的性能随着llm pool的扩大而迅速上升。过去的研究由于涉及的不同LLM较少,不容易观察到这个现象。
  2. 通过这些数据,我们构建了全面的针对Router设计的评测RouterEval。其全面性可以大大帮助Router设计的探索。鉴于该测评已经整理良好且很简洁,可以被看做是传统的分类问题,所有研究者都可以以很少的计算消耗(甚至单卡或笔记本电脑)参与该大模型的研究当中。



△Model-level Scaling Up现象示意图

利用2亿条性能记录,可以构建完美Router,即oracle Router ro:



接着,根据上式可以构建不同性能的Router ro(p),其中wm为随机Router,当p→1时,Router ro(p)越解决上界分类性能,当p→0时,ro(p)越接近随机Router。

从上图结果来看,随着LLM候选的数量增加,不同的evaluation在具有一定能力的Router下呈现了Scaling Up现象。

而性能一般的Router,比如随机Router则几乎没有Scaling Up现象。

且快速超过参考模型Ref. LLM的性能(参考模型一般是GPT4)。

另外团队还可以发现两个有趣的现象:



RouterEval涉及的LLM的参数分布

  1. 弱LLM也能组合出非常强的性能。上图给出了RouterEval中涉及的LLM的参数分布,LLM的参数为7B或以下的情况占优。文章发现,即使较弱的LLM也可以组合出不错的性能,比如5个性能在少于0.3的情况下,ro可以让他们互补优势在MMLU上达到0.95(超越GPT4)的性能。
  2. 少量的LLM候选已经足够。从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。

当前Router的结果

通过测试当前的已有的Routers的性能,可以发现现在Router仍然有很大的提升空间。

不过幸运的是,RouterEval进行的Router设计的实验不需要大量的计算资源,且可以融入不同的已有技术,包括few-show learning,数据增强、推荐系统、正则化方法、预训练模型、额外数据等等.

因此Router将有希望快速得到实质性改进。



以及,和当前一些其他范式的区别和关系如下:



  1. 推荐系统:Routing LLM其实是特殊的推荐系统,LLM的input是推荐系统中的user信息,LLM候选是推荐系统中的商品item,而性能记录则是推荐系统中的历史用户书记记录;
  2. LLM集成:一般LLM集成是post-decision,即让多个LLM完成推理后再合并。而Routing LLM是pre-decision,即在LLM推理前就要决定是哪个LLM来处理;
  3. LLM Fusion:LLM融合主要针对是同质的LLM的“合作”,而Routing LLM可以让“异质”(包括不开源)的LLM进行“合作”
  4. Mixture-of-Experts (MoE): Routing LLM是model-level的MoE

当然,研究团队也提出一些未来的挑战。

首先就是缺乏数据

要获得足够好的Router,当然的数据仍然远远不够,因为这些性能记录的数据一般不开源,且掌握在大公司手中,这需要全社区的共同努力。目前也可以通过算法一定程度缓解数据缺乏的问题。

其次是如何保持在多LLM候选情况下的Router性能的问题。

当LLM候选越多的时候,意味着Router要进行更多类的分类,这对于Router的训练来说具有很高的挑战性;

除此之外,还包括RouterEval目前只关注在性能

尽管routing llm可以考虑计算消耗、幻觉等其他目标。但是目前性能的水平还远远不够,如果现在就过度关注其他目标的话,可能言辞尚早。另外,计算消耗和幻觉等目标的数据不容易搜集,可能采集不到足够多的LLM的记录数据,仍然需要全社区的努力。

最后,就是部署的难度

即使足够强的Router可以获得,但是此时LLM候选的部署可能是新的瓶颈,这在计算机系统等领域中也有很多的研究角度,如计算负载,高效分配、动态模型激活等。幸运的是,从论文的观察来看,3-10个LLM已经能得到出色的结果。

GitHub和论文等地址放下面了,感兴趣的小伙伴可以深入研究一下哦~

代码地址:
https://github.com/MilkThink-Lab/RouterEval

论文地址:
https://arxiv.org/abs/2503.10657

论文合集:
https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

蒋介石私生活有多混乱?贴身秘书晚年才敢说破,宋美龄的做法绝了

回京历史梦
2025-03-27 18:21:52
萧敬腾夫妇网球馆打球,51岁林有慧初显老态,穿白T胸部下垂明显

萧敬腾夫妇网球馆打球,51岁林有慧初显老态,穿白T胸部下垂明显

娱圈小愚
2025-04-25 09:01:33
家长反映进泰达一队要交500万,于根伟亲自回复,却遭到球迷反驳

家长反映进泰达一队要交500万,于根伟亲自回复,却遭到球迷反驳

糗糗球事
2025-04-25 10:07:42
不要随便跟别人发生关系,当两个人发生了亲密关系,就会相互影响

不要随便跟别人发生关系,当两个人发生了亲密关系,就会相互影响

加油丁小文
2025-04-24 09:30:03
张继科谈2018年韩国赛退赛原因:抽签抽到队友才算数,那我不打了

张继科谈2018年韩国赛退赛原因:抽签抽到队友才算数,那我不打了

懂球帝
2025-04-24 23:52:53
广州暴雨,增城最大,最惨受害者出现,折腾20小时仍未到达目的地

广州暴雨,增城最大,最惨受害者出现,折腾20小时仍未到达目的地

春序娱乐
2025-04-25 13:22:56
1场定冠军!皇马决战巴萨:安帅计划变阵442,贝林挑大梁

1场定冠军!皇马决战巴萨:安帅计划变阵442,贝林挑大梁

叶青足球世界
2025-04-24 20:37:55
留守妇女,为啥总被坏人盯上?看完网友爆料我后背直冒冷汗!

留守妇女,为啥总被坏人盯上?看完网友爆料我后背直冒冷汗!

墙头草
2025-04-25 08:53:15
曾经“空接之城”的船长,保罗今日现身快船主场观战掘船G3

曾经“空接之城”的船长,保罗今日现身快船主场观战掘船G3

懂球帝
2025-04-25 12:14:22
莱昂纳德:快把佳得乐拿下去 小孩子不需要喝那玩意儿

莱昂纳德:快把佳得乐拿下去 小孩子不需要喝那玩意儿

直播吧
2025-04-25 13:50:07
广体确认直播!广东篮球联赛今夜开幕,朱芳雨携3大国手现场助阵

广体确认直播!广东篮球联赛今夜开幕,朱芳雨携3大国手现场助阵

体坛热消息
2025-04-25 10:30:26
“主战场”已定?中国没退路,美军要动手?解放军或面临两线作战

“主战场”已定?中国没退路,美军要动手?解放军或面临两线作战

蓝泾看一看
2025-04-24 10:10:56
世锦赛爆冷!世界冠军遭逆袭憾负沃拉斯顿,塞尔比无缘16强!

世锦赛爆冷!世界冠军遭逆袭憾负沃拉斯顿,塞尔比无缘16强!

世界体坛观察家
2025-04-25 07:09:54
600万网红在杭州被开黄腔辱骂,官方账号沦陷,网友:本地人都这样

600万网红在杭州被开黄腔辱骂,官方账号沦陷,网友:本地人都这样

小噎论事
2025-04-22 10:34:12
人一旦当了牛马之后,这牛马的气质立刻就出来了!东哥也不例外!

人一旦当了牛马之后,这牛马的气质立刻就出来了!东哥也不例外!

翻开历史和现实
2025-04-23 14:08:21
北影节晚宴暴露咖位:林志玲无人问津,金晨被冷落,c位雷打不动

北影节晚宴暴露咖位:林志玲无人问津,金晨被冷落,c位雷打不动

头号剧委会
2025-04-25 12:23:15
A股:股民要系好安全带,下午大盘会剧烈震荡,上涨还能保持吗

A股:股民要系好安全带,下午大盘会剧烈震荡,上涨还能保持吗

奔走的股票
2025-04-25 12:05:50
表面是演员,实际军衔却高到吓人,这4位明星个个深藏不露!

表面是演员,实际军衔却高到吓人,这4位明星个个深藏不露!

草莓解说体育
2025-04-25 01:51:46
《亮剑》中李云龙的最大原型不是王近山,陈赓大将儿子给出答案

《亮剑》中李云龙的最大原型不是王近山,陈赓大将儿子给出答案

老谢谈史
2025-04-25 11:26:33
3月0球!新梅西陨落!1亿身价虚高,不愿防守态度差,瓜帅做对了

3月0球!新梅西陨落!1亿身价虚高,不愿防守态度差,瓜帅做对了

阿泰希特
2025-04-25 12:54:07
2025-04-25 14:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
10369文章数 176116关注度
往期回顾 全部

数码要闻

蓝宝石PURE主板评测:超性价比打造3A游戏利器!

头条要闻

男子被打致偏瘫20个月后死亡年仅27岁 凶手获刑1年半

头条要闻

男子被打致偏瘫20个月后死亡年仅27岁 凶手获刑1年半

体育要闻

国乒的新掌门人,为什么是王励勤?

娱乐要闻

被网红丑化 杨坤不再沉默开始了反击!

财经要闻

王兴注定“永无宁日”

科技要闻

这届上海车展,没人靠流量活着

汽车要闻

限时优惠价29.98万元 BJ40增程赤兔版上海车展发布

态度原创

本地
艺术
家居
时尚
公开课

本地新闻

云游湖北 | 汉川文旅新体验:千年陶艺邂逅湖光

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

家居要闻

清徐现代 有温度有态度

成熟女性穿什么去上班?答案看这里,这些LOOK简约大方显气质

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版