网易首页 > 网易号 > 正文 申请入驻

大模型“取长补短”新思路入选NeurIPS'24,显著优于现有路由方法

0
分享至

RouterDC团队 投稿
量子位 | 公众号 QbitAI

高效组合多个大模型“取长补短”新思路,被顶会NeurIPS 2024接收。

名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于100M的参数)和计算高效性(不需要对于LLM进行梯度回传)的优势。

在具有挑战性语言理解、代码生成和数学推理等推理任务实验中,RouterDC在分布内(+2.76%)和分布外(+1.90%)设定下,都远超于现有的routing方法。

众所周知,LLM通常在不同数据集上预训练和微调,导致它们在不同任务上的性能强弱不同。

LLM路由则是一种组合多个LLM的新思路,它通过学习一个路由器(Router)来为每一个请求(query)选择最合适的LLM。在推理时,LLM路由只需要调用所选的LLM进行推理,使其在保持计算高效性的同时利用多个LLM的互补能力。

RouterDC这种新方法,包括一个较小的语言模型作为编码器和一系列与候选LLM对应的可学习的LLM embeddings

对于训练数据中的每个query,首先将候选LLM的预测与真实标签进行比较获得表现最好和最差的LLM,然后构造两个对比损失:

  • sample-LLM对比损失:使得query embedding(由编码器提取)与表现最佳的LLM embeddings相似,同时与表现最差的 LLM embeddings不相似。
  • sample-sample对比损失:提高训练的稳定性,将所有训练query聚类成多个组,最大化同组query之间的相似性的同时最小化不同组query之间的相似性。

这项研究由来自南方科技大学,香港科技大学的研究团队提出,以下是更为详细的介绍。

双对比学习实现Router训练

Router架构

如图1所示,RouterDC包括一个较小的语言模型(mDeBERTaV3-base)作为编码器ε,和一系列的与候选LLM对应的可学习LLM嵌入kT。对于每个query xi,RouterDC生成对于T个LLMs的选择概率如下:

其中,sim(·,·)表示cosine相似度。

△图1:RouterDC方法示意图

sample-LLM对比损失

为了训练router,研究者将query的样本嵌入和在其上表现最好的K+个LLM对应嵌入拉进,和在其上表现最差的K-个LLM对应嵌入拉远。因此,样本-LLM对比损失可以表示为:

sample-sample对比损失

研究者通过实验发现,在routing问题中只使用样本-LLM对比损失并不稳定,使得相似的query可能具有不相似的嵌入。

为了提升训练的鲁棒性,训练样本被聚类成不同的组,从而在训练中拉近同一个组内的样本,拉远不同组的样本。和样本-LLM对比损失类似,样本-样本对比损失可以公式化为:

训练及推理

最终的优化目标为最小化样本-LLM对比损失和样本-样本对比损失的结合:

推理时,每个测试query只需要通过训练好的router选取概率最大的LLM,并使用选择的LLM对query进行回答。

RouterDC在训练时不需要任何经过LLM的梯度回传,并且在推理时只需要调用进行一次LLM,同时具有训练和推理的高效性。

实验效果如何?

主要结果

RouterDC在分布内数据集的测试准确率结果如表1所示。可以发现:

RouterDC显著好于最优的单个模型,平均具有3.98%性能提升。在单个任务的层面,RouterDC在三个任务上相比表现最优的单个模型取得了准确率的提升,其中GSM8K提升了0.51%,ARC-C提升了0.57%,HumanEval提升了1.63%。

和现有路由方法CosineClassifier以及ZOOTER对比,RouterDC在所有任务上都具有更好的表现。和LoraRetriever对比,RouterDC具有平均2.77%的准确率提升。

△表1:分布内任务的测试准确率(%)

为了评估RouterDC的泛化能力,表2展示了RouterDC在三个分布外数据集(PreAlgebra,MBPP,C-EVAL)的测试准确率。

可以看出,RouterDC再次达到最高的测试准确率,显著超过表现最佳的单个LLM(dolphin-2.9-llama3-8b)1.9%。

△表2:分布外任务的测试准确率(%)

sample-sample损失的作用

为了探究样本-样本损失的作用,图3展示了在是否有样本-样本损失的条件下训练和测试准确率曲线。可以看出,RouterDC(w/o Lsample-sample)有明显的震荡现象,而RouterDC则稳定得多。

△图2:RouterDC在GSM8K任务上的训练和测试准确率曲线

图3(a)可视化了使用RouterDC(w/o Lsample-sample)提取的训练样本的TSNE特征,可以看到,属于不同任务的训练样本粗略地混合在一起。而在结合Lsample-sample之后,训练样本有了清晰的聚类结构(如图3(b)所示)。

△图3:学习到的router所提取出训练样本embedding的t-SNE可视化

RouterDC具有成本高效性

由于价格(cost)同样是一个评估LLM的重要指标,研究者通过RouterBench上的两个任务的实验来格外考虑cost的影响。如图16所示,RouterDC相比于CosineClassifier和ZOOTER更加的成本高效。

△图4:在RouterBench上使用不同的Cost获取的测试准确率

论文地址:https://arxiv.org/abs/2409.19886
代码地址:https://github.com/shuhao02/RouterDC

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国油轮在霍尔木兹海峡遇袭

中国油轮在霍尔木兹海峡遇袭

辇毂
2026-05-08 11:31:30
江苏一已婚男员工多次骚扰女领导,反复发送暧昧信息,被公司开除后起诉索赔,法院判了

江苏一已婚男员工多次骚扰女领导,反复发送暧昧信息,被公司开除后起诉索赔,法院判了

环球网资讯
2026-05-08 07:38:18
军购案协商再破局,赵少康称“被国民党中央骂”,国民党回应亮了

军购案协商再破局,赵少康称“被国民党中央骂”,国民党回应亮了

DS北风
2026-05-06 18:46:10
8日世乒赛:周启豪不上,王楚钦发文,林诗栋迎挑战,直播有变

8日世乒赛:周启豪不上,王楚钦发文,林诗栋迎挑战,直播有变

老嗮说体育
2026-05-08 07:32:59
“迪士尼”变“迪土尼”?上海迪士尼度假区回应:正制定解决方案

“迪士尼”变“迪土尼”?上海迪士尼度假区回应:正制定解决方案

财视传播
2026-05-06 15:11:30
婚宴白嫖烤全羊后续,录像还原纠纷细节,舆论风向变了,结局舒适

婚宴白嫖烤全羊后续,录像还原纠纷细节,舆论风向变了,结局舒适

阿纂看事
2026-05-06 18:10:28
豪掷重金!阿森纳冲击赛季双冠,球员最高可获213万镑巨奖

豪掷重金!阿森纳冲击赛季双冠,球员最高可获213万镑巨奖

星耀国际足坛
2026-05-08 11:44:17
男子16岁时便出轨嫂子,婚后瞒着妻子继续出轨,还与嫂子生下一子

男子16岁时便出轨嫂子,婚后瞒着妻子继续出轨,还与嫂子生下一子

老猫观点
2026-05-07 07:12:10
太高明!站在中国领土上,伊外长只提一个请求,特朗普急喊话中国

太高明!站在中国领土上,伊外长只提一个请求,特朗普急喊话中国

头条爆料007
2026-05-07 09:45:18
中东,突传大消息!特朗普威胁:伊朗“最好赶紧签协议”!伊朗:“美方会后悔的”

中东,突传大消息!特朗普威胁:伊朗“最好赶紧签协议”!伊朗:“美方会后悔的”

证券时报e公司
2026-05-08 12:25:32
鲁能第11轮中超还没开踢!足协就给克雷桑准备一份大礼,引发热议

鲁能第11轮中超还没开踢!足协就给克雷桑准备一份大礼,引发热议

振刚说足球
2026-05-08 10:20:15
雅马哈放弃的日本人,张雪找来当宝!让张雪机车少走10年弯路!

雅马哈放弃的日本人,张雪找来当宝!让张雪机车少走10年弯路!

趣味萌宠的日常
2026-05-07 19:51:53
女人偷完情,为何还要和老公同房呢?

女人偷完情,为何还要和老公同房呢?

思絮
2026-05-08 12:09:09
松岛辉空社媒:已拿铜牌冲击金牌!张本智和放话,德国2次被误判

松岛辉空社媒:已拿铜牌冲击金牌!张本智和放话,德国2次被误判

排球黄金眼
2026-05-07 23:40:50
一人遇险3人施救,4人均中毒后溺亡,厦门污水管修复改造工程“12·8”较大中毒和窒息事故调查报告公布:施工单位仅有劳务资质,多人被处理

一人遇险3人施救,4人均中毒后溺亡,厦门污水管修复改造工程“12·8”较大中毒和窒息事故调查报告公布:施工单位仅有劳务资质,多人被处理

大风新闻
2026-05-07 15:17:12
女子200万买下废弃四合院,当晚院中槐树一夜开花,道士网友:快跑

女子200万买下废弃四合院,当晚院中槐树一夜开花,道士网友:快跑

古怪奇谈录
2025-08-05 15:36:06
湖人半场大战雷霆,球员评分:2人满分、4人及格、2人崩盘

湖人半场大战雷霆,球员评分:2人满分、4人及格、2人崩盘

宝哥精彩赛事
2026-05-08 11:14:38
记者:首次参加世界杯的球员将穿印有首秀徽章的球衣

记者:首次参加世界杯的球员将穿印有首秀徽章的球衣

懂球帝
2026-05-08 02:45:06
李想:全新理想L9 Livis将基本解决长假充电“一桩难求”难题

李想:全新理想L9 Livis将基本解决长假充电“一桩难求”难题

CNMO科技
2026-05-07 16:14:04
人民日报旗下账号发声:海参崴街头,中国孩子为谁欢呼?

人民日报旗下账号发声:海参崴街头,中国孩子为谁欢呼?

历史总在押韵
2026-05-07 18:42:08
2026-05-08 12:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12589文章数 176461关注度
往期回顾 全部

科技要闻

追赶星舰:中国商业火箭离SpaceX有多远?

头条要闻

女子网购发现所在街道被"拉黑" 商家:"白嫖"的人太多

头条要闻

女子网购发现所在街道被"拉黑" 商家:"白嫖"的人太多

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

黄子佼获缓刑4年,无需入狱服刑

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

本地
游戏
教育
亲子
军事航空

本地新闻

用苏绣的方式,打开江西婺源

双人分屏合作 RC遥控赛车狂飙《双轮成行》试玩开启

教育要闻

成长的勋章:藏在细节里的家教智慧——张敬家教好故事

亲子要闻

大女儿入选学校合唱团独唱,这次挑了首英文歌,自信的样子真亮眼

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版