网易首页 > 网易号 > 正文 申请入驻

北航提出专家协同框架,小尺寸大模型协同效果或优于巨无霸大模型

0
分享至

目前,以工业界为主导的大模型研究,主要通过拼算力、拼数据的方式,训练出一系列“巨无霸”大模型,并在各个评测榜单上争夺“头把交椅”,以此增强在大模型领域的影响力。

然而,这种以竞争内卷为主的“个人英雄主义”思路,不仅会让大模型在训练时消耗大量算力,还会导致其在真正应用时,出现推理成本过高而实用性不足的问题。

那么,为了解决上述问题,能否采用以合作共赢为主的“团队合作主义”思路,允许多个小尺寸大模型协同工作,以达到甚至优于那些参数量非常大的大模型才能实现的效果呢?

近期,来自北京航空航天大学的团队提出了一个利用评测榜单的专家协同框架 Bench-CoE。

该框架包含了一组由大语言模型驱动的专家模型(可以是多模态模型,其特点为用自然语言来交互信息),一系列评测榜单信息,以及一个用来选择专家模型执行具体任务的路由模型。

基于该框架,该课题组通过训练路由模型,针对具体的任务实例找到合适的专家模型来完成相应的任务。

近日,相关论文以《Bench-CoE: 一个利用评测榜单的专家协作框架》(Bench-CoE:a Framework for Collaboration of Experts from Benchmark)为题在预印本平台arXiv上发表 [1]。

北京航空航天大学博士研究生王元帅、赵金琨和硕士研究生张行健是共同第一作者,北京航空航天大学吴文峻教授和黄雷副教授担任共同通讯作者。

“这种利用评测榜单来训练路由的方式,核心在于如何基于评测榜单,给具体的一次任务实例打上标签,并将这些标签关联到对应的专家模型。”黄雷解释道。

具体来说,研究人员抽象总结了两类范式。

第一类是具体样例级的标签。

通过对评测榜单具体任务的一个测试样例进行测试,能够知晓待评测专家模型在这个测试样例上的执行情况。

第二类是科目级的标签。

评测榜单分层级评估大模型的不同能力,如数学、代码、物理等。

“我们可以把具体样例级的标签,看作团队成员在考试时做某道题的正确情况;而科目级的标签则看作团队成员具体的能力评价,如大学期间某门考试的评分或者某类考试的综合分。”黄雷说。

在此基础上,还存在一类必须考虑的问题,即如何评价该团队构建的专家协同模型是否优异。

原因在于,前文提到的路由是基于评测榜单训练的,假如研究人员也在这些评测榜单上评测专家协同模型,可能会导致后者产生过拟合评测榜单的风险。

因此,该课题组考虑了 Naïve 评测、分布内评测和分布外评测这三类评测方式,并通过实验发现,利用科目级的标签简单训练路由模型所构建的专家协同模型,在分布外评测下仍然优于单个最强的模型,这表明该模型具有较好的泛化能力。

不过,也要说明的是,在该研究中,研究人员给整个框架设定了一个基本假设:不存在一个专家模型在各方面都优于其他专家模型。

“我们认为这种假设是合理的,与‘三十六行,行行出状元;高矮胖瘦人,人人有长处’的古语非常相符。”黄雷说。

显然,这种基于专家协同并利用评测榜单来构建集成大模型 Bench-CoE 的方式,在大模型技术部署落地应用方面具有重大潜力。

首先,其训练成本非常低,仅用一块基础的图形处理器就能完成训练。

其次,Bench-CoE 在推理时强调,只选择一个小尺寸大模型去执行任务,开销要比那些“巨无霸”大模型小得多。

最后,由于借助评测榜单可以提前知晓这些小尺寸大模型的擅长之处,因此根据 Bench-CoE 的路由结果,可以比较清晰地知道所要执行的任务属于哪一类,从而能在一定程度上实现推理的可解释性。

而在目前研究的基础上,该课题组也计划进一步针对真实的应用场景构建 Bench-CoE。

例如,在专家模型层面,选择更具差异化、经过领域微调的小尺寸大模型;在路由训练层面,构建层次化路由,以实现输入数据的多模态性。

另外,他们还打算从机器学习的角度入手,更好地理解 Bench-CoE 的分布外泛化能力,并构建分布外泛化能力更强的路由算法。

参考资料:

1. Wang Y, Zhang X, Zhao J, et al. Bench-CoE: a Framework for Collaboration of Experts from Benchmark.arXiv:2412.04167, 2024.https://doi.org/10.48550/arXiv.2412.04167

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
筱梅晒图,汪宝满月,桌子上仅摆6个菜,发文称简单即是幸福!

筱梅晒图,汪宝满月,桌子上仅摆6个菜,发文称简单即是幸福!

潮鹿逐梦
2026-03-26 11:02:11
“公路闪电”终于换代,但我觉得不如丰田

“公路闪电”终于换代,但我觉得不如丰田

差评XPIN
2026-03-26 09:57:20
谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

白面书誏
2026-03-24 14:41:16
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

爱下厨的阿酾
2026-03-26 14:06:19
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
王楚钦师娘爆料!孙颖莎无论是长相性格还是人品,都是无以伦比的

王楚钦师娘爆料!孙颖莎无论是长相性格还是人品,都是无以伦比的

大中国
2026-03-24 15:25:36
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
雷军彻底疯狂,小米拿下4000亿

雷军彻底疯狂,小米拿下4000亿

新浪财经
2026-03-25 23:42:55
江苏拿嵊泗列岛和浙江换南太湖这件事,真正吃亏的可能是上海

江苏拿嵊泗列岛和浙江换南太湖这件事,真正吃亏的可能是上海

今日搞笑分享
2026-03-26 14:04:48
小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

36氪
2026-03-24 08:09:09
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
吉林主场播放致敬姜宇星视频,球员泪洒球场

吉林主场播放致敬姜宇星视频,球员泪洒球场

懂球帝
2026-03-26 15:15:10
大势已去,53%反对票创纪录,梅洛尼公投惨败,意大利政坛要变

大势已去,53%反对票创纪录,梅洛尼公投惨败,意大利政坛要变

时尚的弄潮
2026-03-26 18:02:15
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
手拿15万,宋Ultra EV与海狮06 EV极致二选一,比亚迪双车型齐发

手拿15万,宋Ultra EV与海狮06 EV极致二选一,比亚迪双车型齐发

光电科技君
2026-03-26 22:56:51
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
张雪峰去世仅一天,老对手杜子建哭着解释:节目上对抗是为收视率

张雪峰去世仅一天,老对手杜子建哭着解释:节目上对抗是为收视率

离离言几许
2026-03-26 17:42:50
家长违停孩子开门杀撞人后逃逸?交警回应

家长违停孩子开门杀撞人后逃逸?交警回应

中国新闻周刊
2026-03-26 14:46:51
打出了准三双数据,但火箭后场新星对于比赛的影响力严重不足?

打出了准三双数据,但火箭后场新星对于比赛的影响力严重不足?

稻谷与小麦
2026-03-26 23:21:12
2026-03-26 23:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
旅游
房产
家居
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版