网易首页 > 网易号 > 正文 申请入驻

北航提出专家协同框架,小尺寸大模型协同效果或优于巨无霸大模型

0
分享至

目前,以工业界为主导的大模型研究,主要通过拼算力、拼数据的方式,训练出一系列“巨无霸”大模型,并在各个评测榜单上争夺“头把交椅”,以此增强在大模型领域的影响力。

然而,这种以竞争内卷为主的“个人英雄主义”思路,不仅会让大模型在训练时消耗大量算力,还会导致其在真正应用时,出现推理成本过高而实用性不足的问题。

那么,为了解决上述问题,能否采用以合作共赢为主的“团队合作主义”思路,允许多个小尺寸大模型协同工作,以达到甚至优于那些参数量非常大的大模型才能实现的效果呢?

近期,来自北京航空航天大学的团队提出了一个利用评测榜单的专家协同框架 Bench-CoE。

该框架包含了一组由大语言模型驱动的专家模型(可以是多模态模型,其特点为用自然语言来交互信息),一系列评测榜单信息,以及一个用来选择专家模型执行具体任务的路由模型。

基于该框架,该课题组通过训练路由模型,针对具体的任务实例找到合适的专家模型来完成相应的任务。

近日,相关论文以《Bench-CoE: 一个利用评测榜单的专家协作框架》(Bench-CoE:a Framework for Collaboration of Experts from Benchmark)为题在预印本平台arXiv上发表 [1]。

北京航空航天大学博士研究生王元帅、赵金琨和硕士研究生张行健是共同第一作者,北京航空航天大学吴文峻教授和黄雷副教授担任共同通讯作者。

“这种利用评测榜单来训练路由的方式,核心在于如何基于评测榜单,给具体的一次任务实例打上标签,并将这些标签关联到对应的专家模型。”黄雷解释道。

具体来说,研究人员抽象总结了两类范式。

第一类是具体样例级的标签。

通过对评测榜单具体任务的一个测试样例进行测试,能够知晓待评测专家模型在这个测试样例上的执行情况。

第二类是科目级的标签。

评测榜单分层级评估大模型的不同能力,如数学、代码、物理等。

“我们可以把具体样例级的标签,看作团队成员在考试时做某道题的正确情况;而科目级的标签则看作团队成员具体的能力评价,如大学期间某门考试的评分或者某类考试的综合分。”黄雷说。

在此基础上,还存在一类必须考虑的问题,即如何评价该团队构建的专家协同模型是否优异。

原因在于,前文提到的路由是基于评测榜单训练的,假如研究人员也在这些评测榜单上评测专家协同模型,可能会导致后者产生过拟合评测榜单的风险。

因此,该课题组考虑了 Naïve 评测、分布内评测和分布外评测这三类评测方式,并通过实验发现,利用科目级的标签简单训练路由模型所构建的专家协同模型,在分布外评测下仍然优于单个最强的模型,这表明该模型具有较好的泛化能力。

不过,也要说明的是,在该研究中,研究人员给整个框架设定了一个基本假设:不存在一个专家模型在各方面都优于其他专家模型。

“我们认为这种假设是合理的,与‘三十六行,行行出状元;高矮胖瘦人,人人有长处’的古语非常相符。”黄雷说。

显然,这种基于专家协同并利用评测榜单来构建集成大模型 Bench-CoE 的方式,在大模型技术部署落地应用方面具有重大潜力。

首先,其训练成本非常低,仅用一块基础的图形处理器就能完成训练。

其次,Bench-CoE 在推理时强调,只选择一个小尺寸大模型去执行任务,开销要比那些“巨无霸”大模型小得多。

最后,由于借助评测榜单可以提前知晓这些小尺寸大模型的擅长之处,因此根据 Bench-CoE 的路由结果,可以比较清晰地知道所要执行的任务属于哪一类,从而能在一定程度上实现推理的可解释性。

而在目前研究的基础上,该课题组也计划进一步针对真实的应用场景构建 Bench-CoE。

例如,在专家模型层面,选择更具差异化、经过领域微调的小尺寸大模型;在路由训练层面,构建层次化路由,以实现输入数据的多模态性。

另外,他们还打算从机器学习的角度入手,更好地理解 Bench-CoE 的分布外泛化能力,并构建分布外泛化能力更强的路由算法。

参考资料:

1. Wang Y, Zhang X, Zhao J, et al. Bench-CoE: a Framework for Collaboration of Experts from Benchmark.arXiv:2412.04167, 2024.https://doi.org/10.48550/arXiv.2412.04167

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1351:1096!国民党投票结果出炉,郑丽文成大赢家,一队人马抵京

1351:1096!国民党投票结果出炉,郑丽文成大赢家,一队人马抵京

探史
2026-02-02 12:16:35
爱泼斯坦文件显示:印度总理莫迪为讨好美国总统,“听从建议”,访问以色列期间在特朗普面前唱歌跳舞

爱泼斯坦文件显示:印度总理莫迪为讨好美国总统,“听从建议”,访问以色列期间在特朗普面前唱歌跳舞

极目新闻
2026-02-02 11:18:22
俄罗斯警告塞尔维亚别乱来,中国不愿看到的一幕发生,武契奇急了

俄罗斯警告塞尔维亚别乱来,中国不愿看到的一幕发生,武契奇急了

有牙的兔纸
2026-01-30 03:33:01
全是假的!涉及多个品牌,检测结果触目惊心!很多人家里老人、小孩都在吃...

全是假的!涉及多个品牌,检测结果触目惊心!很多人家里老人、小孩都在吃...

上观新闻
2026-02-01 18:29:09
全球首次!宇树机器人-47.4℃极寒行走13万步:走出冬奥雪面图案

全球首次!宇树机器人-47.4℃极寒行走13万步:走出冬奥雪面图案

快科技
2026-02-01 15:37:05
爱泼斯坦的玩具岛:”球形口塞”玩具曝光,收藏大量特朗普主题照

爱泼斯坦的玩具岛:”球形口塞”玩具曝光,收藏大量特朗普主题照

遁走的两轮
2025-12-16 08:44:38
太骚了,阿什利-扬:我们都在讨论卡塞米罗的不看人传球助攻

太骚了,阿什利-扬:我们都在讨论卡塞米罗的不看人传球助攻

懂球帝
2026-02-02 14:55:18
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
中俄谈妥了,绍伊古连夜回国,临走前喊话高市:对日本的称呼变了

中俄谈妥了,绍伊古连夜回国,临走前喊话高市:对日本的称呼变了

知法而形
2026-02-02 09:33:30
白银再跌5%一度重挫8%,金银抛售潮继续

白银再跌5%一度重挫8%,金银抛售潮继续

金石随笔
2026-02-02 08:04:28
江苏省教育厅发布:假期不仅是孩子学业休整的驿站,更是全面发展的沃土,请理性看待校外培训,莫让假期变成“第三学期”

江苏省教育厅发布:假期不仅是孩子学业休整的驿站,更是全面发展的沃土,请理性看待校外培训,莫让假期变成“第三学期”

扬子晚报
2026-02-02 14:41:49
1988年授衔前,赵南起被匿名举报为“韩国间谍”,为何仍被授上将

1988年授衔前,赵南起被匿名举报为“韩国间谍”,为何仍被授上将

墨说古今
2026-01-18 22:56:11
朝鲜1月几乎没再给俄罗斯送武器了

朝鲜1月几乎没再给俄罗斯送武器了

桂系007
2026-02-01 05:23:02
余承东称之为黑马 全新问界M6电池信息曝光:最大100度

余承东称之为黑马 全新问界M6电池信息曝光:最大100度

快科技
2026-02-02 16:14:23
原来,女人这样看待男女关系:真心从不是“搞定”,而是彼此滋养

原来,女人这样看待男女关系:真心从不是“搞定”,而是彼此滋养

青苹果sht
2026-01-30 05:20:41
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
特朗普:世界“很快会看到”哈梅内伊的警告是否正确

特朗普:世界“很快会看到”哈梅内伊的警告是否正确

新华社
2026-02-02 11:05:02
贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

铭记历史呀
2026-01-26 19:39:13
四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

阿废冷眼观察所
2026-01-29 08:24:05
2026-02-02 17:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16211文章数 514582关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

健康
时尚
游戏
数码
公开课

耳石症分类型,症状大不同

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

《HighGuard》试玩:它正于争议旋涡中稳步向前

数码要闻

ACEMAGIC推出M5迷你主机:第14代酷睿HX处理器+ DDR4

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版