网易首页 > 网易号 > 正文 申请入驻

Meta超级智能实验室又发论文,模型混一混,性能直接SOTA

0
分享至

机器之心报道

编辑:陈陈

模型也要学会取长补短。

大语言模型(LLM)在众多领域展现出卓越的能力,但它们的训练依然高度依赖算力和时间,需要庞大的计算资源以及精细的训练流程设计。

模型 Souping(Model Souping) ,即对同一架构的多个模型进行权重平均,形成一个新的、更强的模型。相比训练一个庞大的统一模型,souping 更轻量、成本更低,同时能够融合模型的互补能力。

然而,传统的模型 souping 方式通常采用简单的均匀平均,即把所有候选模型的参数直接做等权融合。

本文中,来自 Meta、伦敦大学学院机构的研究者提出类专家 Soup(Soup Of Category Experts, SoCE),这是一种基于模型 Souping 的系统化方法,它利用基准测试的类别构成来挑选最优模型候选,并通过非均匀加权平均来最大化整体性能。

与以往均匀平均方法不同,本文基于一个关键观察:不同基准类别之间的模型性能往往呈现弱相关性。因此,SoCE 能够为每个弱相关的类别簇挑选对应的专家模型,并通过优化的加权方式(而非统一权重)将它们组合起来。

实验结果表明,SoCE 大大提升了模型效果与稳健性,包括在多语言能力、工具调用、数学推理等任务上,并在 Berkeley Function Calling 排行榜上取得了 SOTA 成绩。

  • 论文地址:https://arxiv.org/pdf/2511.13254
  • 项目地址:https://github.com/facebookresearch/llm_souping?tab=readme-ov-file
  • 论文标题:Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

方法介绍

SoCE 基于这样一个洞见:基准测试中不同类别的模型表现往往呈现高度异质的相关结构。不同模型在不同类别上展现出各自的专长,一些类别之间强相关,而另一些类别之间相关性较弱,甚至可能呈负相关。

研究者为了说明这一现象,他们选择分析 Berkeley Function Calling Leaderboard(BFCL)。BFCL 包含多种不同类型的函数调用任务,例如:多轮函数调用。这些任务分别测试模型不同方面的能力,因此非常适合用来观察类别间的能力相关性。

他们制作了一张相关性热力图(correlation heatmap),颜色越深代表相关性越强。

强相关(深绿色区域):多轮任务之间的相关性极高,介于 0.96 到 0.98 之间。这意味着一个模型如果在某个多轮任务上表现优秀,它通常在所有多轮相关场景中都能保持同样的优势。

弱相关甚至负相关(浅绿色区域):二者之间的相关性仅 0.07。这几乎意味着它们是两个完全不同的能力维度。一个模型即便在结构化的多轮场景中表现良好,也并不保证在真实用户采集的开放式函数调用任务中表现可靠。

SoCE 利用上述相关性模式,来有策略地选择并加权模型进行 souping(参数融合)。其核心思想是:为每个弱相关类别簇找到最擅长该类别的专家模型,并通过优化后的加权平均将它们融合,从而结合模型间互补的能力。

算法 1 对整个流程进行了形式化描述,包含四个关键步骤:

  • 相关性分析:识别类别之间的弱相关(或不相关)类别对;
  • 专家模型选择:根据性能排名,为每个类别挑选表现最好的专家模型;
  • 权重优化:寻找能最大化整体性能的加权方案;
  • 加权模型 souping:根据优化后的权重对模型进行加权融合,得到最终模型。

权重优化阶段,在一组统一的权重范围内进行搜索。具体而言,对每个模型的权重从 0.1 到 0.9,以 0.1 为步长,遍历所有可能的权重组合。

实验

作者进行了大量实验,以评估 SoCE 在多个维度上的有效性。

作者在 BFCL 基准上对两组模型进行了对比,分别是 700 亿参数和 80 亿参数的密集模型。

对于 70B 模型,他们从官方排行榜中筛选出 4 个候选模型,并在这些模型上应用了 SoCE 方法。结果显示,SoCE 在 BFCL 上取得了 80.68% 的准确率,创造了新的 SOTA,相比此前表现最佳的单模型 xLAM-2-70b-fc-r(78.56%)提升了 2.7%。

最佳模型配置由 xLAM-2-70b-fc-r、CoALM-70B 和 watt-tool-70B 组成,它们的最优权重分别为 0.5、0.2 和 0.3。

对于 8B 模型,SoCE 达到了 76.50% 的准确率,超越了此前 8B 模型 xLAM-2-8b-fc-r,相对提升达 5.7%。其最优权重配置为:

  • xLAM-2-8b-fc-r:0.7
  • ToolACE-2-8B:0.2
  • watt-tool-8B:0.1

作者还进行了消融研究,结果都显示,无论是 70B 还是 8B,SoCE 的模型选择步骤都带来了性能提升。

表 2a 展示了模型在 MGSM(Multilingual Grade School Math)基准上的实验结果。SoCE 的表现优于所有候选模型以及平均 souping。

随后,作者在 MGSM、BFCL、FLORES-36 等多个基准上,对大量候选模型的 checkpoint 进行了系统的 model souping 实验与评估,并据此得出以下关键结论:

类别间线性相关性在模型 Souping 之后显著提升:如图 2 所示。

各类别整体性能稳定提升:例如,对于在 Llama-70B 基础上微调的 checkpoint,在 37 项模型 Souping 实验中的 35 项中,Soup 后的候选模型在 36 个类别中有超过 20 个类别的指标得分更高,并且在所有类别上的净性能增益均为正(见图 5)。

图 3a 和 3b 所示,SoCE 能够找到不同类别的专长模型,从而带来显著性能提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李小璐发文“或后悔想重选”,贾乃亮更文引评论区支持!

李小璐发文“或后悔想重选”,贾乃亮更文引评论区支持!

默默有话说
2026-05-25 11:29:53
伊朗外交部:伊美达成共识“不意味着即将签署协议”

伊朗外交部:伊美达成共识“不意味着即将签署协议”

财联社
2026-05-25 15:32:26
我50岁才懂:给孩子找对象,穷人看彩礼,中产看学历,体制内只看这两点

我50岁才懂:给孩子找对象,穷人看彩礼,中产看学历,体制内只看这两点

心理观察局
2026-05-20 07:19:06
演员白羽汐官宣与父母断绝关系!虐待长达20年,饭里拌血多次自残

演员白羽汐官宣与父母断绝关系!虐待长达20年,饭里拌血多次自残

冷紫葉
2026-05-25 13:58:23
【2026.5.25】爆姐的饭后爆料:生命不止,爆料不息!

【2026.5.25】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-05-25 23:55:38
河南最大城商行原董事长,去向定了

河南最大城商行原董事长,去向定了

湘财Plus
2026-05-25 17:10:17
《亢奋》女星悉尼妹新集尺度戏出圈,理查·基尔儿子献荧屏首秀

《亢奋》女星悉尼妹新集尺度戏出圈,理查·基尔儿子献荧屏首秀

赴一场山海啊
2026-05-26 00:04:56
外交部:中方相关举措目的是制止日本“再军事化”和拥核企图

外交部:中方相关举措目的是制止日本“再军事化”和拥核企图

极目新闻
2026-05-25 14:41:11
菜市场泡“药水”的7种蔬菜,业内人从不食用,普通人却天天买

菜市场泡“药水”的7种蔬菜,业内人从不食用,普通人却天天买

复转这些年
2026-05-21 19:34:04
俄罗斯军事专家曾说:“美军撤离亚太前,定彻底清算这3个国家”

俄罗斯军事专家曾说:“美军撤离亚太前,定彻底清算这3个国家”

而长终
2026-05-16 11:00:49
窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

窦靖童在节目中称那英“老师”,却遭那英反问“叫我啥?” 曝婴儿时期叫“老那”,平时叫“那英阿姨”

天津生活通
2026-05-23 14:47:55
三星押注250TB起步硬盘:机械盘的末日来了?

三星押注250TB起步硬盘:机械盘的末日来了?

硬核玩家2哈
2026-05-25 03:15:32
警惕新型诈骗!广东一女子花110余万元买黄金投资,期待高额回报,提现时却傻眼了,警方紧急追回黄金;被骗女子:人赚不到认知外的钱

警惕新型诈骗!广东一女子花110余万元买黄金投资,期待高额回报,提现时却傻眼了,警方紧急追回黄金;被骗女子:人赚不到认知外的钱

大风新闻
2026-05-25 23:19:03
美以伊战争启示录|餐桌危机:不赚钱的冰美式外卖,不油炸的新德里炸鸡

美以伊战争启示录|餐桌危机:不赚钱的冰美式外卖,不油炸的新德里炸鸡

澎湃新闻
2026-05-25 07:18:30
巴基斯坦购65架土耳其隐形战机

巴基斯坦购65架土耳其隐形战机

烽火观天下
2026-05-24 12:59:09
消失3年的李健,早就不对劲了!

消失3年的李健,早就不对劲了!

蓝钻故事
2026-05-25 23:42:35
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

莫地方
2026-05-26 01:30:03
两个人都很正派的长相,很少见诶。

两个人都很正派的长相,很少见诶。

科学发掘
2026-05-25 15:02:51
中美法德都派人赴俄!泽连斯基暴怒:普京连话都说不清了,还打!

中美法德都派人赴俄!泽连斯基暴怒:普京连话都说不清了,还打!

探索新高度
2026-05-25 22:30:39
女人真正惦记的男人,都有这个共同点

女人真正惦记的男人,都有这个共同点

半勺甜心事
2026-05-25 00:30:33
2026-05-26 07:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13080文章数 142652关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

艺术
房产
家居
本地
公开课

艺术要闻

张大千最克制的十年温柔

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

家居要闻

生与命相依 旧公寓改造

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版