网易首页 > 网易号 > 正文 申请入驻

Meta超级智能实验室又发论文,模型混一混,性能直接SOTA

0
分享至



机器之心报道

编辑:陈陈

模型也要学会取长补短。

大语言模型(LLM)在众多领域展现出卓越的能力,但它们的训练依然高度依赖算力和时间,需要庞大的计算资源以及精细的训练流程设计。

模型 Souping(Model Souping) ,即对同一架构的多个模型进行权重平均,形成一个新的、更强的模型。相比训练一个庞大的统一模型,souping 更轻量、成本更低,同时能够融合模型的互补能力。

然而,传统的模型 souping 方式通常采用简单的均匀平均,即把所有候选模型的参数直接做等权融合。

本文中,来自 Meta、伦敦大学学院机构的研究者提出类专家 Soup(Soup Of Category Experts, SoCE),这是一种基于模型 Souping 的系统化方法,它利用基准测试的类别构成来挑选最优模型候选,并通过非均匀加权平均来最大化整体性能。

与以往均匀平均方法不同,本文基于一个关键观察:不同基准类别之间的模型性能往往呈现弱相关性。因此,SoCE 能够为每个弱相关的类别簇挑选对应的专家模型,并通过优化的加权方式(而非统一权重)将它们组合起来。

实验结果表明,SoCE 大大提升了模型效果与稳健性,包括在多语言能力、工具调用、数学推理等任务上,并在 Berkeley Function Calling 排行榜上取得了 SOTA 成绩。



  • 论文地址:https://arxiv.org/pdf/2511.13254
  • 项目地址:https://github.com/facebookresearch/llm_souping?tab=readme-ov-file
  • 论文标题:Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

方法介绍

SoCE 基于这样一个洞见:基准测试中不同类别的模型表现往往呈现高度异质的相关结构。不同模型在不同类别上展现出各自的专长,一些类别之间强相关,而另一些类别之间相关性较弱,甚至可能呈负相关。

研究者为了说明这一现象,他们选择分析 Berkeley Function Calling Leaderboard(BFCL)。BFCL 包含多种不同类型的函数调用任务,例如:多轮函数调用。这些任务分别测试模型不同方面的能力,因此非常适合用来观察类别间的能力相关性。

他们制作了一张相关性热力图(correlation heatmap),颜色越深代表相关性越强。



强相关(深绿色区域):多轮任务之间的相关性极高,介于 0.96 到 0.98 之间。这意味着一个模型如果在某个多轮任务上表现优秀,它通常在所有多轮相关场景中都能保持同样的优势。

弱相关甚至负相关(浅绿色区域):二者之间的相关性仅 0.07。这几乎意味着它们是两个完全不同的能力维度。一个模型即便在结构化的多轮场景中表现良好,也并不保证在真实用户采集的开放式函数调用任务中表现可靠。

SoCE 利用上述相关性模式,来有策略地选择并加权模型进行 souping(参数融合)。其核心思想是:为每个弱相关类别簇找到最擅长该类别的专家模型,并通过优化后的加权平均将它们融合,从而结合模型间互补的能力。

算法 1 对整个流程进行了形式化描述,包含四个关键步骤:

  • 相关性分析:识别类别之间的弱相关(或不相关)类别对;
  • 专家模型选择:根据性能排名,为每个类别挑选表现最好的专家模型;
  • 权重优化:寻找能最大化整体性能的加权方案;
  • 加权模型 souping:根据优化后的权重对模型进行加权融合,得到最终模型。

权重优化阶段,在一组统一的权重范围内进行搜索。具体而言,对每个模型的权重从 0.1 到 0.9,以 0.1 为步长,遍历所有可能的权重组合。



实验

作者进行了大量实验,以评估 SoCE 在多个维度上的有效性。

作者在 BFCL 基准上对两组模型进行了对比,分别是 700 亿参数和 80 亿参数的密集模型。

对于 70B 模型,他们从官方排行榜中筛选出 4 个候选模型,并在这些模型上应用了 SoCE 方法。结果显示,SoCE 在 BFCL 上取得了 80.68% 的准确率,创造了新的 SOTA,相比此前表现最佳的单模型 xLAM-2-70b-fc-r(78.56%)提升了 2.7%。

最佳模型配置由 xLAM-2-70b-fc-r、CoALM-70B 和 watt-tool-70B 组成,它们的最优权重分别为 0.5、0.2 和 0.3。

对于 8B 模型,SoCE 达到了 76.50% 的准确率,超越了此前 8B 模型 xLAM-2-8b-fc-r,相对提升达 5.7%。其最优权重配置为:

  • xLAM-2-8b-fc-r:0.7
  • ToolACE-2-8B:0.2
  • watt-tool-8B:0.1

作者还进行了消融研究,结果都显示,无论是 70B 还是 8B,SoCE 的模型选择步骤都带来了性能提升。

表 2a 展示了模型在 MGSM(Multilingual Grade School Math)基准上的实验结果。SoCE 的表现优于所有候选模型以及平均 souping。



随后,作者在 MGSM、BFCL、FLORES-36 等多个基准上,对大量候选模型的 checkpoint 进行了系统的 model souping 实验与评估,并据此得出以下关键结论:

类别间线性相关性在模型 Souping 之后显著提升:如图 2 所示。



各类别整体性能稳定提升:例如,对于在 Llama-70B 基础上微调的 checkpoint,在 37 项模型 Souping 实验中的 35 项中,Soup 后的候选模型在 36 个类别中有超过 20 个类别的指标得分更高,并且在所有类别上的净性能增益均为正(见图 5)。



图 3a 和 3b 所示,SoCE 能够找到不同类别的专长模型,从而带来显著性能提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发,多家车企大降价

突发,多家车企大降价

新行情
2026-01-12 17:26:13
78年,我和弟弟去大伯家借10斤大米,回家后母亲敞开米袋子哭了

78年,我和弟弟去大伯家借10斤大米,回家后母亲敞开米袋子哭了

小月文史
2024-08-30 15:32:41
领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

二胡的岁月如歌
2026-01-03 18:02:12
“2026年新增浙大班”?杭州一所重高发布严正声明

“2026年新增浙大班”?杭州一所重高发布严正声明

都市快报橙柿互动
2026-01-11 20:14:07
2026年3月起,许多手机将无法安装越南银行App,国产安卓受影响

2026年3月起,许多手机将无法安装越南银行App,国产安卓受影响

越南语学习平台
2026-01-12 10:26:36
2:3惜败巴萨!皇马错失新年首冠,阿隆索的赛后发言真的太low了!

2:3惜败巴萨!皇马错失新年首冠,阿隆索的赛后发言真的太low了!

田先生篮球
2026-01-12 08:56:01
老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

Thurman在昆明
2026-01-03 15:59:21
警惕!又一批非法社会组织被查处,其中佛山有......

警惕!又一批非法社会组织被查处,其中佛山有......

南方都市报
2026-01-12 19:10:15
伊朗最新表态 准备同美国进行谈判 也已做好战争准备

伊朗最新表态 准备同美国进行谈判 也已做好战争准备

每日经济新闻
2026-01-12 23:08:55
踢疯了:5-0横扫升班马,尤文图斯7场不败,反超罗马,逼近意甲第二

踢疯了:5-0横扫升班马,尤文图斯7场不败,反超罗马,逼近意甲第二

侧身凌空斩
2026-01-13 05:42:14
追觅CEO俞浩放言将打造人类首个百万亿美金公司生态

追觅CEO俞浩放言将打造人类首个百万亿美金公司生态

IT之家
2026-01-12 12:17:10
大数据查亲属岗:内蒙7441人被查,湖北查三代

大数据查亲属岗:内蒙7441人被查,湖北查三代

诗酒趁的年华
2026-01-12 10:36:32
河北农民宁可挨冻也不愿使用燃气采暖问题有望解决

河北农民宁可挨冻也不愿使用燃气采暖问题有望解决

且随他
2026-01-12 18:26:03
有种赚钱方式叫“信息差”网友:一年赚到了几辈子都花不完的钱!

有种赚钱方式叫“信息差”网友:一年赚到了几辈子都花不完的钱!

夜深爱杂谈
2026-01-07 21:42:47
航天发展:控股股东在异动期间减持838万股

航天发展:控股股东在异动期间减持838万股

每日经济新闻
2026-01-12 21:31:53
西安交大匿名校友伉俪向母校捐赠1亿元,该校此前有多对伉俪单次捐赠1亿元,复旦曾收到10亿元捐赠

西安交大匿名校友伉俪向母校捐赠1亿元,该校此前有多对伉俪单次捐赠1亿元,复旦曾收到10亿元捐赠

极目新闻
2026-01-12 17:26:12
黄燕品,到福建任职(附简历)

黄燕品,到福建任职(附简历)

大闽门户
2026-01-12 22:55:58
大陆已发26道通牒,赖清德儿子躲在美国,洪秀柱:统一光明可期

大陆已发26道通牒,赖清德儿子躲在美国,洪秀柱:统一光明可期

古事寻踪记
2026-01-13 07:07:44
57岁孔祥东现状:和80母亲上海生活,女儿定居美国,祖孙三代真像

57岁孔祥东现状:和80母亲上海生活,女儿定居美国,祖孙三代真像

丰谭笔录
2026-01-13 07:20:11
这8种东西不能用酒精擦,一擦就坏,再也修复不回来了!

这8种东西不能用酒精擦,一擦就坏,再也修复不回来了!

装修秀
2025-11-13 11:50:03
2026-01-13 07:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12100文章数 142535关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

医院施工不合格 监理白天要求拆除当晚被打折4根肋骨

头条要闻

医院施工不合格 监理白天要求拆除当晚被打折4根肋骨

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

亲子
时尚
艺术
家居
本地

亲子要闻

原来生气可以这么可爱的?傲娇宝宝:那可不咋滴!

看了日本主妇的搭配才明白,年纪大了这么穿,优雅又不油腻

艺术要闻

Andrew Festing:当代英国肖像画家

家居要闻

包络石木为生 野性舒适

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

无障碍浏览 进入关怀版