网易首页 > 网易号 > 正文 申请入驻

RobustMerge: 多模态大模型高效微调模型合并的全新范式

0
分享至



在 AI 技术飞速发展的今天,如何高效地将多个专业模型的能力融合到一个通用模型中,是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作,但是在高效微调领域,尚未有对模型合并范式清晰的指引。

因此,中科院、中山大学、北京大学的研究团队针对高效微调模型合并,提出了「方向鲁棒性」的概念,首次揭示了参数高效微调(PEFT)模块合并失败的根本原因是「方向不鲁棒」,而非传统认为的「符号冲突」,并提供了一个简单高效、无需额外成本的解决方案(RobustMerge)。

对于正在构建能够快速适应多种任务、且节省计算资源的 AI 系统的开发者和研究者来说,这项研究无疑提供了一把关键钥匙,为多模态大模型的高效应用开辟了新的可能性。

目前,文章被 NeurIPS 2025 接收并评为 Spotlight(Top 3.1%),代码、数据集和模型已全面开源。



  • 论文链接: https://arxiv.org/abs/2502.17159
  • 代码链接: https://github.com/AuroraZengfh/RobustMerge
  • 数据集链接: https://huggingface.co/datasets/AuroraZengfh/MM-MergeBench
  • Huggingface Paper: https://huggingface.co/papers/2502.17159

问题定义

在大模型时代,多模态大模型在提升任务性能的同时大大增加了计算量,由于过高的成本,动辄几十亿的参数使得并不是所有人都可以参与全量微调(Full Fine-Tuning, FFT)。于是,为了节省资源,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT),特别是 LoRA,成了主流。其可以通过只更新模型的一小部分参数,达到快速适应下游任务的目的。

而由于 LoRA 模块参数的有限性,其通常只能适应某一个特定的下游领域。如果我们需要为每个任务训练一个专家模型,那么就会有一大堆针对不同任务微调出来的 LoRA 模块,个个都只能解答所在领域的问题。这就像拥有一个装满专业工具的箱子,但每次只能使用一件工具,这显然不是所希望的。

更现实的场景是,怎么把这些模型组合成一个通用模型,处理多种任务,从解答科学问题到识别图像等所有微调的任务呢?传统的方法如多任务学习(Multi-task learning)通过混合所有任务的数据进行训练实现这一点,但这种范式存在两大问题:

1.训练成本:在所有数据上进行联合训练的过程耗时耗力,成本不可控;

2.训练数据:出于安全性和隐私考虑,并不总是能够直接获取到所有的原始数据。

针对这种情况,模型合并 (Model Merging) 被提出,其通过某种加权融合的方式,可以使得多个在特定领域数据上微调好的专家模型合并成一个通用模型,整个过程既不需要重新训练,也不需使用原始数据,从而以最小的代价完成知识整合,已经被证明在大模型时代具有较好的通用性和泛化性。

然而,由于两种微调方法参数分布的显著差异,当在 FFT 时代被证明有效的模型合并方法(如 Ties-merging、DARE)被直接用于合并 PEFT 模块时,效果往往大打折扣,有时甚至不如未经微调的 Zero-Shot 模型。



图 1 左:FFT 参数和 PEFT 参数分布的显著差异。 右:PEFT merge 方法在已见任务和未见任务上的性能比较

核心贡献:RobustMerge 针对 PEFT merge 这一问题,探究 PEFT merge 方法少且现有方法性能不佳的原因,找到问题的核心 ——方向鲁棒性(Direction Robustness),并给出了一个优雅的可行方案大幅提升 PEFT merge 性能。

研究动机与发现

首先需要研究 LoRA 模块与全量参数模块的区别。作者发现两个关键的区别:(1)LoRA 模块的参数分布显著大于全量微调的分布,说明其分布更广(Distinct Wider Distribution);(2)LoRA 天然的低秩性让其在 SVD 分解后的奇异值存在显著的差异(Stark Singular Values):

  • 头部奇异值:通常代表任务特定的知识,数值上很大表明其方向稳定。
  • 尾部奇异值:通常代表与当前任务无关或通用的知识,数值上很小表明其方向敏感,很容易改变其方向。



图 2 高效微调模型低秩模块在合并过程中的方向鲁棒性

基于以上观察,作者通过奇异值分解(SVD)的理论推导将 LoRA 模块的合并转化为各个奇异值向量的合并。合并时,这些不稳定的尾部方向很容易因干扰发生方向改变,从而引发性能的下降。

因此,可以得出,在 LoRA 合并的过程中,最重要的是维持方向稳定性。具体而言,由于数值更小,尾部奇异值的方向更加不鲁棒,需要通过某种方式维持其方向鲁棒性,进而增强多任务学习性能。

技术方法:RobustMerge

根据上述结论,成功的 PEFT 合并,关键在于保护低秩空间中每个奇异向量的方向。由于奇异值较大的方向更鲁棒,更不易被改变方向,故保护那些奇异值较小(但同样重要)的向量方向尤其重要,也是作者认为多任务性能下降的主要原因。

基于此,RobustMerge 提出了一个两阶段的合并策略:(1)修剪与参数互补缩放 (2)跨任务归一化。整个过程无需训练,即达到缩放增强尾部奇异值的方向稳定性,提升模型合并性能的目的。



图 3 RobustMerge 详细方法示意图

第一步:修剪与参数互补缩放 (Pruning and Complementary Scaling)

1. 修剪无效参数:传统合并方法(如 Ties-Merging)是为全参数微调设计的,由于其分布特别狭窄,因此通常认为冲突主要来自参数符号的改变(正负)。但在 PEFT merge 中,冲突的本质是方向不稳定性,而更加广泛的参数分布使得数值上更大的参数更有可能改变奇异值的方向。

因此第一步,根据参数的绝对大小(Magnitude)决定无效参数,将每个 LoRA 模块中排名后 k% 的小参数直接置零的方式:



这一步能有效抑制冲突的同时,为稳定方向打下基础。

2. 参数互补缩放:接着设计一个对角矩阵 S 来弥补因为参数修剪带来的性能损失。文中观察到 LoRA 矩阵 A 和 B 的不对称性(A 呈分布均匀,B 呈高斯分布),从 A 矩阵的统计特性中构建一个对角矩阵 S,对角元素根据下式计算得到:



这一步相当于给那些容易发生方向改变的尾部奇异值方向自适应地给予了更大的系数,从而稳住它们的方向,达到增强方向鲁棒性的目的。整个过程完全是不需要训练的,而且在不显式分解 LoRA 矩阵奇异值的情况下高效地进行缩放,拿来即用,计算量极小,这在工程上是巨大的优势。

第二步:跨任务归一化 (Cross-Task Normalization)

由于每个任务的数据量和难度各不相同,会导致上一步计算出的矩阵 S 不平衡。例如,某个数据丰富的任务可能会因为拟合程度较高而不是因为自适应缩放本身获得过大的缩放系数,从而影响泛化性能。为此,作者对所有任务的矩阵系数进行归一化:



这确保了模型的参数不会因为数据量的不一致产生大小区分,从而保证泛化性能。

第三步:PEFT 模块合并

将经过调整的 PEFT 模块进行融合,得到每个 LoRA 部分的参数权重:



得到每个部分的权重后通过加权融合的方式即可得到具备多任务知识和性能的通用模型。


实验设计与结果分析

作者在多个基准上测试了 RobustMerge,同时自建了一个名为MM-MergeBench的基准来全面测试模型合并方法在多模态大模型上的性能,包含了 8 个已见任务(Seen Tasks,模型训练过的)和 4 个未见任务(Unseen Tasks,全新的挑战),覆盖了问答、分类、描述、推理等多种任务,同时验证已见任务的多任务性能和未见任务的泛化性能。



图 4 多模态基准 MM-MergeBench 上的性能

已见任务:作者使用在 8 个任务上分别单独训练得到的模型进行合并,得到一个通用模型,并对这 8 个任务的性能进行测试。图中可以看出,RobustMerge 的平均准确率相较之前的方法取得了显著提升 (3.4%),表明所提出的方法有效减少了任务间干扰,提升多任务性能。

未见任务:为了验证合并模型的泛化性能,作者将合并得到的通用模型在 4 个从未见过的全新任务上进行验证,发现模型平均性能提升 4.5%,某些指标甚至超越了联合训练得到的模型,这有力地证明了所提出方法的泛化能力,有助于其在真实世界的使用。



图 5 通用能力基准上的性能

通用能力测试:同时在通用能力基准,如 POPE、MME 上,RobustMerge 也取得了令人印象深刻的结果,进一步证明了其通用能力。

深入分析

作者通过指标验证和可视化,直观深入揭示了 RobustMerge 成功的机制。

1. 方向鲁棒性验证:为了量化所提出的方向鲁棒性,作者定义了方向相似性和奇异值保留比率,并进行实验来直观表明其在合并前后方向的变化。

实验证明,传统方法会导致方向的显著改变和数值的较大变化,而 RobustMerge 则能更好地维持小奇异值对应向量的方向和幅度。这有效地量化了方向鲁棒性,并有力地证实了所提出方法的有效性。



图 6 方向鲁棒性的量化指标验证

2. 奇异值分布的变化:作者展示了在不同层中矩阵奇异值分布的变化,发现所提出的方法可以很好地做到自适应缩放所有奇异值,同时使得更小的奇异值缩放倍数更多,达到增强方向鲁棒性的目的。



图 7 奇异值分布随不同层的变化趋势

总结

1. RobustMerge 和与传统方法最大的区别是什么?

答:核心区别在于问题定义和具体分析。TIES-Merging 等传统方法主要针对全量微调模型,认为合并的性能下降主要来自参数的符号冲突。而RobustMerge 则发现对于 PEFT 方法而言,性能不佳的根本来源是方向不稳定性。所以,RobustMerge 有望开启 LoRA 合并的全新范式。

2. 能用在其他 PEFT 方法上吗?

答:不仅可以用于其他 PEFT 方法,甚至有更广阔的应用前景,因为其方向鲁棒性的核心思想 —— 在合并高效微调的多模态大模型时,我们不应只关注参数的 「数值」,更应关注它们所代表的「方向」—— 具有很强的普适性。

RobustMerge 的成功给我们带来的道理是简单却深刻的:在处理多源异构信息融合问题时,不能简单地进行线性叠加。必须首先分析每个信息源的「强度」和「特性」,对弱但重要的信号进行保护和增强,同时对强信号进行适当的归一化,才能得到一个鲁棒且全面的融合结果。

这个思想可以应用在推荐系统、多模态数据分析等多个领域,这些都是未来重要的研究方向。

3. 有什么实际应用价值吗

答:当然!形式上,只要一个 PEFT 方法可以被分解为低秩矩阵的形式,需要两种或者多种模型进行某种合并,RobustMerge 的思路就有可能被借鉴和扩展。其应用场景包括但不限于:

  • 多任务模型快速部署:企业可以为每个业务场景训练一个轻量 LoRA,然后用 RobustMerge 将它们融合成一个全能模型,极大降低服务成本。
  • 联邦学习 / 持续学习:在注重隐私的场景,各方只需上传 LoRA 模块,在中央服务器上用 RobustMerge 进行聚合,既保护了数据,又实现了模型迭代。
  • 模型编辑 / 风格迁移:对于需要多个模型进行知识迁移和融合的下游任务而言,RobustMerge 可以提供一个很好的基线和参考。

它提供了一种低成本、高效率、保护隐私的模型融合方案,通过精巧的、基于数学原理的无训练操作,同样可以实现强大的模型能力整合,对于希望快速构建复杂 AI 应用的企业来说,吸引力巨大。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
俄乌战争四年多,回头看看他们当初说的假话

俄乌战争四年多,回头看看他们当初说的假话

涛哥锐评
2026-03-26 17:47:45
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

快科技
2026-03-24 22:46:04
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
2026-03-26 19:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
时尚
家居
房产
健康

艺术要闻

哪一座桥不是风景?

皮衣+裙,高级到炸

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版