网易首页 > 网易号 > 正文 申请入驻

FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

0
分享至

该项工作的作者分别是来自香港中文大学的博士生施柯煊,来自西湖大学的助理教授温研东,来自香港中文大学的计算机系助理教授刘威杨。

当前,基于通用基础模型进行任务特定微调已成为主流范式。这种范式虽然能够在各个特定任务上获得高性能的专家模型,但也带来新的挑战:如何将这些特定微调得到的专家模型的能力有效整合到单一模型中并且无需访问原始训练数据,实现多任务协通,同时最小化性能损失?

针对这一问题,研究者们提出了FDA(Model Merging with Functional Dual Anchors)——一个全新的模型融合框架。与传统的参数空间操作不同,FDA 将专家模型的参数知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合。

  • Title:Model Merging with Functional Dual Anchors
  • Arxiv:https://arxiv.org/pdf/2510.21223
  • Project page:https://spherelab.ai/fda/

FDA 的关键思想是:将参数中所蕴藏的任务知识,用输入空间的一组对偶的合成输入点(Dual Anchors)来表示;使用合成输入点所诱导的联合梯度,更新模型,以整合多任务知识。

具体来说,任务知识在参数空间上可以体现为模型最终的参数与初始参数的差异向量(任务向量,Task Vector)。FDA 为每一个专家模型,构造一组 Dual Anchors,使其能够在初始参数处诱导出与任务向量近似的梯度方向。相似的梯度方向,可以让 FDA 近似地模拟任务知识对预训练模型的函数偏移。

相比于任务向量将任务知识编码在参数空间,FDA 则通过诱导相似梯度在输入空间编码对应的任务知识。因此,FDA 相对于任务向量而言,是一组在函数功能上对偶的输入点。

FDA 将知识的整合过程,从参数空间迁移至输入空间。相比于先前的基于任务向量算术操作的框架,FDA 为当下的 Model Merging 问题提供了一种新的视角。为了兼顾性能与实用性,研究者还开发了基于分层策略的算法来部署 FDA 框架,使其可以扩展至超大规模的神经网络模型。实验结果表明,该方法在视觉、自然语言模型上表现出卓越的性能和可扩展性。

图 1:FDA 框架的示意图。

FDA 框架的直觉理解与动机

当前的主流 Model Merging 方法,本质是基于任务向量的算术操作,即对不同的任务向量进行线性组合,然后加至预训练参数,以获得一个多任务模型。因此,任务向量的算术操作,只能产生固定的合并路径;然而,FDA 方法则提供了一个可以根据融合过程中的损失函数景观诱导新合并路径的机会。研究者们将获得的 FDA 视作微调数据,逐步优化预训练模型的参数。

如下图所示,使用 FDA 进行优化时,模型会逐步靠近在八个下游数据集上计算得到的损失函数局部最小值(local minima)区域。相比之下,任务向量(task vectors)虽然能够在一定程度上提供来自预训练模型的优化方向,但它们往往会迅速偏离原本的损失盆地;而 FDA 则能够持续地引导优化过程朝向更有利的区域。FDA 的这一优势类比于联合多任务训练的灵活性。

FDA 的另一项核心动机在于:对输入空间进行建模通常比对参数空间建模更容易,因为输入空间往往具有更强的结构性(structured)。在知识迁移(knowledge transfer)的研究中,基于输入空间建模的有效性已被广泛探讨并通过大量实证验证。例如,在数据集蒸馏 [1, 2, 5, 6]、迭代式教学 [3, 4] 以及持续学习 [7, 8] 等领域的研究中,都充分展示了输入空间建模在促进知识高效迁移与压缩方面的强大潜力。

FDA 提供更灵活和鲁棒的融合路径

为验证FDA的有效性,研究者们将 FDA 用于对多种不同尺寸的预训练模型(80M、125M、400M、13B)进行适配,并将其多任务性能与对应的对偶框架(即任务向量方法,Task Vectors, TA)进行比较。为进一步验证其鲁棒性,研究者们在实验中将预训练模型初始化为通过无数据(data-free)任务向量方法融合得到的参数。研究者们共考虑了三种无数据融合方法:TA [9]、TSVM [10] 和 WUDI [11]。其中,TA 是经典方法,而 TSVM 与 WUDI 则代表当前的 SOTA 方法。部分实验结果如上表所示,更多结果可参考论文正文。

图 2:FDA 的部分实验的结果。

从结果中,研究者们得到两个关键观察结论:

观察 1:FDA 能够更有效利用模型编码的知识,实现高效的多任务模型融合:

与对偶框架 TA 相比,FDA 带来了显著的性能提升。使用 FDA 适配后的预训练模型在多任务场景下的平均性能达到 87.26,而 TA 方法仅为 73.94,提升幅度接近 18%;与此同时,平均 GLUE 分数也提升了 15.4%。

观察 2:FDA 具备灵活的知识建模能力:

尽管 FDA 与其他无数据、以参数为中心的方法(如 TA、TSVM、WUDI)使用了相同的任务特定知识,FDA 仍能在此基础上进一步提升融合模型的性能。在 ViT-B/16 上,FDA 的平均提升约为 5.10%,而在 RoBERTa-Large 上则达到约 13%,展示出其在不同架构下的通用性与强大适配能力。

FDA 算法实现

FDA 的实际算法流程主要包括两个阶段:FDA 的构建(Construction)和基于 FDA 的参数更新(Adaptation)。

有效的初始化策略应当将初始点的能量限制在由任务向量(task vector)所张成的尾部子空间(tail subspace)。

研究者们进而导出两种实用的初始化方案:线性权重采样(Linear weight sampling)和缩放高斯采样(Scaled Gaussian sampling),来进行初始化。

阶段二:该阶段利用阶段 1 构造得到的 FDA 对参数进行更新。具体来说,是阶段一的对偶过程。当初始参数本身为预训练参数时,研究者们直接用 FDA 对参数进行更新:

当初始参数初始化为基于任务向量方法的融合参数时,目标转变为对任务向量的调节:

研究者们将具体的算法流程整理成如下伪代码:

图 3:FDA 具体算法的伪代码。

FDA 所编码的任务知识

得益于 FDA 优越的性能,研究者们进一步探索 FDA 中编码知识的过程。研究者们通过系统的实证分析来揭示 FDA 背后潜在的机制:

观察一:在优化过程中,FDA 倾向于长尾结构。研究者们对 FDA 矩阵进行奇异值分解发现(图 4):无论采用何种初始化方式,在构建过程中归一化后的尾部奇异值均快速衰减。这表明:

  • FDA 有效捕捉了任务相关的主导表示方向;
  • 自动抑制了冗余或噪声成分;
  • 与任务特定知识在参数空间通常表现为低秩结构的观察一致。

图 4:FDA 的 SVD 谱。

观察二:在优化过程中,FDA 的高能量子空间逐渐与真实数据的高能量子空间对齐。鉴于 FDA 具有长尾结构(long-tailed structure),研究者们进一步通过投影矩阵(Projection Matrix)来衡量真实数据与 FDA 之间前若干主奇异向量(top singular vectors)子空间的相似性。

从图 5 的示例可以看到,随着优化过程的进行,这种相似性逐渐提高。这一结果表明,FDA 中所编码的知识与真实任务数据之间存在潜在的关联——即在优化过程中,FDA 逐步对齐了由真实数据所定义的任务相关子空间,从而在功能层面有效捕获了任务知识的本质结构。

图 5:FDA 的子空间对齐。

观察三:在优化过程中,FDA 所诱导的参数更新与真实数据所诱导的更新逐渐对齐。研究者们进一步从参数空间(parameter space)的角度分析 FDA 的性质,即考察其在模型参数上的诱导更新。具体而言,研究者们将这种由 FDA 引发的参数变化投影到由真实数据产生的参数更新向量所张成的非负锥空间(non-negative cone)中。

如图 6 所示,无论是在预训练模型还是融合模型中,投影能量(projection energy)都随着优化过程逐步上升。这一结果表明,FDA 在训练过程中不断产生稳定且具有方向性的任务特定功能偏移(task-specific functional shifts),即 FDA 的适配动态与真实任务学习过程在功能空间上形成一致性,从而体现出其在捕捉任务相关知识方面的稳健性与有效性。

图 6:FDA 的参数更新对应的投影比例。

更为详尽的讨论与实证结果见论文附录。

参考文献

[1] Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba, and Alexei A Efros. Dataset distillation.

[2] George Cazenavette, Tongzhou Wang, Antonio Torralba, Alexei A Efros, and Jun-Yan Zhu. Dataset distillation by matching training trajectories.

[3] Weiyang Liu, Bo Dai, Ahmad Humayun, Charlene Tay, Chen Yu, Linda B Smith, James M Rehg, and Le Song. Iterative machine teaching.

[4] Zeju Qiu, Weiyang Liu, Tim Z Xiao, Zhen Liu, Umang Bhatt, Yucen Luo, Adrian Weller, and Bernhard Sch¨olkopf. Iterative teaching by data hallucination.

[5] Bo Zhao, Konda Reddy Mopuri, and Hakan Bilen. Dataset condensation with gradient matching.

[6] Bo Zhao and Hakan Bilen. Dataset condensation with distribution matching.

[7] Hanul Shin, Jung Kwon Lee, Jaehong Kim, and Jiwon Kim. Continual learning with deep generative replay.

[8] Longhui Yu, Tianyang Hu, Lanqing Hong, Zhen Liu, Adrian Weller, and Weiyang Liu. Continual learning by modeling intra-class variation.

[9] Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, and Ali Farhadi. Editing models with task arithmetic.

[10] Antonio Andrea Gargiulo, Donato Crisostomi, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, and Emanuele Rodola. Task singular vectors: Reducing task interference in model merging.

[11] Runxi Cheng, Feng Xiong, Yongxian Wei, Wanyun Zhu, and Chun Yuan. Whoever started the interference should end it: Guiding data-free model merging via task vectors.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
大家不要再羡慕奚梦瑶了,因为我们永远成为不了她,这些点学不来

大家不要再羡慕奚梦瑶了,因为我们永远成为不了她,这些点学不来

科学发掘
2026-06-03 08:02:02
太讽刺啦,森林北素颜照曝光,可把汪峰彻底打醒咯

太讽刺啦,森林北素颜照曝光,可把汪峰彻底打醒咯

小邵说剧
2026-06-03 08:01:49
男子戴呼吸面罩防烟打卡昆山南站,直言受不了一点烟味

男子戴呼吸面罩防烟打卡昆山南站,直言受不了一点烟味

映射生活的身影
2026-06-02 22:21:44
1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

唠叨说历史
2026-06-01 19:49:35
055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

安安说
2026-06-02 12:46:29
中纪委重拳出击!2026年将“重点查处”5类人群,一个都别想跑

中纪委重拳出击!2026年将“重点查处”5类人群,一个都别想跑

细说职场
2026-06-02 20:33:47
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
U19国足被非洲球队横扫带来启示:业余球员赶紧转职业,职业球员尽量去欧洲

U19国足被非洲球队横扫带来启示:业余球员赶紧转职业,职业球员尽量去欧洲

文汇报
2026-06-03 04:12:09
网红董赤赤栽了:1300万粉丝、54万债务,她的结局比想象中惨得多

网红董赤赤栽了:1300万粉丝、54万债务,她的结局比想象中惨得多

橙星文娱
2026-06-03 11:31:20
法网最新赛程:中国金花生死战,或创大满贯新纪录,冲117万奖金

法网最新赛程:中国金花生死战,或创大满贯新纪录,冲117万奖金

刘姚尧的文字城堡
2026-06-03 09:19:58
雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰夹着尾巴逃了

雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰夹着尾巴逃了

趣文说娱
2026-06-02 18:19:31
和孔令辉分手13年,被黑人扛在肩上的马苏,终究走到了这一步

和孔令辉分手13年,被黑人扛在肩上的马苏,终究走到了这一步

暖心萌阿菇凉
2026-06-02 22:48:38
詹姆斯团队:已通知名记不要对他去向进行猜测 去哪儿仍成谜

詹姆斯团队:已通知名记不要对他去向进行猜测 去哪儿仍成谜

醉卧浮生
2026-06-03 09:18:04
善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

混沌录
2026-06-01 23:24:09
名记爆26届前四顺位已经确定:天赋远超其他球员,模板浓眉4号秀

名记爆26届前四顺位已经确定:天赋远超其他球员,模板浓眉4号秀

你的篮球频道
2026-06-03 10:33:35
有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

健康科普365
2026-05-30 16:30:29
骄傲!足球小将勇夺意大利杯冠军 董路展示五星红旗 球员空翻庆祝

骄傲!足球小将勇夺意大利杯冠军 董路展示五星红旗 球员空翻庆祝

念洲
2026-06-02 19:16:48
杜祥琬院士声明:网传报道不实 本人从未参与将核技术应用于垃圾焚烧

杜祥琬院士声明:网传报道不实 本人从未参与将核技术应用于垃圾焚烧

闪电新闻
2026-06-03 09:51:20
2026-06-03 13:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13154文章数 142660关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女生被"卖"大18岁男子生娃后领证 逃离后再婚生子获刑

头条要闻

女生被"卖"大18岁男子生娃后领证 逃离后再婚生子获刑

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

旅游
数码
教育
亲子
公开课

旅游要闻

栖霞:又到乡村甜蜜时 百花蜜香游客来

数码要闻

618显示器别瞎买!微星三款电竞屏任你选

教育要闻

1933年齐鲁大学自招考试,数学之部第一题,还是简单的

亲子要闻

推动幼儿园食安保障转向主动预防

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版