网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | CoTo:让LoRA训练渐入佳境,模型融合、剪枝样样精通

0
分享至



本文第一作者庄湛,香港城市大学和南方科技大学联合培养博士生,研究方向是迁移学习、扩散模型、大模型微调等。本文通讯作者魏颖,浙江大学「百人计划」研究员,博士生导师,研究方向包括持续学习、迁移学习、组合泛化以及在科学领域中的应用等。通讯作者张宇,南方科技大学副教授,研究方向包括深度学习、多任务学习、迁移学习、元学习以及在计算机视觉和自然语言处理方面的应用。

还在为 LoRA 训练不稳定、模型融合效果差、剪枝后性能大降而烦恼吗?来自香港城市大学、南方科技大学、浙江大学等机构的研究者们提出了一种简单的渐进式训练策略,CoTo,通过在训练早期随机失活一部分适配器,并逐渐提高其激活概率,有效缓解了层级不均衡问题,并显著增强了模型在多任务融合和剪枝等操作上的鲁棒性和有效性。该工作已被机器学习顶会 ICML 2025 接收。



  • 论文标题:Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation
  • 论文链接:https://openreview.net/forum?id=Zha2m39ZoM
  • 代码仓库:https://github.com/zwebzone/coto
  • 官网海报:https://icml.cc/virtual/2025/poster/44836

常规 LoRA 训练的隐藏缺陷

参数高效微调技术已成为预训练大模型在下游任务应用的关键技术。然而,尽管 LoRA 如此成功,它依然面临着一些棘手的问题:

1.「惰性训练」(Lazy Training):LoRA 的优化过程常常会陷入初始化点附近的次优解,限制了模型的泛化能力。

2.层级不平衡:在训练中,梯度更新往往集中位于模型的顶层适配器,导致底层适配器训练不足,整体性能受限。

3.下游操作困难:上述问题使得多个 LoRA 模型的融合和剪枝等下游操作变得非常困难,效果常常不尽人意。

CoTo 策略:何不让 LoRA 「渐入佳境」?

为了解决这些挑战,研究者们提出了 CoTo,其核心思想非常简洁直观:在训练初期,不必让每一层的训练「一拥而上」,而是让 LoRA 适配器 「循序渐进」 地参与训练。具体来说,CoTo 采用了一种渐进式的激活策略:

  • 训练初期:以一个较高的概率随机 「失活」 一部分 LoRA 适配器。这迫使模型在更新时不能过分依赖某几层,从而让梯度更均匀地流向所有层级,鼓励模型探索更广阔的参数空间。
  • 训练中后期:线性地提高适配器的激活概率,直到所有适配器都完全参与训练,回归到标准的微调模式。

这种 「先抑后扬」 的策略带来了诸多好处:它不仅促进了层级间的均衡优化,还显著提升了不同随机种子训练出的模型之间的线性模式连通性 (Linear Mode Connectivity, LMC) 和 Dropout 稳定性,为模型融合与剪枝打下了坚实的基础。



图 1:CoTo 渐进式激活示意图。训练初期(t <3T/4),适配器被随机失活(灰色部分),其激活概率 p (t) 随训练线性增长;训练后期,所有适配器保持激活。

实验结果

CoTo 最令人兴奋的贡献在于它极大地提升了 LoRA 模型的融合和剪枝能力,且 CoTo 本身也能在单任务的泛化性能和训练效率上带来提升。

更有效的模型融合

  • 线性插值准确率:在常识推理与图像分类任务中,对两个独立训练的 LoRA 模型进行线性插值时,标准 LoRA 的性能在融合点 (λ=0.5) 会急剧下降。相比之下,CoTo 模型展现了优越的线性模式连通性 (LMC),在整个插值路径上均能保持平滑且高效的性能过渡。
  • 多任务 LoRA 融合:在 GLUE 数据集上,无论是基于 LLaMA-2 (7B, 13B) 还是 DeBERTa-v3 模型,通过 CoTo 训练的 LoRA 模块在进行多任务合并时,其准确率均稳定超越了使用常规训练方法融合的基线模型。



图 2:常识推理任务的线性插值准确率。



图 3:图像分类任务的线性插值准确率。



图 4:使用 LLaMA-2-7B 和 LLaMA-2-13 模型进行多任务 LoRA 融合的准确率。

更鲁棒的模型剪枝

CoTo 的训练方式天然地增强了模型的剪枝容错能力。如下图所示,无论是在移除交替层、底层、中层还是高层适配器的结构化剪枝中,还是在不同稀疏度的非结构化剪枝中,CoTo-LoRA 的性能都全面超越了标准 LoRA。



图 5:结构化剪枝对比(左)和非结构化剪枝对比(右)。

性能与效率双提升

  • 性能更强:在涵盖视觉(11 个图像分类任务)、语言(8 个常识推理任务)和数学推理等多个领域的基准测试中,CoTo 都能稳定地提升包括 LoRA、DoRA、HiRA 在内的多种 LoRA 变体的性能。
  • 训练更快:由于在训练早期跳过了部分适配器的计算,CoTo 还能降低训练开销。例如,在 HiRA 上应用 CoTo,可以实现超 24%的训练加速!



图 6:在常识推理和数学推理上,基于不同 LoRA 变体和训练策略的性能提升。

消融实验

为了验证 CoTo 各个设计选择的合理性并探究其性能提升的根源,研究团队在训练阶段比例、激活概率曲线、嵌套 Dropout 策略、学习率和 LoRA rank 等多个方面进行了一系列严谨的消融实验。这些实验不仅证明了 CoTo 设计的合理性,也为我们提供了关于如何有效正则化 LoRA 的深刻见解。

令人欣喜的是,CoTo 的代码实现十分简洁,用户只需对现有 LoRA 训练流程做三步改动即可利用这一策略,感兴趣的读者可以访问代码仓库,亲自体验 CoTo 的效果!

总结

CoTo 通过一个简单而巧妙的渐进式训练策略,有效解决了 LoRA 训练中的层级不平衡和 「懒惰」 优化问题。它不仅提升了模型的单任务泛化能力,更重要的是,它极大地增强了 LoRA 适配器的可组合性与鲁棒性,让模型融合与剪枝等下游操作变得更加简单高效。CoTo 无需修改模型架构,可以作为即插即用的模块与各类 LoRA 方法无缝集成。文章中还提供了渐进优化和合作博弈两个角度深入分析了 CoTo 带来的优势。我们相信,这项工作将为参数高效微调领域的研究与应用带来新的启发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
传奇告别!曝C罗退役时间确认,放弃2亿欧高薪,还有3大遗憾

传奇告别!曝C罗退役时间确认,放弃2亿欧高薪,还有3大遗憾

夏侯看英超
2026-01-23 19:56:44
让无数玩家疯狂的“爆衣”系统,是如何一步一步发展成不可描述的

让无数玩家疯狂的“爆衣”系统,是如何一步一步发展成不可描述的

街机时代
2026-01-23 16:05:03
罕见!人民日报六评“西贝事件”,2026餐饮业如何打“信任战”?

罕见!人民日报六评“西贝事件”,2026餐饮业如何打“信任战”?

餐饮O2O
2026-01-24 04:47:10
废铁涨价不算啥!这类家家都有的废品暴涨60倍,翻出来就变现

废铁涨价不算啥!这类家家都有的废品暴涨60倍,翻出来就变现

科学发掘
2026-01-24 15:20:14
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

科学发掘
2026-01-23 11:00:01
南京人注意!南京市中心正在“向东扩容”,这2个地方躺赢!

南京人注意!南京市中心正在“向东扩容”,这2个地方躺赢!

智慧生活笔记
2026-01-24 10:32:46
24-25日广东省可见阳光 气温回升

24-25日广东省可见阳光 气温回升

广东天气
2026-01-24 15:41:57
爸妈给我大百万拆迁款,面对年入50万的不靠谱老公,还要继续忍吗

爸妈给我大百万拆迁款,面对年入50万的不靠谱老公,还要继续忍吗

我是三月鱼H
2026-01-23 16:11:41
载有73万桶石油的俄罗斯影子油轮陷入困境,在地中海“失控漂流”

载有73万桶石油的俄罗斯影子油轮陷入困境,在地中海“失控漂流”

山河路口
2026-01-24 16:55:00
甲流的元凶被查出,鸡肉没上榜,第1名大家或许每天都在接触!

甲流的元凶被查出,鸡肉没上榜,第1名大家或许每天都在接触!

路医生健康科普
2025-12-13 17:00:08
股民坐稳扶好了,下周周一周二两天,或将再次重演19年历史行情!

股民坐稳扶好了,下周周一周二两天,或将再次重演19年历史行情!

云鹏叙事
2026-01-24 13:37:23
广东5人找到土沉香就砍,将木块运回住处,再与买家视频商定价格

广东5人找到土沉香就砍,将木块运回住处,再与买家视频商定价格

雪灵谷
2026-01-23 21:07:02
朗朗爱妻吉娜怀二胎7月状态绝,只长肚子四肢依旧纤细。

朗朗爱妻吉娜怀二胎7月状态绝,只长肚子四肢依旧纤细。

岁月有情1314
2026-01-19 14:22:46
蒯曼做梦也没想到,自己7岁的妹妹,如今已经开始为她争光了

蒯曼做梦也没想到,自己7岁的妹妹,如今已经开始为她争光了

枫尘余往逝
2026-01-23 16:01:11
吴曦在申花热身赛爆发进球,用世界波敲开俄超劲旅大门,值得期待

吴曦在申花热身赛爆发进球,用世界波敲开俄超劲旅大门,值得期待

振刚说足球
2026-01-24 17:33:43
实探“抢猪肉”风波中的株洲小村:村民否认抢猪肉,对背上骂名感到憋屈,组织方称很内疚正配合调查

实探“抢猪肉”风波中的株洲小村:村民否认抢猪肉,对背上骂名感到憋屈,组织方称很内疚正配合调查

极目新闻
2026-01-24 10:56:06
闫学晶风波大结局!各路关系火速切割,最终苦果只能一人吞下去

闫学晶风波大结局!各路关系火速切割,最终苦果只能一人吞下去

小娱乐悠悠
2026-01-24 16:14:16
话有点糙,杜兰特与活塞球迷对喷:You can suck my di*k

话有点糙,杜兰特与活塞球迷对喷:You can suck my di*k

懂球帝
2026-01-24 11:22:13
李亚鹏前助理爆料:别把他捧成圣人,他只是个梦想情怀大的普通人

李亚鹏前助理爆料:别把他捧成圣人,他只是个梦想情怀大的普通人

小徐讲八卦
2026-01-21 10:20:13
演员刘琳:我一直想要孩子,35岁开始,第一次胎停,第二次又胎停

演员刘琳:我一直想要孩子,35岁开始,第一次胎停,第二次又胎停

南权先生
2026-01-22 15:47:36
2026-01-24 18:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

男子就医从尿道取出圆筒状、笔芯状异物 存留长达20年

头条要闻

男子就医从尿道取出圆筒状、笔芯状异物 存留长达20年

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

数码
教育
旅游
健康
房产

数码要闻

雷神黑武士·猎刃Pro系列台式整机开售,8999元起

教育要闻

成绩公布!南京这两所学校喜报刷屏!

旅游要闻

“我们的节日——欢欢喜喜过大年” 2026春节主题文化和旅游活动即将启幕,带你一站式乐享皖韵新年

耳石脱落为何让人天旋地转+恶心?

房产要闻

正式官宣!三亚又一所名校要来了!

无障碍浏览 进入关怀版