网易首页 > 网易号 > 正文 申请入驻

研究人员打造BiDoRA解决DoRA耦合,以高效微调解锁小数据潜力

0
分享至

如今,像 GPT 系列这样的大模型已经展现出了惊人的通用能力,但要让它们在某个具体领域发挥最大效力,还需要进行“微调”(Fine-Tuning)。传统的“完整微调”方法,需要调整模型中全部的数百亿甚至千亿参数,这不仅需要海量的计算资源(比如数十上百块顶级 GPU),训练时间也十分漫长。因此,“参数高效微调”(PEFT,Parameter-Efficient Fine-Tuning)技术应运而生,它旨在只调整模型中极小一部分的参数,就能达到接近甚至超越完整微调的效果。

在 PEFT 家族中,LoRA 是一个里程碑式的工作。而研究团队关注到,业内最近提出的 DoRA(Weight-Decomposed Low-Rank Adaptation)在 LoRA 的基础上更进了一步。DoRA 的核心思想是,它认为模型权重的更新,可以被分解为“大小”(magnitude)和“方向”(direction)两个独立维度的变化。这个洞察非常深刻,因为它更贴近模型在完整微调时的真实动态。通过这种分解,DoRA 确实在很多任务上超越了 LoRA。

然而,在深入研究 DoRA 的过程中,研究团队发现它虽然方向走对了,但仍然存在一些问题。DoRA 在训练时,是同时优化大小和方向这两个部分的,并且用的是同一份训练数据。研究团队认为这种“耦合”的优化方式会带来两个关键问题:第一,它让模型的能力过于强大,很容易“死记硬背”训练数据,导致在面对新数据时表现不佳,也就是人们常说的“过拟合”。第二,大小和方向的同步更新会形成一种内在的牵制,限制了模型寻找最优解的学习能力。

所以,研究团队这次研究的核心目标非常明确:保留 DoRA 关于权重分解的深刻洞察,但要打破其大小和方向更新过程中的耦合性。因此,其希望设计一种新的训练范式,能够让这两个组件的优化过程分离开来,从而有效抑制过拟合,使其性能表现能再上一个台阶。

针对上面提到的问题,研究团队最终研发出了一种全新的 PEFT 方法,称为 BiDoRA(Bi-level Optimization-Based Weight-Decomposed Low-Rank Adaptation)。它的核心是一种基于双层优化(Bi-level Optimization)的训练框架。

它将原本一体化的训练过程,巧妙地拆分成了两个相互嵌套、异步进行的循环。具体来说,研究团队会把训练数据分成训练集和验证集两部分。在“内层循环”里,先“冻结”住权重的大小(magnitude),只用训练集来学习权重的“方向”(direction)。这一步的目标是,在给定大小的情况下,找到最好的方向。接着,在“外层循环”中,研究团队利用刚刚在内层学到的最优方向,反过来在验证集上评估并更新权重的大小。这一步的目标是,为已经找到的最佳方向,匹配一个最合适的大小。

通过这种方式,研究团队成功地在训练动态上将大小和方向的更新过程解耦,还因此发现了一些新规律和新现象:

首先,他们证实解耦训练能够显著提升模型的泛化能力。实验数据显示,BiDoRA 训练的模型在训练集和测试集上的表现差距(performance gap)远小于 DoRA。同时, 在生物医学领域的极小数据集上(训练数据小于 1000 个),BiDoRA 效果提升显著。在预测肽类是否能穿透血脑屏障(BBB,Blood-Brain Barrier)时,BiDoRA 仅使用全量微调 1/326 的参数,就实现了显著更高的 F1 分数(92.0 对 89.4)。在预测蛋白质热稳定性时,BiDoRA 使用全量微调 1/408 的参数,F1 分数几乎相同(78.2 对 78.4)。BiDoRA 在多项任务中持续优于当前最先进的参数高效微调方法,如 LoRA 和 DoRA。

其次,他们还发现了一个新规律。学界已经有研究表明,在理想的完整微调中,权重大小和方向的更新存在一种负相关的关系。研究团队借助“权重分解分析”这一工具,发现 LoRA 表现为正相关,这解释了它为什么有时效果不佳,而 DoRA 改进了这一点,呈现出-1.784 的负相关。而研究团队的 BiDoRA,得益于彻底的解耦训练,实现了高达-8.042 的负相关性。这意味着 BiDoRA 的训练动态更接近于完整微调,这为它的优异性能提供了强有力的实验支撑。

在论文的同行评审阶段,研究团队收到了来自多位匿名审稿人的专业且中肯的意见。综合来看,审稿人们的赞誉主要集中在以下几个方面:

首先,审稿人普遍认为本次课题的研究动机非常清晰且具有说服力。研究团队精准地指出了现有先进方法(DoRA)中存在的“耦合更新”这一核心缺陷,并以此为切入点展开研究,使得整个工作的逻辑链条非常坚实。

其次,审稿人也对研究团队提出的 BiDoRA 方法的原创性和新颖性给予了高度评价。将双层优化(Bi-level Optimization)这一已在其他领域(如神经架构搜索)验证的有效思想,创造性地应用于 PEFT 领域,并以此来解决权重分解中的耦合问题,这被认为是一个非常聪明且有效的尝试。

再者,审稿人对研究团队实验的全面性和扎实程度印象深刻。他们不仅在多个权威的自然语言理解基准(如 GLUE)上验证了方法的有效性,还将实验扩展到了自然语言生成、命名实体识别,甚至是一些数据量极度稀缺的生物医学任务上。在所有这些场景下,BiDoRA 都展现出了一致的优越性。

研究团队对 BiDoRA 的应用前景非常乐观,尤其是在那些数据资源极其宝贵的领域。在未来的几年内,研究团队认为它可以在生物医学领域产生具体的应用价值,这也正是研究团队在论文中特别进行实验验证的方向。在生物医学研究中,获取高质量、大规模的标注数据往往是极其困难和昂贵的。在这样“极小数据集”的场景下,传统的大模型微调方法极易发生严重的过拟合。而本次方法天生就具有强大的抗过拟合能力,因为它通过双层优化的机制,引入了内部的验证与权衡,迫使模型学习更具泛化性的特征。论文中的实验也清楚地表明,在这些生物医学任务上,BiDoRA 相比其他方法的优势甚至比在数据充足的自然语言处理任务上更为明显。

据了解,在研究团队最初设计出 BiDoRA 的双层优化框架时,其发现 BiDoRA 虽然比 LoRA 要好,但相比 DoRA 的提升并不像理论分析的那么显著。研究团队猜想:会不会是因为他们的双层优化机制,将本就不算多的训练数据进一步分割成了更小的训练集和验证集,导致每个训练循环得到的数据不够多?这时,研究团队立刻联想到了在“神经架构搜索”(NAS,Neural Architecture Search)领域的一个常用技巧。在 NAS 中,研究者们通常会先在一个代理任务上搜索出最优的网络架构,然后会有一个“重训练”(Retraining)阶段:固定住搜索到的这个最优架构,再用全部的训练数据从头开始训练这个架构的权重,以求达到最佳性能。

研究团队决定借鉴这个思想,于是在 BiDoRA 的流程中增加了一个最终的重训练阶段:在双层优化的“搜索阶段”结束后,他们固定住学到的最优的“大小”分量,然后合并原始的训练集和验证集,用这完整的数据集,对“方向”分量进行一次充分的训练。当再次进行加上了重训练步骤的实验后,结果表明,BiDoRA 的性能在几乎所有任务上都获得了显著且一致的提升,完全超越了 DoRA,展现出了研究团队理论预期的强大实力。

在后续研究计划上:

研究团队的第一个方向是计划进一步提升 BiDoRA 的训练效率和理论完备性。正如其在论文的“未来工作”部分提到的,BiDoRA 虽然效果好,但它的双层优化机制引入了额外的计算开销,特别是在计算“超梯度”(hyper-gradient)时。目前,研究团队的实现方式是相对基础的,但学界已经涌现出一些更先进、更高效的超梯度估计算法,比如 SAMA、MixFlow-MG 等。因此,研究团队的下一步计划是,将这些前沿的优化技术集成到 BiDoRA 中,目标是在不牺牲甚至提升性能的前提下,大幅降低其训练时间和计算成本。同时,他们目前更多是通过大量实验经验性地证明了 BiDoRA 在解耦权重更新上的优越性,未来其希望能够从数学上给出一个严格的理论分析,从根本上揭示其工作机理。

第二个方向也是研究团队更期待的一个方向,是将 BiDoRA 更深入、更广泛地应用于生物医学领域。其在当前工作中已经初步验证了它在小数据集上的巨大潜力,这给了他们极大的信心。接下来,研究团队计划与生物、医学领域的专家进行更紧密的合作,将 BiDoRA 作为一个核心工具,去挑战一些更复杂、更前沿的课题。

参考资料:

https://arxiv.org/pdf/2410.09758

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
消息人士称哈梅内伊正掌控战局

消息人士称哈梅内伊正掌控战局

财联社
2026-03-01 05:07:17
内贾德,遇袭身亡

内贾德,遇袭身亡

新华社
2026-03-01 22:13:51
娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

林轻吟
2026-03-01 19:35:00
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
北京,男子贷款70万买155万的迈巴赫s480跑滴滴,每天睡到自然醒,网友:不敢相信!

北京,男子贷款70万买155万的迈巴赫s480跑滴滴,每天睡到自然醒,网友:不敢相信!

神奇故事
2026-03-01 23:49:43
真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

另子维爱读史
2026-03-01 21:23:21
特朗普:美国正在“大规模”打击伊朗 消息人士:伊朗遇难者身份将令人震惊

特朗普:美国正在“大规模”打击伊朗 消息人士:伊朗遇难者身份将令人震惊

环球网资讯
2026-02-28 16:16:05
巴基斯坦多地反美抗议活动已致20人死亡

巴基斯坦多地反美抗议活动已致20人死亡

新华社
2026-03-02 03:06:10
云淡风轻!网传特朗普指挥袭击伊朗前几分钟,还在家中参加派对

云淡风轻!网传特朗普指挥袭击伊朗前几分钟,还在家中参加派对

小萝卜丝
2026-03-01 13:10:35
特朗普称美方“基本摧毁”伊朗海军总部

特朗普称美方“基本摧毁”伊朗海军总部

财联社
2026-03-02 01:29:13
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
伊朗为什么不学泽连斯基给民众发枪?

伊朗为什么不学泽连斯基给民众发枪?

昊轩看世界
2026-03-01 11:02:14
美媒:白宫下令暂缓推进对台军售

美媒:白宫下令暂缓推进对台军售

环球网资讯
2026-03-02 06:27:47
护照姐丢人丢到国外!老外纷纷举护照玩梗,洋老公:她只是保姆

护照姐丢人丢到国外!老外纷纷举护照玩梗,洋老公:她只是保姆

寒士之言本尊
2025-10-09 11:12:44
李嘉诚原则:不要把钱,放在注定“左转”的地方

李嘉诚原则:不要把钱,放在注定“左转”的地方

世界灵敏度赵灵敏
2026-03-01 21:07:16
大满贯不和谐一幕:王曼昱2-4孙颖莎 比输球可怕是观众一边倒支持

大满贯不和谐一幕:王曼昱2-4孙颖莎 比输球可怕是观众一边倒支持

侃球熊弟
2026-03-01 20:27:26
可怜的内贾德,为何被杀?

可怜的内贾德,为何被杀?

雪中风车
2026-03-01 22:16:05
伊朗“斩首”疑云:美以为何总能做到“百万军中取上将首级”?

伊朗“斩首”疑云:美以为何总能做到“百万军中取上将首级”?

国是直通车
2026-03-01 17:53:07
美总统称美军在对伊行动中打死48名伊朗指挥官

美总统称美军在对伊行动中打死48名伊朗指挥官

界面新闻
2026-03-02 07:33:10
2026-03-02 08:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16343文章数 514687关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

美军动用新型武器:山寨伊朗的

头条要闻

美军动用新型武器:山寨伊朗的

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
教育
时尚
数码
家居

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

教育要闻

切线第1讲,一个视频学会!

今年春天最流行的4件卫衣,照着穿就很好看

数码要闻

太过分了!卖家借OneDrive虚标笔记本容量:128GB秒变1TB

家居要闻

素色肌理 品意式格调

无障碍浏览 进入关怀版