网易首页 > 网易号 > 正文 申请入驻

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

0
分享至


新智元报道

编辑:元宇

【新智元导读】LoRA能否与全参微调性能相当?在Thinking Machines的最新论文中,他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,同时也有助于我们更深入审视机器学习中的一些基本问题。

今天,Thinking Machines重磅推出了它的第三篇论文《LoRA Without Regret》。


博客地址:https://thinkingmachines.ai/blog/lora/

论文由John Schulman与Thinking Machines其他人联合完成。

如今,最先进的大模型参数量已经超过一万亿,预训练数据量常常多达数十万亿Token。

如此庞大的参数对于基础模型性能的提升是必要的。

但这在后训练阶段就显得有些浪费了,这正是参数高效微调(PEFT)出现的原因。

最常用的方法是LoRA(低秩适配)。它的思路是不直接更新原始的巨大权重矩阵W,而是给它加上一个小小的修正项:

W′=W+γBA

这里的B和A是两个低秩矩阵,它们的参数数量远少于W,而γ是一个常数缩放因子。

换句话说,LoRA通过低维矩阵乘积来捕捉微调带来的更新。那么LoRA能否与完全微调性能相当?如果可以,又是在什么条件下?

Thinking Machines研究发现,只要把握几个关键细节,LoRA也可以与FullFT达到相近表现

LoRA的关键因素

在本文中,研究人员通过一系列监督微调与强化学习实验,探讨LoRA在何种条件下能与FullFT一样高效。

研究人员发现:

  • 在小到中等规模的指令微调和推理数据集上,LoRA与FullFT表现相同。

  • 对于超出LoRA容量的数据集,LoRA的表现劣于FullFT。

  • 在某些场景中,LoRA对大批量训练的容忍度低于FullFT。

  • 即便在小数据场景下,LoRA应用到所有权重矩阵(尤其是MLP和MoE层)时效果更佳。

  • 在强化学习中,即使是低秩LoRA,表现也与FullFT相当。

研究人员在Tulu3数据集和OpenThoughts3的一个子集上进行单轮训练,针对每个数据集和模型规模遍历了LoRA秩和学习率。


研究人员发现,FullFT与高秩LoRA的学习曲线相似,损失随训练步数对数线性下降。而中低秩LoRA会在某个与秩相关的阈值步数之后偏离最小损失曲线。

从直观上看,当适配器容量耗尽时,学习速度会放缓,这由秩决定。

通过绘制损失随学习率变化的曲线,研究人员确认学习率搜索覆盖了每个秩的最佳值,发现FullFT的最佳学习率比高秩LoRA低约10倍。


批大小效应

在训练神经网络时,我们不会一次把所有数据都丢进去,所以用批大小(batch size)来衡量每一批数据中包含多少个样本。

研究人员在实验中发现,在某些情况下,LoRA对大批量训练的容忍度低于FullFT。性能差距随批量增大而扩大,与秩无关。

实验人员使用了OpenThoughts3的一个10000样本的小型子集。


图3左图显示了在大批量下,LoRA(虚线)与FullFT(实线)的学习曲线始终存在差距。而在较小批量(32)下,这一差距更小且随时间缩小。

右图展示了最终损失随批量大小的变化。可以看到,随着批量增大,LoRA的损失与FullFT的差距逐渐拉大。

大批量下的学习差距似乎与秩无关,而是LoRA固有的特性。

研究人员认为其可能原因在于矩阵乘积参数化(BA)的优化动态不如完整矩阵(W)。

LoRA应用层研究

研究人员将LoRA应用于网络不同层,发现当把LoRA应用于所有层时,尤其是MLP(包括MoE)层时,效果要好得多。

实际上,把LoRA用在注意力矩阵上并没有比只用在MLP上更有优势。仅注意力的LoRA表现不佳,并不是因为参数更少。

在这个实验中,rank=256的仅注意力LoRA表现不如rank=128仅MLP LoRA,尽管它们的参数量差不多(见下表加粗数字对比)。


研究人员还在两个额外场景下做了类似的对比实验:

(1)在OpenThoughts3数据集的小子集上(rank=256)做监督学习;

(2)在MATH数据集上做强化学习。

在这两种情况下,仅注意力LoRA的表现依然不如仅MLP LoRA。


强化学习

该实验的一个关键发现是:在用策略梯度算法做强化学习时,即使rank低至1,LoRA也能完全匹配全参数微调的学习效果。


图6中展示了在MATH数据集和GSM数据集上的学习率扫描结果,使用了各自常用的超参数。

研究人员采用了Llama-3.1-8B基座模型,发现LoRA展现出更宽的有效学习率范围,并能达到与全参数微调(黑线)相同的峰值性能。

为了进一步验证LoRA在推理强化学习中的有效性,研究人员还在DeepMath数据集上做了更大规模的实验。



研究人员观察到,在每个设定下选择最优学习率时,不同大小的LoRA与全参数微调的训练进展几乎完全一致。

设置LoRA超参数

LoRA采用的一个障碍在于必须选择合适的超参数,而这些超参数与为FullFT优化的并不相同。

研究人员采用了如下的LoRA参数化方式:


其中,r是LoRA秩,α是LoRA缩放因子,A、B是LoRA权重矩阵(秩为r)。在本文的实验中,研究人员采用α=32。


图9展示了在相同学习率下,不同秩在训练初期学习曲线的差异。

LoRA与FullFT的最优学习率比较

该实验表明,在相同的应用中,无论是监督学习还是强化学习,LoRA的最优学习率始终是FullFT的10倍。

这一点在性能(损失或奖励)随学习率变化的U形曲线中一再出现。

这说明可以更容易地把FullFT的学习率迁移到LoRA中。

研究人员目前还没有对这一观察给出充分的理论解释,但认为可以尝试从以下事实出发推导:LoRA的最优学习率与秩无关,而满秩LoRA可直接与FullFT对比。

在实证分析中,研究人员对14个不同的Llama和Qwen模型在Tulu3数据集上同时进行了LoRA和FullFT的学习率扫描。

通过这些扫描结果拟合了一个函数,能基于模型的隐层维度以及其来源(Llama或Qwen)来预测最优学习率:


在短期和长期训练中的学习率方面,LoRA的典型初始化方式会在有效学习率上隐式引入一个随时间变化的调度,这导致短期和长期训练表现出差异,且与FullFT相比,学习曲线形状也有所不同。

在训练开始时,B初始化为零。当B很小时,A的变化对适配器BA的影响几乎可以忽略。

随着B逐渐变大,A的更新对网络输出的影响开始增大,有效学习率会随着训练进程逐渐提升,因为B的规模逐渐接近A。

研究人员发现,在Tulu3和OpenThoughts数据集的完整训练结束时,B矩阵的谱范数比A矩阵更大。

这意味着在短期训练中,最优学习率应该设得更高。

初步证据表明,在短期(大约100步以内)训练时,LoRA最优倍数大约是FullFT的15倍,随着训练时间变长,收敛到前文提到的10倍。

在本文的研究中,研究人员发现LoRA与FullFT达到相近表现需要满足的两个条件:

条件1:LoRA应用于网络的所有层,尤其是包含大多数参数的 MLP/MoE(混合专家)层。

条件2:在不受容量约束时,LoRA表现良好,即可训练参数的数量要多于需要学习的信息量。

当条件1满足时,训练一开始就会看到与FullFT相似的学习动态。随后,依据条件2,LoRA会持续呈现与FullFT相近的表现,直到开始触及容量上限为止。

Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,也有助于帮助我们更深入地审视机器学习中的一些基本问题。

参考资料:

https://thinkingmachines.ai/blog/lora/%20

https://x.com/thinkymachines/status/1972708674100765006

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年的蒙古国已经乱到没边了,首都乌兰巴托的街头全是抗议的人群

今年的蒙古国已经乱到没边了,首都乌兰巴托的街头全是抗议的人群

南权先生
2025-11-05 16:42:59
墙倒众人推!44岁“消失”的玲花,终是为搭档行为买单,她后悔么

墙倒众人推!44岁“消失”的玲花,终是为搭档行为买单,她后悔么

古木之草记
2025-11-05 19:50:07
马斯克预言:5年后不再有手机和App,AI将在1-2年内大规模取代编程和内容创作类工作【附人工智能行业市场分析】

马斯克预言:5年后不再有手机和App,AI将在1-2年内大规模取代编程和内容创作类工作【附人工智能行业市场分析】

前瞻网
2025-11-04 15:15:19
震惊全韩!中国学生为工科拼命,韩国学生为医学疯魔,KBS纪录片揭露真实现状

震惊全韩!中国学生为工科拼命,韩国学生为医学疯魔,KBS纪录片揭露真实现状

最英国
2025-11-03 19:26:41
“嫂子,这是家宴,外人不配上桌吃饭”老公:滚出去,你才是外人

“嫂子,这是家宴,外人不配上桌吃饭”老公:滚出去,你才是外人

多久情感
2025-11-05 08:14:26
曝王珂再亏12亿!刘涛凌晨发文崩溃:无力的时候该怎么办?

曝王珂再亏12亿!刘涛凌晨发文崩溃:无力的时候该怎么办?

萌姐
2025-11-04 20:41:54
汪小菲真宠女儿,八万元的外套一下买两件,小玥儿穿上很显贵气

汪小菲真宠女儿,八万元的外套一下买两件,小玥儿穿上很显贵气

鋭娱之乐
2025-11-05 08:44:46
央视对全红婵的称呼变了,两字之差释放强烈信号,陈宇汐说对了

央视对全红婵的称呼变了,两字之差释放强烈信号,陈宇汐说对了

探源历史
2025-11-06 08:50:00
雷军:越来越多人开上小米汽车 感受到小米超高品质

雷军:越来越多人开上小米汽车 感受到小米超高品质

3DM游戏
2025-11-05 18:42:18
绵阳市林业局局长邓飞主动投案,接受监察调查

绵阳市林业局局长邓飞主动投案,接受监察调查

鲁中晨报
2025-11-05 15:31:03
江苏一地人大常委会原主任被查

江苏一地人大常委会原主任被查

扬子晚报
2025-11-04 20:37:27
荷兰制裁中国求锤得锤?光刻机巨头要撤离,外媒:荷兰已极力阻止

荷兰制裁中国求锤得锤?光刻机巨头要撤离,外媒:荷兰已极力阻止

顾史
2025-11-05 21:44:54
申花后悔吗?天价买来水货,低级失误+阻挡本方进球,已沦为笑柄

申花后悔吗?天价买来水货,低级失误+阻挡本方进球,已沦为笑柄

国足风云
2025-11-06 09:19:05
当街遭男子骚扰,墨西哥总统称将提出指控

当街遭男子骚扰,墨西哥总统称将提出指控

环球网资讯
2025-11-06 08:57:08
“假爱国”风波真相大白3年,吴京近况爆出,网友:一点都不意外

“假爱国”风波真相大白3年,吴京近况爆出,网友:一点都不意外

揽星河的笔记
2025-11-05 20:06:52
定了!国足还是土帅带,邵佳一上位,看看媒体人怎么说,都挺实在

定了!国足还是土帅带,邵佳一上位,看看媒体人怎么说,都挺实在

萌兰聊个球
2025-11-05 17:37:26
人为什么会得糖尿病?原来糖尿病是这样来的,现在知道还不迟

人为什么会得糖尿病?原来糖尿病是这样来的,现在知道还不迟

泠泠说史
2025-11-05 17:29:45
美国民主党在三场竞争最为激烈的地方选举中“大获全胜”,特朗普回应

美国民主党在三场竞争最为激烈的地方选举中“大获全胜”,特朗普回应

环球网资讯
2025-11-05 13:39:27
34分+11板+8助+3断!3项数据第1!对不起,状元郎,他要抢新人王

34分+11板+8助+3断!3项数据第1!对不起,状元郎,他要抢新人王

世界体育圈
2025-11-06 09:29:25
瞬间暴涨3倍!上海有人立马出手:好怕抢不到

瞬间暴涨3倍!上海有人立马出手:好怕抢不到

极目新闻
2025-11-05 15:06:20
2025-11-06 10:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13796文章数 66238关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

美最高法院就关税政策合法性展开辩论 美财长罕见出席

头条要闻

美最高法院就关税政策合法性展开辩论 美财长罕见出席

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

健康
教育
房产
公开课
军事航空

超声探头会加重受伤情况吗?

教育要闻

这是大材小用吗?北大毕业生考取并入职辅警

房产要闻

江东,给你留「门」儿了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国发射洲际弹道导弹 俄方回应

无障碍浏览 进入关怀版