网易首页 > 网易号 > 正文 申请入驻

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

0
分享至

新智元报道

编辑:元宇

【新智元导读】LoRA能否与全参微调性能相当?在Thinking Machines的最新论文中,他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,同时也有助于我们更深入审视机器学习中的一些基本问题。

今天,Thinking Machines重磅推出了它的第三篇论文《LoRA Without Regret》。

博客地址:https://thinkingmachines.ai/blog/lora/

论文由John Schulman与Thinking Machines其他人联合完成。

如今,最先进的大模型参数量已经超过一万亿,预训练数据量常常多达数十万亿Token。

如此庞大的参数对于基础模型性能的提升是必要的。

但这在后训练阶段就显得有些浪费了,这正是参数高效微调(PEFT)出现的原因。

最常用的方法是LoRA(低秩适配)。它的思路是不直接更新原始的巨大权重矩阵W,而是给它加上一个小小的修正项:

W′=W+γBA

这里的B和A是两个低秩矩阵,它们的参数数量远少于W,而γ是一个常数缩放因子。

换句话说,LoRA通过低维矩阵乘积来捕捉微调带来的更新。那么LoRA能否与完全微调性能相当?如果可以,又是在什么条件下?

Thinking Machines研究发现,只要把握几个关键细节,LoRA也可以与FullFT达到相近表现

LoRA的关键因素

在本文中,研究人员通过一系列监督微调与强化学习实验,探讨LoRA在何种条件下能与FullFT一样高效。

研究人员发现:

  • 在小到中等规模的指令微调和推理数据集上,LoRA与FullFT表现相同。

  • 对于超出LoRA容量的数据集,LoRA的表现劣于FullFT。

  • 在某些场景中,LoRA对大批量训练的容忍度低于FullFT。

  • 即便在小数据场景下,LoRA应用到所有权重矩阵(尤其是MLP和MoE层)时效果更佳。

  • 在强化学习中,即使是低秩LoRA,表现也与FullFT相当。

研究人员在Tulu3数据集和OpenThoughts3的一个子集上进行单轮训练,针对每个数据集和模型规模遍历了LoRA秩和学习率。

研究人员发现,FullFT与高秩LoRA的学习曲线相似,损失随训练步数对数线性下降。而中低秩LoRA会在某个与秩相关的阈值步数之后偏离最小损失曲线。

从直观上看,当适配器容量耗尽时,学习速度会放缓,这由秩决定。

通过绘制损失随学习率变化的曲线,研究人员确认学习率搜索覆盖了每个秩的最佳值,发现FullFT的最佳学习率比高秩LoRA低约10倍。

批大小效应

在训练神经网络时,我们不会一次把所有数据都丢进去,所以用批大小(batch size)来衡量每一批数据中包含多少个样本。

研究人员在实验中发现,在某些情况下,LoRA对大批量训练的容忍度低于FullFT。性能差距随批量增大而扩大,与秩无关。

实验人员使用了OpenThoughts3的一个10000样本的小型子集。

图3左图显示了在大批量下,LoRA(虚线)与FullFT(实线)的学习曲线始终存在差距。而在较小批量(32)下,这一差距更小且随时间缩小。

右图展示了最终损失随批量大小的变化。可以看到,随着批量增大,LoRA的损失与FullFT的差距逐渐拉大。

大批量下的学习差距似乎与秩无关,而是LoRA固有的特性。

研究人员认为其可能原因在于矩阵乘积参数化(BA)的优化动态不如完整矩阵(W)。

LoRA应用层研究

研究人员将LoRA应用于网络不同层,发现当把LoRA应用于所有层时,尤其是MLP(包括MoE)层时,效果要好得多。

实际上,把LoRA用在注意力矩阵上并没有比只用在MLP上更有优势。仅注意力的LoRA表现不佳,并不是因为参数更少。

在这个实验中,rank=256的仅注意力LoRA表现不如rank=128仅MLP LoRA,尽管它们的参数量差不多(见下表加粗数字对比)。

研究人员还在两个额外场景下做了类似的对比实验:

(1)在OpenThoughts3数据集的小子集上(rank=256)做监督学习;

(2)在MATH数据集上做强化学习。

在这两种情况下,仅注意力LoRA的表现依然不如仅MLP LoRA。

强化学习

该实验的一个关键发现是:在用策略梯度算法做强化学习时,即使rank低至1,LoRA也能完全匹配全参数微调的学习效果。

图6中展示了在MATH数据集和GSM数据集上的学习率扫描结果,使用了各自常用的超参数。

研究人员采用了Llama-3.1-8B基座模型,发现LoRA展现出更宽的有效学习率范围,并能达到与全参数微调(黑线)相同的峰值性能。

为了进一步验证LoRA在推理强化学习中的有效性,研究人员还在DeepMath数据集上做了更大规模的实验。

研究人员观察到,在每个设定下选择最优学习率时,不同大小的LoRA与全参数微调的训练进展几乎完全一致。

设置LoRA超参数

LoRA采用的一个障碍在于必须选择合适的超参数,而这些超参数与为FullFT优化的并不相同。

研究人员采用了如下的LoRA参数化方式:

其中,r是LoRA秩,α是LoRA缩放因子,A、B是LoRA权重矩阵(秩为r)。在本文的实验中,研究人员采用α=32。

图9展示了在相同学习率下,不同秩在训练初期学习曲线的差异。

LoRA与FullFT的最优学习率比较

该实验表明,在相同的应用中,无论是监督学习还是强化学习,LoRA的最优学习率始终是FullFT的10倍。

这一点在性能(损失或奖励)随学习率变化的U形曲线中一再出现。

这说明可以更容易地把FullFT的学习率迁移到LoRA中。

研究人员目前还没有对这一观察给出充分的理论解释,但认为可以尝试从以下事实出发推导:LoRA的最优学习率与秩无关,而满秩LoRA可直接与FullFT对比。

在实证分析中,研究人员对14个不同的Llama和Qwen模型在Tulu3数据集上同时进行了LoRA和FullFT的学习率扫描。

通过这些扫描结果拟合了一个函数,能基于模型的隐层维度以及其来源(Llama或Qwen)来预测最优学习率:

在短期和长期训练中的学习率方面,LoRA的典型初始化方式会在有效学习率上隐式引入一个随时间变化的调度,这导致短期和长期训练表现出差异,且与FullFT相比,学习曲线形状也有所不同。

在训练开始时,B初始化为零。当B很小时,A的变化对适配器BA的影响几乎可以忽略。

随着B逐渐变大,A的更新对网络输出的影响开始增大,有效学习率会随着训练进程逐渐提升,因为B的规模逐渐接近A。

研究人员发现,在Tulu3和OpenThoughts数据集的完整训练结束时,B矩阵的谱范数比A矩阵更大。

这意味着在短期训练中,最优学习率应该设得更高。

初步证据表明,在短期(大约100步以内)训练时,LoRA最优倍数大约是FullFT的15倍,随着训练时间变长,收敛到前文提到的10倍。

在本文的研究中,研究人员发现LoRA与FullFT达到相近表现需要满足的两个条件:

条件1:LoRA应用于网络的所有层,尤其是包含大多数参数的 MLP/MoE(混合专家)层。

条件2:在不受容量约束时,LoRA表现良好,即可训练参数的数量要多于需要学习的信息量。

当条件1满足时,训练一开始就会看到与FullFT相似的学习动态。随后,依据条件2,LoRA会持续呈现与FullFT相近的表现,直到开始触及容量上限为止。

Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,也有助于帮助我们更深入地审视机器学习中的一些基本问题。

参考资料:

https://thinkingmachines.ai/blog/lora/%20

https://x.com/thinkymachines/status/1972708674100765006

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意外!依木兰踢中乙拼到60分钟都要因为抽筋被提前换下,引发热议

意外!依木兰踢中乙拼到60分钟都要因为抽筋被提前换下,引发热议

振刚说足球
2026-04-12 16:51:32
郑丽文访大陆最后一天,穿纯白衬衫尽显青春感,压轴造型太冻龄啦

郑丽文访大陆最后一天,穿纯白衬衫尽显青春感,压轴造型太冻龄啦

八八尚语
2026-04-12 11:34:17
碾压!外媒称巴空军已经下单空警-500E,470千米半径覆盖新德里

碾压!外媒称巴空军已经下单空警-500E,470千米半径覆盖新德里

书纪文谭
2026-04-12 16:48:25
我特别心动东风日产NX8,我推荐一步到位上增程310Max

我特别心动东风日产NX8,我推荐一步到位上增程310Max

凡兮说
2026-04-10 13:26:41
1-1,津门虎遭海牛绝平 杨帆101分钟乌龙 比没赢更绝望的是没心气

1-1,津门虎遭海牛绝平 杨帆101分钟乌龙 比没赢更绝望的是没心气

替补席看球
2026-04-12 21:08:54
10岁男孩从小区顶楼坠亡,家属起诉物业及建设公司索赔48万元!一审判了

10岁男孩从小区顶楼坠亡,家属起诉物业及建设公司索赔48万元!一审判了

红星新闻
2026-04-12 12:15:16
现身医院,王楚钦就医原因曝光,夺冠颁奖后,谁注意他的举动

现身医院,王楚钦就医原因曝光,夺冠颁奖后,谁注意他的举动

观察鉴娱
2026-04-12 11:04:46
通水、通电、通桥!郑丽文访问最后一天,大陆发布重磅措施

通水、通电、通桥!郑丽文访问最后一天,大陆发布重磅措施

梦史
2026-04-12 12:21:25
卡塞米罗:林加德这种水平的球员加盟对巴甲是好事啊

卡塞米罗:林加德这种水平的球员加盟对巴甲是好事啊

懂球帝
2026-04-12 21:24:03
郑丽文现身小米汽车工厂参访,分享体验:只有一个字,赞!雷军亲自接见,并赠送郑丽文一部小米手机

郑丽文现身小米汽车工厂参访,分享体验:只有一个字,赞!雷军亲自接见,并赠送郑丽文一部小米手机

大风新闻
2026-04-12 19:45:02
赛后拒绝握手引热议!李金羽甩手离场郑智怒喷,发生了什么

赛后拒绝握手引热议!李金羽甩手离场郑智怒喷,发生了什么

林子说事
2026-04-12 20:46:10
上市首日探店东风日产NX8,到店热度破记录

上市首日探店东风日产NX8,到店热度破记录

驾仕派
2026-04-10 10:35:42
世锦赛战报:塔猜亚4-5,三冠王2-7,江俊4-4,外协19岁小将6-3

世锦赛战报:塔猜亚4-5,三冠王2-7,江俊4-4,外协19岁小将6-3

求球不落谛
2026-04-12 20:19:15
国安对阵成都赛前,工体展示张玉宁、法比奥巨型Tifo

国安对阵成都赛前,工体展示张玉宁、法比奥巨型Tifo

懂球帝
2026-04-12 19:47:07
美伊谈判失败,伊朗表态太高明!特朗普转头就对中国说了一句狠话

美伊谈判失败,伊朗表态太高明!特朗普转头就对中国说了一句狠话

沧海旅行家
2026-04-12 21:23:51
官媒发文!高调官宣50岁撒贝宁喜讯,与李白婚变传闻早就真相大白

官媒发文!高调官宣50岁撒贝宁喜讯,与李白婚变传闻早就真相大白

涵豆说娱
2026-04-12 01:26:22
夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

精彩分享快乐
2025-11-20 00:05:03
曼联花7000万签的后卫,4个月踢不上球

曼联花7000万签的后卫,4个月踢不上球

竞技风云录
2026-04-12 20:44:25
随着越南0-4,乌兹别克斯坦1-2,女足亚洲杯半决赛对阵:中国PK劲旅

随着越南0-4,乌兹别克斯坦1-2,女足亚洲杯半决赛对阵:中国PK劲旅

侧身凌空斩
2026-04-12 00:34:25
83年李鹏当上副总理,79岁的邓颖超亲自上门叮嘱:切不可脱离群众

83年李鹏当上副总理,79岁的邓颖超亲自上门叮嘱:切不可脱离群众

我不是沃神
2026-04-12 14:35:03
2026-04-12 22:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14954文章数 66767关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

媒体:美伊面对面长谈20多小时无果 其实早有预兆

头条要闻

媒体:美伊面对面长谈20多小时无果 其实早有预兆

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
本地
时尚
公开课
军事航空

教育要闻

难哭学霸的思维题,家长都不会做

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

台湾票房第一,让人边哭边骂?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版