网易首页 > 网易号 > 正文 申请入驻

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

0
分享至


新智元报道

编辑:元宇

【新智元导读】LoRA能否与全参微调性能相当?在Thinking Machines的最新论文中,他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,同时也有助于我们更深入审视机器学习中的一些基本问题。

今天,Thinking Machines重磅推出了它的第三篇论文《LoRA Without Regret》。


博客地址:https://thinkingmachines.ai/blog/lora/

论文由John Schulman与Thinking Machines其他人联合完成。

如今,最先进的大模型参数量已经超过一万亿,预训练数据量常常多达数十万亿Token。

如此庞大的参数对于基础模型性能的提升是必要的。

但这在后训练阶段就显得有些浪费了,这正是参数高效微调(PEFT)出现的原因。

最常用的方法是LoRA(低秩适配)。它的思路是不直接更新原始的巨大权重矩阵W,而是给它加上一个小小的修正项:

W′=W+γBA

这里的B和A是两个低秩矩阵,它们的参数数量远少于W,而γ是一个常数缩放因子。

换句话说,LoRA通过低维矩阵乘积来捕捉微调带来的更新。那么LoRA能否与完全微调性能相当?如果可以,又是在什么条件下?

Thinking Machines研究发现,只要把握几个关键细节,LoRA也可以与FullFT达到相近表现

LoRA的关键因素

在本文中,研究人员通过一系列监督微调与强化学习实验,探讨LoRA在何种条件下能与FullFT一样高效。

研究人员发现:

  • 在小到中等规模的指令微调和推理数据集上,LoRA与FullFT表现相同。

  • 对于超出LoRA容量的数据集,LoRA的表现劣于FullFT。

  • 在某些场景中,LoRA对大批量训练的容忍度低于FullFT。

  • 即便在小数据场景下,LoRA应用到所有权重矩阵(尤其是MLP和MoE层)时效果更佳。

  • 在强化学习中,即使是低秩LoRA,表现也与FullFT相当。

研究人员在Tulu3数据集和OpenThoughts3的一个子集上进行单轮训练,针对每个数据集和模型规模遍历了LoRA秩和学习率。


研究人员发现,FullFT与高秩LoRA的学习曲线相似,损失随训练步数对数线性下降。而中低秩LoRA会在某个与秩相关的阈值步数之后偏离最小损失曲线。

从直观上看,当适配器容量耗尽时,学习速度会放缓,这由秩决定。

通过绘制损失随学习率变化的曲线,研究人员确认学习率搜索覆盖了每个秩的最佳值,发现FullFT的最佳学习率比高秩LoRA低约10倍。


批大小效应

在训练神经网络时,我们不会一次把所有数据都丢进去,所以用批大小(batch size)来衡量每一批数据中包含多少个样本。

研究人员在实验中发现,在某些情况下,LoRA对大批量训练的容忍度低于FullFT。性能差距随批量增大而扩大,与秩无关。

实验人员使用了OpenThoughts3的一个10000样本的小型子集。


图3左图显示了在大批量下,LoRA(虚线)与FullFT(实线)的学习曲线始终存在差距。而在较小批量(32)下,这一差距更小且随时间缩小。

右图展示了最终损失随批量大小的变化。可以看到,随着批量增大,LoRA的损失与FullFT的差距逐渐拉大。

大批量下的学习差距似乎与秩无关,而是LoRA固有的特性。

研究人员认为其可能原因在于矩阵乘积参数化(BA)的优化动态不如完整矩阵(W)。

LoRA应用层研究

研究人员将LoRA应用于网络不同层,发现当把LoRA应用于所有层时,尤其是MLP(包括MoE)层时,效果要好得多。

实际上,把LoRA用在注意力矩阵上并没有比只用在MLP上更有优势。仅注意力的LoRA表现不佳,并不是因为参数更少。

在这个实验中,rank=256的仅注意力LoRA表现不如rank=128仅MLP LoRA,尽管它们的参数量差不多(见下表加粗数字对比)。


研究人员还在两个额外场景下做了类似的对比实验:

(1)在OpenThoughts3数据集的小子集上(rank=256)做监督学习;

(2)在MATH数据集上做强化学习。

在这两种情况下,仅注意力LoRA的表现依然不如仅MLP LoRA。


强化学习

该实验的一个关键发现是:在用策略梯度算法做强化学习时,即使rank低至1,LoRA也能完全匹配全参数微调的学习效果。


图6中展示了在MATH数据集和GSM数据集上的学习率扫描结果,使用了各自常用的超参数。

研究人员采用了Llama-3.1-8B基座模型,发现LoRA展现出更宽的有效学习率范围,并能达到与全参数微调(黑线)相同的峰值性能。

为了进一步验证LoRA在推理强化学习中的有效性,研究人员还在DeepMath数据集上做了更大规模的实验。



研究人员观察到,在每个设定下选择最优学习率时,不同大小的LoRA与全参数微调的训练进展几乎完全一致。

设置LoRA超参数

LoRA采用的一个障碍在于必须选择合适的超参数,而这些超参数与为FullFT优化的并不相同。

研究人员采用了如下的LoRA参数化方式:


其中,r是LoRA秩,α是LoRA缩放因子,A、B是LoRA权重矩阵(秩为r)。在本文的实验中,研究人员采用α=32。


图9展示了在相同学习率下,不同秩在训练初期学习曲线的差异。

LoRA与FullFT的最优学习率比较

该实验表明,在相同的应用中,无论是监督学习还是强化学习,LoRA的最优学习率始终是FullFT的10倍。

这一点在性能(损失或奖励)随学习率变化的U形曲线中一再出现。

这说明可以更容易地把FullFT的学习率迁移到LoRA中。

研究人员目前还没有对这一观察给出充分的理论解释,但认为可以尝试从以下事实出发推导:LoRA的最优学习率与秩无关,而满秩LoRA可直接与FullFT对比。

在实证分析中,研究人员对14个不同的Llama和Qwen模型在Tulu3数据集上同时进行了LoRA和FullFT的学习率扫描。

通过这些扫描结果拟合了一个函数,能基于模型的隐层维度以及其来源(Llama或Qwen)来预测最优学习率:


在短期和长期训练中的学习率方面,LoRA的典型初始化方式会在有效学习率上隐式引入一个随时间变化的调度,这导致短期和长期训练表现出差异,且与FullFT相比,学习曲线形状也有所不同。

在训练开始时,B初始化为零。当B很小时,A的变化对适配器BA的影响几乎可以忽略。

随着B逐渐变大,A的更新对网络输出的影响开始增大,有效学习率会随着训练进程逐渐提升,因为B的规模逐渐接近A。

研究人员发现,在Tulu3和OpenThoughts数据集的完整训练结束时,B矩阵的谱范数比A矩阵更大。

这意味着在短期训练中,最优学习率应该设得更高。

初步证据表明,在短期(大约100步以内)训练时,LoRA最优倍数大约是FullFT的15倍,随着训练时间变长,收敛到前文提到的10倍。

在本文的研究中,研究人员发现LoRA与FullFT达到相近表现需要满足的两个条件:

条件1:LoRA应用于网络的所有层,尤其是包含大多数参数的 MLP/MoE(混合专家)层。

条件2:在不受容量约束时,LoRA表现良好,即可训练参数的数量要多于需要学习的信息量。

当条件1满足时,训练一开始就会看到与FullFT相似的学习动态。随后,依据条件2,LoRA会持续呈现与FullFT相近的表现,直到开始触及容量上限为止。

Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,也有助于帮助我们更深入地审视机器学习中的一些基本问题。

参考资料:

https://thinkingmachines.ai/blog/lora/%20

https://x.com/thinkymachines/status/1972708674100765006

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

混沌录
2025-11-02 17:13:10
美媒重排21届选秀前十,才发现除了4号秀都错了,里夫斯才第6顺位

美媒重排21届选秀前十,才发现除了4号秀都错了,里夫斯才第6顺位

你的篮球频道
2025-11-07 14:44:59
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
谁偷拍了副院长和眼科主任的不雅事?

谁偷拍了副院长和眼科主任的不雅事?

难得君
2025-11-07 16:44:20
京东001号快递员退休1年多,勤恳工作16年,刘强东承诺的房给了吗

京东001号快递员退休1年多,勤恳工作16年,刘强东承诺的房给了吗

揽星河的笔记
2025-10-30 21:38:08
女子大闹航班要挨男友坐!哭吼揪空乘衣服致延误2小时,网友:太丢人!

女子大闹航班要挨男友坐!哭吼揪空乘衣服致延误2小时,网友:太丢人!

缅甸中文网
2025-11-07 13:07:34
高中时期你经历过哪些炸裂事迹?网友:大家的青春都这么污的吗

高中时期你经历过哪些炸裂事迹?网友:大家的青春都这么污的吗

带你感受人间冷暖
2025-10-03 00:20:08
反转!传翁帆未入职清华,担忧之事发生了,学校官网披露更多细节

反转!传翁帆未入职清华,担忧之事发生了,学校官网披露更多细节

秋姐居
2025-11-07 14:31:53
金门出现统一传单,台军爆发逃兵潮,赖清德将被审判,解放军上场

金门出现统一传单,台军爆发逃兵潮,赖清德将被审判,解放军上场

原来仙女不讲理
2025-11-07 14:12:45
加州选民强势回应:50号提案高票通过

加州选民强势回应:50号提案高票通过

美国华人杂谈
2025-11-07 08:22:47
菲律宾前总统成“世界第一巨贪”,家藏数吨黄金,拖垮国家经济

菲律宾前总统成“世界第一巨贪”,家藏数吨黄金,拖垮国家经济

三石记
2025-11-04 19:23:14
iPhone 18 Pro灵动岛缩小:史上首次

iPhone 18 Pro灵动岛缩小:史上首次

快科技
2025-11-07 14:23:18
东风就绪!神舟二十号3人乘组准备回家,神二十二1人将飞行超1年

东风就绪!神舟二十号3人乘组准备回家,神二十二1人将飞行超1年

古事寻踪记
2025-11-06 10:11:15
钱学森去汇报工作,聂荣臻突然问:谁给学森同志配这么高档的车?

钱学森去汇报工作,聂荣臻突然问:谁给学森同志配这么高档的车?

Thurman在昆明
2025-11-02 11:10:26
“高贵”的玛莎拉蒂,降到35万了!超豪车品牌扛不住了,搞起了双11大促销,“骨折式”大甩卖,纯电降价更多

“高贵”的玛莎拉蒂,降到35万了!超豪车品牌扛不住了,搞起了双11大促销,“骨折式”大甩卖,纯电降价更多

和讯网
2025-11-06 09:34:39
北京飞悉尼国际航班出现负43元票价,客服:系未含税价,最后总价应为1200多元

北京飞悉尼国际航班出现负43元票价,客服:系未含税价,最后总价应为1200多元

鲁中晨报
2025-11-07 17:31:06
葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

诗意世界
2025-11-06 10:27:22
武汉大学原校长刘道玉逝世,享年92岁

武汉大学原校长刘道玉逝世,享年92岁

界面新闻
2025-11-07 19:56:14
辽篮垃圾时间狂揍天津!打得对手单节拿4分,都怪全运会奇葩规则

辽篮垃圾时间狂揍天津!打得对手单节拿4分,都怪全运会奇葩规则

嘴炮体坛
2025-11-07 18:53:46
2025-11-07 20:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13809文章数 66238关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

《西游记》沙僧扮演者刘大刚病逝 剧中数位演员已离世

头条要闻

《西游记》沙僧扮演者刘大刚病逝 剧中数位演员已离世

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

手机
家居
数码
亲子
健康

手机要闻

首款国产eSIM手机!OPPO Find X9 Pro卫星通信版预售:6999元

家居要闻

现代自由 功能美学居所

数码要闻

三 M.2 双网口 + OCuLink,天钡推出 6850U 版 MACO 迷你主机

亲子要闻

可能你的玩具正在发霉

超声探头会加重受伤情况吗?

无障碍浏览 进入关怀版