网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Thinking Machines曝LoRA终极指南：10倍学习率，媲美全参微调

2025-09-30 21:49:08　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】LoRA能否与全参微调性能相当？在Thinking Machines的最新论文中，他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA，旨在推动其更广泛地应用于各种按需定制的场景，同时也有助于我们更深入审视机器学习中的一些基本问题。

今天，Thinking Machines重磅推出了它的第三篇论文《LoRA Without Regret》。

博客地址：https://thinkingmachines.ai/blog/lora/

论文由John Schulman与Thinking Machines其他人联合完成。

如今，最先进的大模型参数量已经超过一万亿，预训练数据量常常多达数十万亿Token。

如此庞大的参数对于基础模型性能的提升是必要的。

但这在后训练阶段就显得有些浪费了，这正是参数高效微调（PEFT）出现的原因。

最常用的方法是LoRA（低秩适配）。它的思路是不直接更新原始的巨大权重矩阵W，而是给它加上一个小小的修正项：

W′=W+γBA

这里的B和A是两个低秩矩阵，它们的参数数量远少于W，而γ是一个常数缩放因子。

换句话说，LoRA通过低维矩阵乘积来捕捉微调带来的更新。那么LoRA能否与完全微调性能相当？如果可以，又是在什么条件下？

Thinking Machines研究发现，只要把握几个关键细节，LoRA也可以与FullFT达到相近表现。

LoRA的关键因素

在本文中，研究人员通过一系列监督微调与强化学习实验，探讨LoRA在何种条件下能与FullFT一样高效。

研究人员发现：

在小到中等规模的指令微调和推理数据集上，LoRA与FullFT表现相同。
对于超出LoRA容量的数据集，LoRA的表现劣于FullFT。
在某些场景中，LoRA对大批量训练的容忍度低于FullFT。
即便在小数据场景下，LoRA应用到所有权重矩阵（尤其是MLP和MoE层）时效果更佳。
在强化学习中，即使是低秩LoRA，表现也与FullFT相当。

研究人员在Tulu3数据集和OpenThoughts3的一个子集上进行单轮训练，针对每个数据集和模型规模遍历了LoRA秩和学习率。

研究人员发现，FullFT与高秩LoRA的学习曲线相似，损失随训练步数对数线性下降。而中低秩LoRA会在某个与秩相关的阈值步数之后偏离最小损失曲线。

从直观上看，当适配器容量耗尽时，学习速度会放缓，这由秩决定。

通过绘制损失随学习率变化的曲线，研究人员确认学习率搜索覆盖了每个秩的最佳值，发现FullFT的最佳学习率比高秩LoRA低约10倍。

批大小效应

在训练神经网络时，我们不会一次把所有数据都丢进去，所以用批大小（batch size）来衡量每一批数据中包含多少个样本。

研究人员在实验中发现，在某些情况下，LoRA对大批量训练的容忍度低于FullFT。性能差距随批量增大而扩大，与秩无关。

实验人员使用了OpenThoughts3的一个10000样本的小型子集。

图3左图显示了在大批量下，LoRA（虚线）与FullFT（实线）的学习曲线始终存在差距。而在较小批量（32）下，这一差距更小且随时间缩小。

右图展示了最终损失随批量大小的变化。可以看到，随着批量增大，LoRA的损失与FullFT的差距逐渐拉大。

大批量下的学习差距似乎与秩无关，而是LoRA固有的特性。

研究人员认为其可能原因在于矩阵乘积参数化（BA）的优化动态不如完整矩阵（W）。

LoRA应用层研究

研究人员将LoRA应用于网络不同层，发现当把LoRA应用于所有层时，尤其是MLP（包括MoE）层时，效果要好得多。

实际上，把LoRA用在注意力矩阵上并没有比只用在MLP上更有优势。仅注意力的LoRA表现不佳，并不是因为参数更少。

在这个实验中，rank=256的仅注意力LoRA表现不如rank=128仅MLP LoRA，尽管它们的参数量差不多（见下表加粗数字对比）。

研究人员还在两个额外场景下做了类似的对比实验：

(1)在OpenThoughts3数据集的小子集上（rank=256）做监督学习；

(2)在MATH数据集上做强化学习。

在这两种情况下，仅注意力LoRA的表现依然不如仅MLP LoRA。

强化学习

该实验的一个关键发现是：在用策略梯度算法做强化学习时，即使rank低至1，LoRA也能完全匹配全参数微调的学习效果。

图6中展示了在MATH数据集和GSM数据集上的学习率扫描结果，使用了各自常用的超参数。

研究人员采用了Llama-3.1-8B基座模型，发现LoRA展现出更宽的有效学习率范围，并能达到与全参数微调（黑线）相同的峰值性能。

为了进一步验证LoRA在推理强化学习中的有效性，研究人员还在DeepMath数据集上做了更大规模的实验。

研究人员观察到，在每个设定下选择最优学习率时，不同大小的LoRA与全参数微调的训练进展几乎完全一致。

设置LoRA超参数

LoRA采用的一个障碍在于必须选择合适的超参数，而这些超参数与为FullFT优化的并不相同。

研究人员采用了如下的LoRA参数化方式：

其中，r是LoRA秩，α是LoRA缩放因子，A、B是LoRA权重矩阵（秩为r）。在本文的实验中，研究人员采用α=32。

图9展示了在相同学习率下，不同秩在训练初期学习曲线的差异。

LoRA与FullFT的最优学习率比较

该实验表明，在相同的应用中，无论是监督学习还是强化学习，LoRA的最优学习率始终是FullFT的10倍。

这一点在性能（损失或奖励）随学习率变化的U形曲线中一再出现。

这说明可以更容易地把FullFT的学习率迁移到LoRA中。

研究人员目前还没有对这一观察给出充分的理论解释，但认为可以尝试从以下事实出发推导：LoRA的最优学习率与秩无关，而满秩LoRA可直接与FullFT对比。

在实证分析中，研究人员对14个不同的Llama和Qwen模型在Tulu3数据集上同时进行了LoRA和FullFT的学习率扫描。

通过这些扫描结果拟合了一个函数，能基于模型的隐层维度以及其来源（Llama或Qwen）来预测最优学习率：

在短期和长期训练中的学习率方面，LoRA的典型初始化方式会在有效学习率上隐式引入一个随时间变化的调度，这导致短期和长期训练表现出差异，且与FullFT相比，学习曲线形状也有所不同。

在训练开始时，B初始化为零。当B很小时，A的变化对适配器BA的影响几乎可以忽略。

随着B逐渐变大，A的更新对网络输出的影响开始增大，有效学习率会随着训练进程逐渐提升，因为B的规模逐渐接近A。

研究人员发现，在Tulu3和OpenThoughts数据集的完整训练结束时，B矩阵的谱范数比A矩阵更大。

这意味着在短期训练中，最优学习率应该设得更高。

初步证据表明，在短期（大约100步以内）训练时，LoRA最优倍数大约是FullFT的15倍，随着训练时间变长，收敛到前文提到的10倍。

在本文的研究中，研究人员发现LoRA与FullFT达到相近表现需要满足的两个条件：

条件1：LoRA应用于网络的所有层，尤其是包含大多数参数的 MLP/MoE（混合专家）层。

条件2：在不受容量约束时，LoRA表现良好，即可训练参数的数量要多于需要学习的信息量。

当条件1满足时，训练一开始就会看到与FullFT相似的学习动态。随后，依据条件2，LoRA会持续呈现与FullFT相近的表现，直到开始触及容量上限为止。

Thinking Machines关注LoRA，旨在推动其更广泛地应用于各种按需定制的场景，也有助于帮助我们更深入地审视机器学习中的一些基本问题。

参考资料：

https://thinkingmachines.ai/blog/lora/%20

https://x.com/thinkymachines/status/1972708674100765006

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0
扩散不死，BERT永生！Karpathy凌晨反思：自回归时代该终结了?

新智元 2025-11-05 10:14:57
0 跟贴 0

比NanoBanana更擅长中文和细节控制！兔展&北大新模型刷新SOTA

量子位 2025-11-05 14:42:26
0 跟贴 0

清北联合推出Motion Transfer，机器人从人类数据端到端学习技能

机器之心Pro 2025-11-05 16:07:54
0 跟贴 0
Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0

27万小时的真实数据，终于验证了机器人领域的Scaling Law？

DeepTech深科技 2025-11-05 21:55:30
0 跟贴 0

微信AI团队，悄悄干了件大事，算力消耗暴降44%！

智东西 2025-11-05 22:10:40
0 跟贴 0
谷歌Gemini闹乌龙：我家狗子，竟被AI开除了「狗籍」！

新智元 2025-11-06 08:12:27
0 跟贴 0

黄仁勋：中国将赢得人工智能竞赛，通信ETF（515880）领涨超3%，光模块占比超50%

每日经济新闻 2025-11-06 10:01:07
0 跟贴 0
男子通过模型讲解自建房结构，“圈梁构造柱楼板马牙槎”，网友：楼板才是砖混结构的灵魂

鹤壁焦点 2025-11-03 16:34:57
366 跟贴 366
2张4090竟能本地微调万亿参数Kimi K2！国产玩家把算力门槛击穿了

量子位 2025-11-05 15:56:24
6 跟贴 6
男人认为能沟通上帝竟杀死妻子做起实验

幻天影视 2025-11-02 23:00:59
3 跟贴 3
这个实验完美诠释了，中奖的概率有多低，猜猜最后能中几个

怪咖喜剧工厂 2025-11-04 10:12:54
4 跟贴 4
柬埔寨“太子集团”资产又遭冻结：涉26辆豪车、11处豪华公寓等，总值超35亿元

极目新闻 2025-11-05 15:06:20
18436 跟贴 18436
哪有什么不合理，仅仅需要个合理解释

槽逻辑 2025-11-05 18:51:56
23 跟贴 23
根系关系第2讲，求参数的值

大鹏老师讲数学 2025-11-04 05:07:00
0 跟贴 0
城市智能探索“普陀样本”！普陀这个实验室再升级

上观新闻 2025-11-06 10:12:05
0 跟贴 0
富家花重金，买下泰森11的拳头模型，有钱就是豪横

欢乐梦工厂 2025-11-04 11:55:45
1 跟贴 1
1斤豆芽卖28.8元？网友直呼“吃不起”，知名餐饮品牌回应

都市快报橙柿互动 2025-11-02 16:20:16
8631 跟贴 8631
用口哨传递指令，被拦截了都不知道

北子影视菌 2025-11-05 16:17:02
1 跟贴 1
乌克兰公布“罕见”作战画面！外媒：乌特种部队乘“黑鹰”直升机突袭波克罗夫斯克

环球网资讯 2025-11-05 16:09:59
10237 跟贴 10237
佐赫兰·马姆达尼成为美国纽约市史上首位印度裔市长

央视新闻客户端 2025-11-05 11:23:28
10580 跟贴 10580
地球级AI智能体爆诞！谷歌地球开外挂，一夜为20亿人洪水预警

新智元 2025-11-05 19:52:11
0 跟贴 0
美国发射洲际弹道导弹俄方回应

央视新闻客户端 2025-11-06 05:35:52
7094 跟贴 7094
一把手的指令，不理解也要执行

乌鸦追剧 2025-11-04 11:35:49
1 跟贴 1
国务院公告后搜索暴涨3倍上海人立马出手：怕抢不到

极目新闻 2025-11-05 15:06:20
670 跟贴 670
男子将肉干放在小狗鼻子上，小狗听到主人指令后才吃，网友：口水都成瀑布了

大吵小闹 2025-11-05 11:40:41
0 跟贴 0
三亚海滩“长满”了俄罗斯人！网友调侃：我在这里反而成了“老外”

封面新闻 2025-11-02 12:57:02
148 跟贴 148
全运会|1：2不敌浙江队，山东U20男足惊险晋级八强

齐鲁壹点 2025-11-05 22:37:14
309 跟贴 309
成都一处凶宅以起拍价26.6万元拍卖，市场价约160万元，已有70人报名

极目新闻 2025-11-05 12:35:31
1172 跟贴 1172
村庄设环保监测点，发通知限制燃油车进村？河南新乡当地回应：注意到石墩堵路，正核查

大风新闻 2025-11-05 14:48:02
2775 跟贴 2775
清远一水库疑放生大量猫后出现猫瘟？防疫站：样本均阴性

星视频 2025-11-04 15:45:04
0 跟贴 0
省级老同志赴郑州航空港区参观调研

政知新媒体 2025-11-05 14:51:57
176 跟贴 176
不愧是北京来的大人物，一说指令，香港警察态度立马转变了

壹哥追剧 2025-11-03 19:33:09
1 跟贴 1
美国肯塔基州州长：本州进入紧急状态

央视新闻客户端 2025-11-06 05:30:35
523 跟贴 523
从此，请叫“贝爵爷”！贝克汉姆获封英国王室最高爵士头衔

封面新闻 2025-11-05 16:29:05
812 跟贴 812
大转弯！特朗普再提名马斯克盟友任NASA局长，曾斥2亿美元完成首次商业太空行走

红星新闻 2025-11-05 13:16:38
430 跟贴 430
主播直播前调整美颜参数，调整后判若两人，还有什么是真的！

青青酱爱搞笑 2025-11-05 11:00:02
1 跟贴 1
当深圳00后也来抄底：内地客赴港买房，十年砸下8000亿

南方都市报 2025-11-05 13:54:46
598 跟贴 598
解读时间膨胀：黑洞附近1小时相当于地球7年，人类会永生吗？

宇宙时空 2025-11-05 08:58:46
7 跟贴 7

今年的蒙古国已经乱到没边了，首都乌兰巴托的街头全是抗议的人群

今年的蒙古国已经乱到没边了，首都乌兰巴托的街头全是抗议的人群

南权先生

2025-11-05 16:42:59

墙倒众人推！44岁“消失”的玲花，终是为搭档行为买单，她后悔么

墙倒众人推！44岁“消失”的玲花，终是为搭档行为买单，她后悔么

古木之草记

2025-11-05 19:50:07

马斯克预言：5年后不再有手机和App，AI将在1-2年内大规模取代编程和内容创作类工作【附人工智能行业市场分析】

马斯克预言：5年后不再有手机和App，AI将在1-2年内大规模取代编程和内容创作类工作【附人工智能行业市场分析】

前瞻网

2025-11-04 15:15:19

震惊全韩！中国学生为工科拼命，韩国学生为医学疯魔，KBS纪录片揭露真实现状

震惊全韩！中国学生为工科拼命，韩国学生为医学疯魔，KBS纪录片揭露真实现状

最英国

2025-11-03 19:26:41

“嫂子，这是家宴，外人不配上桌吃饭”老公：滚出去，你才是外人

“嫂子，这是家宴，外人不配上桌吃饭”老公：滚出去，你才是外人

多久情感

2025-11-05 08:14:26

曝王珂再亏12亿！刘涛凌晨发文崩溃：无力的时候该怎么办？

曝王珂再亏12亿！刘涛凌晨发文崩溃：无力的时候该怎么办？

萌姐

2025-11-04 20:41:54

汪小菲真宠女儿，八万元的外套一下买两件，小玥儿穿上很显贵气

汪小菲真宠女儿，八万元的外套一下买两件，小玥儿穿上很显贵气

鋭娱之乐

2025-11-05 08:44:46

央视对全红婵的称呼变了，两字之差释放强烈信号，陈宇汐说对了

央视对全红婵的称呼变了，两字之差释放强烈信号，陈宇汐说对了

探源历史

2025-11-06 08:50:00

雷军：越来越多人开上小米汽车感受到小米超高品质

雷军：越来越多人开上小米汽车感受到小米超高品质

3DM游戏

2025-11-05 18:42:18

绵阳市林业局局长邓飞主动投案，接受监察调查

绵阳市林业局局长邓飞主动投案，接受监察调查

鲁中晨报

2025-11-05 15:31:03

江苏一地人大常委会原主任被查

扬子晚报

2025-11-04 20:37:27

荷兰制裁中国求锤得锤？光刻机巨头要撤离，外媒：荷兰已极力阻止

荷兰制裁中国求锤得锤？光刻机巨头要撤离，外媒：荷兰已极力阻止

顾史

2025-11-05 21:44:54

申花后悔吗？天价买来水货，低级失误+阻挡本方进球，已沦为笑柄

申花后悔吗？天价买来水货，低级失误+阻挡本方进球，已沦为笑柄

国足风云

2025-11-06 09:19:05

当街遭男子骚扰，墨西哥总统称将提出指控

当街遭男子骚扰，墨西哥总统称将提出指控

环球网资讯

2025-11-06 08:57:08

“假爱国”风波真相大白3年，吴京近况爆出，网友：一点都不意外

“假爱国”风波真相大白3年，吴京近况爆出，网友：一点都不意外

揽星河的笔记

2025-11-05 20:06:52

定了！国足还是土帅带，邵佳一上位，看看媒体人怎么说，都挺实在

定了！国足还是土帅带，邵佳一上位，看看媒体人怎么说，都挺实在

萌兰聊个球

2025-11-05 17:37:26

人为什么会得糖尿病？原来糖尿病是这样来的，现在知道还不迟

人为什么会得糖尿病？原来糖尿病是这样来的，现在知道还不迟

泠泠说史

2025-11-05 17:29:45

美国民主党在三场竞争最为激烈的地方选举中“大获全胜”，特朗普回应

美国民主党在三场竞争最为激烈的地方选举中“大获全胜”，特朗普回应

环球网资讯

2025-11-05 13:39:27

34分+11板+8助+3断！3项数据第1！对不起，状元郎，他要抢新人王

34分+11板+8助+3断！3项数据第1！对不起，状元郎，他要抢新人王

世界体育圈

2025-11-06 09:29:25

瞬间暴涨3倍！上海有人立马出手：好怕抢不到

瞬间暴涨3倍！上海有人立马出手：好怕抢不到

极目新闻

2025-11-05 15:06:20

AI产业主平台领航智能+时代

13796文章数 66238关注度

往期回顾全部

科技要闻

苹果“认输”！曝每年10亿美元租用谷歌AI

头条要闻

美最高法院就关税政策合法性展开辩论美财长罕见出席

头条要闻

美最高法院就关税政策合法性展开辩论美财长罕见出席

体育要闻

赢下皇马，会是利物浦的转折点吗？

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘？不存在的特斯拉 Cybercab亚太首秀

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

房产

公开课

军事航空

超声探头会加重受伤情况吗？

教育要闻

这是大材小用吗？北大毕业生考取并入职辅警

房产要闻

江东，给你留「门」儿了！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美国发射洲际弹道导弹俄方回应

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版