网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Thinking Machines曝LoRA终极指南：10倍学习率，媲美全参微调

2025-09-30 21:49:08　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】LoRA能否与全参微调性能相当？在Thinking Machines的最新论文中，他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA，旨在推动其更广泛地应用于各种按需定制的场景，同时也有助于我们更深入审视机器学习中的一些基本问题。

今天，Thinking Machines重磅推出了它的第三篇论文《LoRA Without Regret》。

博客地址：https://thinkingmachines.ai/blog/lora/

论文由John Schulman与Thinking Machines其他人联合完成。

如今，最先进的大模型参数量已经超过一万亿，预训练数据量常常多达数十万亿Token。

如此庞大的参数对于基础模型性能的提升是必要的。

但这在后训练阶段就显得有些浪费了，这正是参数高效微调（PEFT）出现的原因。

最常用的方法是LoRA（低秩适配）。它的思路是不直接更新原始的巨大权重矩阵W，而是给它加上一个小小的修正项：

W′=W+γBA

这里的B和A是两个低秩矩阵，它们的参数数量远少于W，而γ是一个常数缩放因子。

换句话说，LoRA通过低维矩阵乘积来捕捉微调带来的更新。那么LoRA能否与完全微调性能相当？如果可以，又是在什么条件下？

Thinking Machines研究发现，只要把握几个关键细节，LoRA也可以与FullFT达到相近表现。

LoRA的关键因素

在本文中，研究人员通过一系列监督微调与强化学习实验，探讨LoRA在何种条件下能与FullFT一样高效。

研究人员发现：

在小到中等规模的指令微调和推理数据集上，LoRA与FullFT表现相同。
对于超出LoRA容量的数据集，LoRA的表现劣于FullFT。
在某些场景中，LoRA对大批量训练的容忍度低于FullFT。
即便在小数据场景下，LoRA应用到所有权重矩阵（尤其是MLP和MoE层）时效果更佳。
在强化学习中，即使是低秩LoRA，表现也与FullFT相当。

研究人员在Tulu3数据集和OpenThoughts3的一个子集上进行单轮训练，针对每个数据集和模型规模遍历了LoRA秩和学习率。

研究人员发现，FullFT与高秩LoRA的学习曲线相似，损失随训练步数对数线性下降。而中低秩LoRA会在某个与秩相关的阈值步数之后偏离最小损失曲线。

从直观上看，当适配器容量耗尽时，学习速度会放缓，这由秩决定。

通过绘制损失随学习率变化的曲线，研究人员确认学习率搜索覆盖了每个秩的最佳值，发现FullFT的最佳学习率比高秩LoRA低约10倍。

批大小效应

在训练神经网络时，我们不会一次把所有数据都丢进去，所以用批大小（batch size）来衡量每一批数据中包含多少个样本。

研究人员在实验中发现，在某些情况下，LoRA对大批量训练的容忍度低于FullFT。性能差距随批量增大而扩大，与秩无关。

实验人员使用了OpenThoughts3的一个10000样本的小型子集。

图3左图显示了在大批量下，LoRA（虚线）与FullFT（实线）的学习曲线始终存在差距。而在较小批量（32）下，这一差距更小且随时间缩小。

右图展示了最终损失随批量大小的变化。可以看到，随着批量增大，LoRA的损失与FullFT的差距逐渐拉大。

大批量下的学习差距似乎与秩无关，而是LoRA固有的特性。

研究人员认为其可能原因在于矩阵乘积参数化（BA）的优化动态不如完整矩阵（W）。

LoRA应用层研究

研究人员将LoRA应用于网络不同层，发现当把LoRA应用于所有层时，尤其是MLP（包括MoE）层时，效果要好得多。

实际上，把LoRA用在注意力矩阵上并没有比只用在MLP上更有优势。仅注意力的LoRA表现不佳，并不是因为参数更少。

在这个实验中，rank=256的仅注意力LoRA表现不如rank=128仅MLP LoRA，尽管它们的参数量差不多（见下表加粗数字对比）。

研究人员还在两个额外场景下做了类似的对比实验：

(1)在OpenThoughts3数据集的小子集上（rank=256）做监督学习；

(2)在MATH数据集上做强化学习。

在这两种情况下，仅注意力LoRA的表现依然不如仅MLP LoRA。

强化学习

该实验的一个关键发现是：在用策略梯度算法做强化学习时，即使rank低至1，LoRA也能完全匹配全参数微调的学习效果。

图6中展示了在MATH数据集和GSM数据集上的学习率扫描结果，使用了各自常用的超参数。

研究人员采用了Llama-3.1-8B基座模型，发现LoRA展现出更宽的有效学习率范围，并能达到与全参数微调（黑线）相同的峰值性能。

为了进一步验证LoRA在推理强化学习中的有效性，研究人员还在DeepMath数据集上做了更大规模的实验。

研究人员观察到，在每个设定下选择最优学习率时，不同大小的LoRA与全参数微调的训练进展几乎完全一致。

设置LoRA超参数

LoRA采用的一个障碍在于必须选择合适的超参数，而这些超参数与为FullFT优化的并不相同。

研究人员采用了如下的LoRA参数化方式：

其中，r是LoRA秩，α是LoRA缩放因子，A、B是LoRA权重矩阵（秩为r）。在本文的实验中，研究人员采用α=32。

图9展示了在相同学习率下，不同秩在训练初期学习曲线的差异。

LoRA与FullFT的最优学习率比较

该实验表明，在相同的应用中，无论是监督学习还是强化学习，LoRA的最优学习率始终是FullFT的10倍。

这一点在性能（损失或奖励）随学习率变化的U形曲线中一再出现。

这说明可以更容易地把FullFT的学习率迁移到LoRA中。

研究人员目前还没有对这一观察给出充分的理论解释，但认为可以尝试从以下事实出发推导：LoRA的最优学习率与秩无关，而满秩LoRA可直接与FullFT对比。

在实证分析中，研究人员对14个不同的Llama和Qwen模型在Tulu3数据集上同时进行了LoRA和FullFT的学习率扫描。

通过这些扫描结果拟合了一个函数，能基于模型的隐层维度以及其来源（Llama或Qwen）来预测最优学习率：

在短期和长期训练中的学习率方面，LoRA的典型初始化方式会在有效学习率上隐式引入一个随时间变化的调度，这导致短期和长期训练表现出差异，且与FullFT相比，学习曲线形状也有所不同。

在训练开始时，B初始化为零。当B很小时，A的变化对适配器BA的影响几乎可以忽略。

随着B逐渐变大，A的更新对网络输出的影响开始增大，有效学习率会随着训练进程逐渐提升，因为B的规模逐渐接近A。

研究人员发现，在Tulu3和OpenThoughts数据集的完整训练结束时，B矩阵的谱范数比A矩阵更大。

这意味着在短期训练中，最优学习率应该设得更高。

初步证据表明，在短期（大约100步以内）训练时，LoRA最优倍数大约是FullFT的15倍，随着训练时间变长，收敛到前文提到的10倍。

在本文的研究中，研究人员发现LoRA与FullFT达到相近表现需要满足的两个条件：

条件1：LoRA应用于网络的所有层，尤其是包含大多数参数的 MLP/MoE（混合专家）层。

条件2：在不受容量约束时，LoRA表现良好，即可训练参数的数量要多于需要学习的信息量。

当条件1满足时，训练一开始就会看到与FullFT相似的学习动态。随后，依据条件2，LoRA会持续呈现与FullFT相近的表现，直到开始触及容量上限为止。

Thinking Machines关注LoRA，旨在推动其更广泛地应用于各种按需定制的场景，也有助于帮助我们更深入地审视机器学习中的一些基本问题。

参考资料：

https://thinkingmachines.ai/blog/lora/%20

https://x.com/thinkymachines/status/1972708674100765006

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

RLinf上新πRL：在线强化学习微调π0和π0.5

机器之心Pro 2025-11-06 17:29:51
0 跟贴 0
开源即爆火！英伟达重磅推出OmniVinci全模态大模型

机器之心Pro 2025-11-06 15:54:29
4 跟贴 4

AI六巨头首次同台！纵论四十年AI风云、泡沫之辩与AGI时间表

DeepTech深科技 2025-11-07 18:28:54
0 跟贴 0

国产模型新盛况！王座易主：Kimi K2 Thinking开源超闭源

机器之心Pro 2025-11-07 12:55:41
0 跟贴 0
英伟达新架构引爆全模态大模型革命，9B模型开源下载即破万

新智元 2025-11-07 18:43:33
0 跟贴 0

何小鹏哽咽再辟谣“机器人内藏真人”

新京报 2025-11-06 21:36:05
921 跟贴 921

上帝视角！DeepMind提前5天锁定Melissa，强度预报不再靠天

新智元 2025-11-07 10:12:09
4 跟贴 4
陶哲轩力推AlphaEvolve：多个难题中超越人类最优解

量子位 2025-11-07 17:13:46
0 跟贴 0

在失败中进化？UIUC联合斯坦福、AMD实现智能体「从错误中成长」

机器之心Pro 2025-11-07 13:00:48
0 跟贴 0
“AI老师”火了，噱头还是真刚需？

DT商业观察 2025-11-07 12:10:19
0 跟贴 0
讯飞输入法升级智能体，快来“捏”一款你的个性化AI键盘！

雷科技 2025-11-07 19:57:31
0 跟贴 0
用AI释放IP的乘法效应，讯飞点亮一个小宇宙

36氪 2025-11-07 18:57:18
0 跟贴 0
离GPT-5最近的一次！中国1万亿参数开源巨兽突然爆火

新智元 2025-11-07 12:31:27
0 跟贴 0
中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

机器之心Pro 2025-11-06 16:11:29
0 跟贴 0
我让他休息，他竟然真信了？985 博导亲述：有眼力见的学生是筛出来的

生物学霸 2025-11-07 17:30:13
0 跟贴 0
苏试试验：公司业务已逐步拓展至核电关键部件的性能检测设备

财联社 2025-11-07 18:30:06
0 跟贴 0
从熔岩流中采集炽热的熔岩样本

蚊子笑谈 2025-11-06 09:58:20
1 跟贴 1
耿爽：既然美方直接点名那我也就不再含蓄了

政知新媒体 2025-11-07 08:37:46
2281 跟贴 2281
比例模型是如何能准确模拟全尺寸船只行为的？！

大哥搞笑配音 2025-11-07 11:13:12
1 跟贴 1
万亿美元薪酬计划获压倒性票数通过马斯克：非常感激

环球网资讯 2025-11-07 08:53:27
1692 跟贴 1692
国外小哥用钢丝制造独一无二的飞机模型

奇奇趣世界 2025-11-07 09:45:48
3 跟贴 3
用口哨传递指令，被拦截了都不知道

北子影视菌 2025-11-05 16:17:02
1 跟贴 1
今年至少四地宣布将推行现房销售：“所见即所得，从根本上防范交付风险”

澎湃新闻 2025-11-07 07:12:27
1771 跟贴 1771
根系关系第2讲，求参数的值

大鹏老师讲数学 2025-11-04 05:07:00
0 跟贴 0
张家界荒野求生挑战赛进入第30天，赛事方：百人参赛仅剩17名“狠人”，有人已瘦30斤

极目新闻 2025-11-07 11:34:15
0 跟贴 0
“史上最长”春节点燃长线旅游热情已有旅客下单

新京报 2025-11-04 22:59:12
1727 跟贴 1727
一把手的指令，不理解也要执行

乌鸦追剧 2025-11-04 11:35:49
1 跟贴 1
何恺明MIT两名新弟子曝光：首次有女生入组，另一位是FNO发明者

量子位 2025-11-06 19:16:21
17 跟贴 17
舷号“18”！福建舰，入列！

北京日报客户端 2025-11-07 13:10:23
481 跟贴 481
苏州市委常委、副市长唐晓东被查，曾任吴中区委书记

澎湃新闻 2025-11-07 10:26:27
190 跟贴 190
价格翻倍！华强北集体暴涨，深圳卖家：不敢囤货，但可能更贵

都市快报橙柿互动 2025-11-07 00:13:42
386 跟贴 386
时隔8年，刘强东重返世界互联网大会并做主题演讲

极目新闻 2025-11-07 11:34:15
269 跟贴 269
不愧是北京来的大人物，一说指令，香港警察态度立马转变了

壹哥追剧 2025-11-03 19:33:09
1 跟贴 1
基础宇宙学重大突破？韩国或推翻2011年诺奖：宇宙膨胀在减速！

徐德文科学频道 2025-11-06 21:53:09
35 跟贴 35
主播直播前调整美颜参数，调整后判若两人，还有什么是真的！

青青酱爱搞笑 2025-11-05 11:00:02
1 跟贴 1
机场回应：不是飞机出来了，可能是模型什么的

江西都市现场 2025-11-05 14:15:29
0 跟贴 0
猫咪居然能听懂人话？一个指令就呲牙，这小表情也太可爱了

汪喵戏精局 2025-11-04 17:43:29
3 跟贴 3
杭州一小学学生列队敬礼迎车辆入校引质疑！教育局：严肃批评

南方都市报 2025-11-07 08:58:15
259 跟贴 259
全新坦克400：全动力矩阵硬派SUV，24.98万元起

擎商 2025-11-07 06:10:58
3 跟贴 3
苹果喊话iPhone13和14用户换新机：不如现在就17

界面新闻 2025-11-07 10:32:20
444 跟贴 444

为什么“战略忽悠局局长”张召忠，突然消失了，去哪里了？

为什么“战略忽悠局局长”张召忠，突然消失了，去哪里了？

混沌录

2025-11-02 17:13:10

美媒重排21届选秀前十，才发现除了4号秀都错了，里夫斯才第6顺位

美媒重排21届选秀前十，才发现除了4号秀都错了，里夫斯才第6顺位

你的篮球频道

2025-11-07 14:44:59

被剪刀差剪掉的一生：1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生：1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮

2025-11-02 20:52:08

172cmD杯女孩，撩走肌肉猛男，网友：没X生活的我哭晕了…

172cmD杯女孩，撩走肌肉猛男，网友：没X生活的我哭晕了…

健身迷

2025-10-16 10:10:40

谁偷拍了副院长和眼科主任的不雅事？

谁偷拍了副院长和眼科主任的不雅事？

难得君

2025-11-07 16:44:20

京东001号快递员退休1年多，勤恳工作16年，刘强东承诺的房给了吗

京东001号快递员退休1年多，勤恳工作16年，刘强东承诺的房给了吗

揽星河的笔记

2025-10-30 21:38:08

女子大闹航班要挨男友坐！哭吼揪空乘衣服致延误2小时，网友：太丢人！

女子大闹航班要挨男友坐！哭吼揪空乘衣服致延误2小时，网友：太丢人！

缅甸中文网

2025-11-07 13:07:34

高中时期你经历过哪些炸裂事迹？网友：大家的青春都这么污的吗

高中时期你经历过哪些炸裂事迹？网友：大家的青春都这么污的吗

带你感受人间冷暖

2025-10-03 00:20:08

反转！传翁帆未入职清华，担忧之事发生了，学校官网披露更多细节

反转！传翁帆未入职清华，担忧之事发生了，学校官网披露更多细节

秋姐居

2025-11-07 14:31:53

金门出现统一传单，台军爆发逃兵潮，赖清德将被审判，解放军上场

金门出现统一传单，台军爆发逃兵潮，赖清德将被审判，解放军上场

原来仙女不讲理

2025-11-07 14:12:45

加州选民强势回应：50号提案高票通过

加州选民强势回应：50号提案高票通过

美国华人杂谈

2025-11-07 08:22:47

菲律宾前总统成“世界第一巨贪”，家藏数吨黄金，拖垮国家经济

菲律宾前总统成“世界第一巨贪”，家藏数吨黄金，拖垮国家经济

三石记

2025-11-04 19:23:14

iPhone 18 Pro灵动岛缩小：史上首次

iPhone 18 Pro灵动岛缩小：史上首次

快科技

2025-11-07 14:23:18

东风就绪！神舟二十号3人乘组准备回家，神二十二1人将飞行超1年

东风就绪！神舟二十号3人乘组准备回家，神二十二1人将飞行超1年

古事寻踪记

2025-11-06 10:11:15

钱学森去汇报工作，聂荣臻突然问:谁给学森同志配这么高档的车？

钱学森去汇报工作，聂荣臻突然问:谁给学森同志配这么高档的车？

Thurman在昆明

2025-11-02 11:10:26

“高贵”的玛莎拉蒂，降到35万了！超豪车品牌扛不住了，搞起了双11大促销，“骨折式”大甩卖，纯电降价更多

“高贵”的玛莎拉蒂，降到35万了！超豪车品牌扛不住了，搞起了双11大促销，“骨折式”大甩卖，纯电降价更多

和讯网

2025-11-06 09:34:39

北京飞悉尼国际航班出现负43元票价，客服：系未含税价，最后总价应为1200多元

北京飞悉尼国际航班出现负43元票价，客服：系未含税价，最后总价应为1200多元

鲁中晨报

2025-11-07 17:31:06

葡萄牙穷到什么程度？我住了8个月，有些尴尬的现实得说出来

葡萄牙穷到什么程度？我住了8个月，有些尴尬的现实得说出来

诗意世界

2025-11-06 10:27:22

武汉大学原校长刘道玉逝世，享年92岁

武汉大学原校长刘道玉逝世，享年92岁

界面新闻

2025-11-07 19:56:14

辽篮垃圾时间狂揍天津！打得对手单节拿4分，都怪全运会奇葩规则

辽篮垃圾时间狂揍天津！打得对手单节拿4分，都怪全运会奇葩规则

嘴炮体坛

2025-11-07 18:53:46

AI产业主平台领航智能+时代

13809文章数 66238关注度

往期回顾全部

科技要闻

75%赞成！特斯拉股东同意马斯克天价薪酬

头条要闻

《西游记》沙僧扮演者刘大刚病逝剧中数位演员已离世

头条要闻

《西游记》沙僧扮演者刘大刚病逝剧中数位演员已离世

体育要闻

是天才更是强者，18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府：安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心林肯航海家场地试驾

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

家居

数码

亲子

健康

手机要闻

首款国产eSIM手机！OPPO Find X9 Pro卫星通信版预售：6999元

家居要闻

现代自由功能美学居所

数码要闻

三 M.2 双网口 + OCuLink，天钡推出 6850U 版 MACO 迷你主机

亲子要闻

可能你的玩具正在发霉

超声探头会加重受伤情况吗？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版