网易首页 > 网易号 > 正文 申请入驻

SFT远不如RL?永不过时的剃刀原则打开终身学习大模型训练的大门

0
分享至



机器之心报道

编辑:冷猫

我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶,机器人等各种下游应用。

在大模型的实际使用中我们发现,大部分的模型还只是某个细分领域任务的大牛,离我们理想中的 AGI 仍然遥遥无期。

准确的说,这些投入部署的大模型大多是「静态」模型,对于其预训练或微调时优化的系列任务表现良好,但是在动态学习,自我提升这部分能力是缺位的。

如果我们希望实现更加通用的大模型,使其能像长期的智能助手一样,随时间不断适应新的任务与需求,很多技术瓶颈亟待突破。而最大的挑战之一就是「灾难性遗忘」。

相信大家对这个概念已经非常熟悉了,灾难性遗忘指的是模型在学习新任务时,会丢掉之前学到的技能。扩大模型规模、增加预训练数据确实能稍微缓解遗忘现象,但始终不能彻底解决。



图源:小红书 @机器坏人(AI 版)

针对灾难性遗忘的问题,研究者们提出了各种各样的改进方法,包括正则化、经验回放、参数微调等等。

但有没有一种可能,我们对大模型遗忘的研究想的有些太复杂了,如无必要勿增实体的剃刀原则才是根治问题的最佳手段。

几天前,来自麻省理工学院(MIT)Improbable AI Lab 的研究者针对该问题发表了一篇研究论文,将奥卡姆的剃刀伸向了大模型后训练,揭示了大模型遗忘现象的基本规律和训练策略,目前已在 Alphaxiv 上热度排名第一。



  • 论文标题:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 论文链接:https://www.arxiv.org/abs/2509.04259v1

现代 AI 系统面临一个根本性挑战:在学习新任务时,它们常常灾难性地遗忘先前获得的知识。这种现象严重限制了基础模型作为长期、持续学习代理的能力。

这项研究集中在一个惊人的实证观察上:

研究者比较了两种常见的后训练方式:监督微调(SFT) 和 强化学习(RL)。结果很出乎意料:

  • 即便 SFT 和 RL 在新任务上表现一样好,SFT 往往是通过 「牺牲旧知识」 来换取新任务的提升;
  • RL 却能在学习新技能的同时,更多地保留原有能力。

那么问题来了:为什么 RL 不容易遗忘?

遗忘定律

研究揭示了一个新的规律,称为 「遗忘定律」:

当模型 π 在新任务 τ 上进行微调时,遗忘程度可以通过 精确预测,即在新任务上评估的微调策略和基线策略之间的KL散度



这条定律在实践中非常有用,因为它可以在微调过程中进行测量甚至影响,而无需访问旧任务数据。尽管其机制仍有待充分理解,但这条定律在不同模型和领域之间的一致性表明它反映了遗忘的一个基本属性。

也就是说,微调后模型与原始模型在新任务分布上的差异越大,遗忘就越严重。



偏向 KL - 最小解减少了遗忘。左图显示,在能够解决新任务的策略中,RL 收敛到 KL 散度上最接近基模型的那些策略。右图显示,在相同的新任务性能下,这种 KL 偏向使得 RL 相比 SFT 能更好地保留先验任务的知识。

研究者进行了广泛的实验,以确定什么因素预示着灾难性遗忘。他们测试了各种假设,包括权重级变化、表示偏移和分布差异。通过对多个领域和模型架构进行系统性消融研究,他们发现微调策略和基础策略之间的前向 KL 散度是遗忘的一个惊人一致的预测指标

前向 KL 散度定义为:



其中代表微调策略,代表原始模型。





这种关系适用于不同的训练算法和超参数,形成了作者所称的「经验性遗忘定律」。在使用简化 ParityMNIST 任务的对照实验中,这种关系实现了 0.96 的 R²,证明了其预测能力。



该图显示,在帕累托前沿上,RL 始终优于 SFT,在语言模型(数学、科学问答、工具使用)和机器人任务中,RL 在新任务性能和先验知识保留之间实现了更好的权衡。

RL 的剃刀:KL 最小路径原理

更有意思的是,RL 的优势正来自于它的 「KL 偏好」。

  • 在新任务上,存在许多能达到高表现的解。
  • RL 天然偏向选择那些 离原始模型更近(KL 更小) 的解;
  • 而 SFT 则可能收敛到距离原始模型很远的解,从而带来严重遗忘。

核心理论贡献是「RL 的剃刀」—— 即在解决新任务的所有方法中,RL 偏好与原始模型在 KL 散度上最接近的解决方案。这种偏向 KL 最小解的偏好解释了为什么 RL 比 SFT 遗忘得少。

为了验证 KL 假设,研究者构造了一个理想的 「oracle SFT」 分布:它在保证新任务完美准确的同时,也做到 KL 最小化。结果显示,在这个分布上训练,遗忘比 RL 还少。这说明 RL 的优势并不是来自某种「本质上的不同」,而是源于它 隐式地执行了 KL 最小化。只要训练过程偏向 KL 最小解,模型遗忘就会随之减少。



左图通过使用一个「Oracle SFT」分布来证明这一原理,该分布在实现完美新任务准确性的同时,解析地最小化了 KL 散度。使用这种 Oracle 分布进行训练产生的遗忘比标准 RL 更少,证实了 KL 最小化是关键机制。中图展示了 KL 散度与遗忘之间的强关联(R² = 0.961),而右图则说明了与 SFT 相比,RL 如何通过较小的 KL 偏移实现高准确性。

机制分析:在线策略学习与离线策略学习

为了理解 RL 何种机制驱动了其 KL 保守行为,研究人员比较了四种不同的训练范式:

分析揭示,数据收集的在线策略性质是关键因素,而不是负面示例的使用。在线策略方法(GRPO 和 1-0 Reinforce)保持较小的 KL 偏移和更好的先验任务保留,而离线方法(SFT 和 SimPO)无论是否使用负面示例,其行为都相似。

理论基础

作者通过信息几何的视角,为强化学习的 KL - 最小收敛提供了理论基础。他们表明,带有二元奖励的策略梯度方法可以被理解为在概率空间中执行交替的信息(I-)投影和期望(M-)投影:



这种迭代过程收敛到可表示策略类中的 KL - 最小最优策略,为「RL 的剃刀」提供了形式化解释。I - 投影步骤在满足奖励约束的同时最小化 KL 散度,而 M - 投影步骤则朝着更高奖励的动作更新。

更多数据

这项研究表明,这一原理超越了简单的实验环境。使用中心核对齐(Centered Kernel Alignment)进行的表示保留分析表明,与 SFT 相比,RL 保持与基础模型更高的相似性:



此外,对更大模型(70 亿和 140 亿参数)的实验证实,仅仅扩大规模并不能消除 SFT 中固有的遗忘权衡:



总结

本篇论文的核心贡献有三点:

1. 实验证明:在相同性能下,RL 比 SFT 更不容易遗忘

2. 提出遗忘定律:新任务上的KL 散度是预测遗忘的关键指标。

3. 理论与实证结合,解释了RL 的优势来自其 on-policy 特性

这项研究为后训练提供了新的视角:为了实现无遗忘的持续适应,算法应该明确地旨在最小化与基模型之间的 KL 散度,确立了 KL 散度作为持续学习系统的基本设计原则。

这一原则为设计未来的训练方法打开了大门,这些方法将 RL 保留先验知识的能力与 SFT 的效率相结合,使基础模型能够真正地「终身学习」。

对于使用基础模型的实践者来说,这项研究提供了明确的指导:当持续适应很重要时,在线策略 RL 方法比标准微调方法具有显著优势。KL 散度指标还为模型适应期间的遗忘监测和预测提供了一个实用工具。

这项工作有助于我们理解为什么像 RLHF 中的 KL 正则化这样的常见实践是有效的,将经验观察提升到理论基础。这种原则性理解为开发真正长寿、能够持续学习而不会灾难性遗忘的 AI 代理开辟了新方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现没?军方明显越来越“不耐烦”了,说的都是外国人能听懂的话

发现没?军方明显越来越“不耐烦”了,说的都是外国人能听懂的话

肖兹探秘说
2025-09-14 11:17:50
全红婵暨南大学报到才2天,惨遭网友围攻,被嘲“没教养没文化”

全红婵暨南大学报到才2天,惨遭网友围攻,被嘲“没教养没文化”

书雁飞史oh
2025-09-15 18:44:36
深圳水贝20多家黄金料商集体跑路,黄金做空骗局何时休?

深圳水贝20多家黄金料商集体跑路,黄金做空骗局何时休?

今日美食分享
2025-09-15 01:09:41
西兰花供应商大部分出口美日欧,犹太食品认证,能吃到是你的运气

西兰花供应商大部分出口美日欧,犹太食品认证,能吃到是你的运气

恪守原则和底线
2025-09-14 14:29:33
罗永浩称将就西贝预制菜提起集体诉讼,律师:若证据充分西贝或将承担双重责任

罗永浩称将就西贝预制菜提起集体诉讼,律师:若证据充分西贝或将承担双重责任

现代快报
2025-09-15 12:47:04
谭丕创已任广西壮族自治区党委常委、统战部部长

谭丕创已任广西壮族自治区党委常委、统战部部长

澎湃新闻
2025-09-15 19:46:27
中美贸易谈判交锋6小时,消息爆料:特朗普或将同意延迟1项禁令

中美贸易谈判交锋6小时,消息爆料:特朗普或将同意延迟1项禁令

始于初见见
2025-09-15 18:55:50
奸淫妇女10人、敛财超500万元,河南一邪教头目自封“玉皇大帝”,案情披露→

奸淫妇女10人、敛财超500万元,河南一邪教头目自封“玉皇大帝”,案情披露→

新民周刊
2025-09-15 14:01:02
丁盛85岁进京申诉,老上级黄火青问了三个问题,叹息道:你糊涂啊

丁盛85岁进京申诉,老上级黄火青问了三个问题,叹息道:你糊涂啊

旧书卷里的长安
2025-09-15 22:56:39
脱口秀“房主任”再度翻车了,编剧发声:决赛2篇稿子是别人写的

脱口秀“房主任”再度翻车了,编剧发声:决赛2篇稿子是别人写的

辣条小剧场
2025-09-15 23:24:46
晚清一奇才借钱从不花,放箱子里到期便还,用此套路攒下亿万身家

晚清一奇才借钱从不花,放箱子里到期便还,用此套路攒下亿万身家

风云史迹
2025-09-13 15:42:55
28国重压下,中印还没认输,俄先让步,380万吨稀土向美敞开大门

28国重压下,中印还没认输,俄先让步,380万吨稀土向美敞开大门

铁锤简科
2025-09-15 15:35:33
妈妈貌若天仙,孩子却“颜值扑街”的星二代,怪妈还是怪爸?

妈妈貌若天仙,孩子却“颜值扑街”的星二代,怪妈还是怪爸?

春序娱乐
2025-09-15 13:49:59
惊天黑哨!VAR录像曝光裁判麦麦提江拒绝回看瞬间,球迷怒曝铁证

惊天黑哨!VAR录像曝光裁判麦麦提江拒绝回看瞬间,球迷怒曝铁证

振华观史
2025-09-15 21:08:22
科技巨头中国裁员!

科技巨头中国裁员!

中国半导体论坛
2025-09-15 22:59:10
全球最大的医院竟然在中国,每天接诊超过4万人,日营收6000万

全球最大的医院竟然在中国,每天接诊超过4万人,日营收6000万

禾寒叙
2025-09-15 19:05:35
连续十台手术失败会是什么结果?网友:心态估计都崩了怀疑自我吧

连续十台手术失败会是什么结果?网友:心态估计都崩了怀疑自我吧

解读热点事件
2025-09-14 00:05:07
郭德纲让郭麒麟彻底死心,天津德云社开业,郭汾阳的话成为导火索

郭德纲让郭麒麟彻底死心,天津德云社开业,郭汾阳的话成为导火索

千言娱乐记
2025-08-28 07:18:22
698分孙女被军校拒绝,农民爷爷寻求真相,军校校长看见爷爷敬礼

698分孙女被军校拒绝,农民爷爷寻求真相,军校校长看见爷爷敬礼

红豆讲堂
2025-09-12 11:28:18
西贝致歉后罗永浩再发声!知情人士称“贾国龙不给说法,老罗不会罢休”

西贝致歉后罗永浩再发声!知情人士称“贾国龙不给说法,老罗不会罢休”

澎湃新闻
2025-09-15 17:04:27
2025-09-16 00:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11296文章数 142450关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

健康
时尚
本地
游戏
军事航空

内分泌科专家破解身高八大谣言

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

双人合作游戏《乐高旅行者》IGN8分:全年龄佳作

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版