网易首页 > 网易号 > 正文 申请入驻

RL特训出「押题大师」?破解模型微调中的多样性危机与灾难性遗忘

0
分享至


新智元报道

编辑:YHluck

【新智元导读】RL之后,大模型为什么更容易「越训越单一」?面对五花八门的改进思路,也许答案并不复杂:先试着改一改KL项。

近年来,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)已成为提升大语言模型推理能力的重要路径。

从数学求解到代码生成,再到SQL推断,大量研究表明,RL能显著提升模型在单次作答场景下的成功率。

然而,一个关键现象始终未得到充分解释:为什么许多经过RL微调的模型,虽然 Pass@1提升了,但在允许多次尝试时,Pass@k反而下降了?

这表明,模型或许更擅长「押中一次正确答案」,却丧失了原本丰富的解题路径与候选解空间。更进一步,这种现象往往伴随着灾难性遗忘(Catastrophic Forgetting)和跨领域泛化能力的下降。

现有方法通常将注意力集中于奖励设计、采样策略或熵调控,但研究团队发现,一个更基础、更关键的问题长期被忽视:RL目标中的divergence项,究竟应如何选择?

针对这一问题,复旦大学、无限光年、上海科学智能研究院(下称上智院)上海创智学院的联合研究团队聚焦于长期被忽视的KL散度项,从divergence选择的角度破解这一难题相关研究成果已被ICLR2026接收。


论文标题:The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

论文链接:https://arxiv.org/abs/2509.07430

代码链接:https://github.com/seamoke/DPH-RL

复旦大学博士生、无限光年实习生李龙,复旦大学及上海创智学院博士生周潪剑,为共同一作。复旦大学研究员、上海科学智能研究院AI科学家屈超,为通讯作者。

divergence 选择困境:

反向KL与约束缺失的代价

在大多数RL后训练方法中,常见做法是采用reverse-KL,或直接移除 divergence 约束。然而,这两种选择均存在明显缺陷:


  • Reverse-KL本质上是mode-seeking的,会鼓励策略向少数高概率模式收缩;

  • 缺失divergence项意味着模型在训练过程中缺乏对原始知识分布的显式保护机制。


这两种设定都会导致模型日益集中于少量「熟悉答案」,进而引发Pass@k下降、既有能力遗忘以及跨任务泛化能力减弱。若以更形式化的方式表述,传统 RLVR 可概括为:


其中,πθ为当前策略,πref为参考策略(通常为初始模型或SFT模型)。问题的关键在于:若此处的divergence选择不当,后半部分将不再是「保护机制」,反而会沦为「多样性压缩器」。


若将基础模型视为已掌握大量知识与多样解法的「知识分布」,那么RL微调的目标本应是在保留既有能力的前提下进一步提升任务表现。

然而现实中,许多RL方法更像是在不断强化少数高回报轨迹——模型逐渐偏向一两种最易获得奖励的解法,而舍弃了原本同样有效但出现频率较低的其他路径。

研究团队进行了一项有趣的实验:通过SFT让模型学习到多种不同风格的回答方式,仅凭前缀即可判断模型采用了哪种风格;然而经过标准GRPO训练后,模型几乎只保留了一种风格。

因此,研究团队认为,RLVR中真正需要解决的,不仅是「如何学得更强」,更包括:如何在优化奖励的同时,保全模型原本拥有的多样性。

方法:

将divergence从「约束项」重塑为「保多样性机制」


基于上述观察,团队提出了DPH-RL(Diversity-Preserving Hybrid RL)。这项工作的核心思想是:

divergence不应仅是训练时的附带正则项,而应被重新设计为主动保护模型多样性的机制。

具体而言,不再沿用传统的reverse-KL,而是引入更具mass-covering性质的 ,例如:


与倾向于收缩至单一模式的reverse-KL不同,这类divergence会鼓励新策略继续覆盖参考策略中原本存在的多种解法。换言之,它并非强迫模型「只记住最优路径」,而是在提醒模型:「你可以继续变强,但不要忘记原本掌握的东西。」

从机制上看,该研究的方法可理解为一种rehearsal mechanism(复现机制):模型在训练过程中持续参考初始策略的分布,从而保留原有的知识覆盖范围,避免在强化学习过程中发生过度收缩。

以提到的forward-KL为例:

此处的期望是对参考策略πref取的。只要参考策略曾覆盖过某些合理解法,新策略πθ便不能轻易将其概率压至接近零。正因如此,forward-KL更具mass-covering倾向,更适合作为「保多样性」的工具。

进一步地,论文还引入了JS divergence作为更稳定、对称的替代方案。若记:, 则对应的生成函数可写为:。由此得到一类更加平滑的分布约束方式。

此外,DPH-RL在实现上也更为高效。作者采用基于generator function的方式计算f-divergence,仅需从初始πref预采样,无需在训练过程中维护在线reference model。

这使得方法在训练成本上更加友好,更适合实际大规模后训练场景。在具体训练时,DPH-RL 并非对所有样本「一刀切」地施加同一种约束,而是先将数据划分为两部分:

  • 探索集合Dexp:针对模型尚未掌握的困难样本,不加入任何KL penalty

让模型在困难样本上更激进地探索高奖励解法。此处采用标准 PPO-clip 目标:


  • 完美集合Dpef:针对模型已基本掌握的样本,πref从Dpef采样,依靠f-divergence保持在正确样本上的多样性。更直观地说,模型在这部分样本上不再追求「获取更高奖励」,而是尽量不偏离原本已表现良好的行为分布,其一般形式为:


因此,整体训练过程更适合表述为「分情况计算」的形式:


换言之,并非对每个样本同时叠加「探索项 + 保持项」,而是先判断样本属于Dexp还是Dpef,再计算对应的loss。

更优的divergence选择

可同时兼顾性能提升、多样性保留与泛化能力

实验设置

论文采用Llama3.1-8b作为实验模型,仅在BIRD数据集上训练,并在BIRD、Spider 及数学任务数据集上测试OOD泛化能力。


In-Domain性能:Pass@k的恢复

在BIRD数据集上,结果清晰表明:

  • GRPO与DAPO虽可能提升了Greedy(相当于Pass@1)表现,但其Pass@8Pass@16分数均显著低于Base Model,证实了多样性坍塌的存在;

  • RKL(反向KL)表现同样不佳,Pass@k出现下降;

  • DPH-F与DPH-JS不仅Greedy分数最高,其Pass@8分数也超越了Base Model。其中,DPH-JS的Pass@8分数较GRPO高出4.3%在更大的k设置下,DPH-RL更接近base model,缓解了Pass@k的崩塌。



Cross-Domain与OOD性能:

泛化能力的保持


我们将SQL任务上的Spider数据集视为cross-domain,将数学数据集视为out-of-domain。可以看到,所有仅在SQL数据集Bird上训练得到的RL模型,在分布发生偏移时都会出现不同程度的性能下降。

正如图中所示,随着任务与训练分布的差异逐步增大,Pass@k整体呈现明显下降趋势,这也是OOD场景中的普遍挑战。

不过,更值得关注的是各方法的相对表现


  • DPH-F与DPH-JSPass@k分数显著高于其他所有RL方法,最接近Base Model的原始水平;

  • DAPO在OOD任务上表现不稳定、性能保留能力不如DPH-F,DPH-F的Pass@16分数较DAPO高出9.0%

  • Reverse-KL在OOD场景下表现严重下滑。


这表明,通过保留解决方案的多样性,DPH-RL能够更有效地防止灾难性遗忘,从而在面对新领域问题时保持更强的泛化能力。

保留 (Keep)与探索 (Exploration)的显式平衡


为了揭示DPH-RL的核心机制,论文通过解构模型在Pass@8上的表现,分析了 RL 微调前后的知识动态:


  • 保留率 (Keep Rate):衡量知识稳固度。指基础模型原先能做对的样本在微调后依然保持正确的比例。

  • 额外探索率 (Additional Exploration Rate):衡量能力增量。指基础模型原先做错的样本在微调后转而做对的比例。


实验结果揭示了DPH-RL与GRPO之间的核心区别:


  1. 高保全性DPH-RL拥有极高的保留率,能有效留存模型已有的稳固知识,从根本上避免了「灾难性遗忘」。

  2. 净增益优势相比之下,GRPO虽然具有一定的探索能力,但在获取新知识的同时,往往伴随着对原有能力的剧烈侵蚀——即典型的「学新忘旧」。


由此可见,DPH-RL通过对强化学习组件的功能解耦,实现了保留探索的显式平衡。它证明了在通过 RL 提升模型能力上限的同时,稳固已有的知识底座是取得最终胜出的关键。

总结

本文系统分析了RLVR中普遍存在的diversity collapse现象,指出常用的reverse-KL 及无divergence设定均缺乏有效的知识保留机制。 为此,作者提出DPH-RL,将mass-coveringf-divergence作为保护模型多样性与缓解遗忘的核心工具。

实验表明,DPH-RL不仅能缓解Pass@k下降问题,还可同时提升Pass@1并在跨域任务上展现出更优的稳定性与泛化能力。更重要的是,这一结果启示我们:在RL后训练时代,保住多样性与提高奖励同等重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国大学“校史虚构大赛”:谁在争抢“第一”?

中国大学“校史虚构大赛”:谁在争抢“第一”?

深度报
2026-05-09 23:35:25
新规落地!手机不用再交月租,联通率先实行,移动电信全都跟上

新规落地!手机不用再交月租,联通率先实行,移动电信全都跟上

笑熬浆糊111
2026-05-09 04:47:09
这才是现场摄影师该干的事!

这才是现场摄影师该干的事!

贵圈真乱
2026-05-10 09:38:47
河南22岁博主连夜开车1300多公里送同学奔丧感动全网:女大学生深夜得知母亲去世,向同校70万粉丝博主求助;博主最新回应:已在返校途中

河南22岁博主连夜开车1300多公里送同学奔丧感动全网:女大学生深夜得知母亲去世,向同校70万粉丝博主求助;博主最新回应:已在返校途中

极目新闻
2026-05-10 20:42:25
“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

妍妍教育日记
2026-05-09 13:31:49
OPPO母亲节活动文案引争议,武汉大学:极不认同文案价值倾向

OPPO母亲节活动文案引争议,武汉大学:极不认同文案价值倾向

界面新闻
2026-05-10 17:42:10
大丫头无缘破不胜魔咒!蒯曼1-3日本最强削球手,国乒陷入绝境

大丫头无缘破不胜魔咒!蒯曼1-3日本最强削球手,国乒陷入绝境

钉钉陌上花开
2026-05-10 20:32:26
小玥儿开通个人账号!发文求救,晒照思念妈妈,外婆和小S是好友

小玥儿开通个人账号!发文求救,晒照思念妈妈,外婆和小S是好友

小娱乐悠悠
2026-05-10 11:32:57
怀化市召开领导干部会议 宣布省委有关人事安排决定

怀化市召开领导干部会议 宣布省委有关人事安排决定

环球网资讯
2026-05-10 16:20:10
孙颖莎3-0!王曼昱决胜局4-11溃败仅20分钟,世界第一强势复仇!

孙颖莎3-0!王曼昱决胜局4-11溃败仅20分钟,世界第一强势复仇!

大秦壁虎白话体育
2026-05-10 19:40:20
重庆黔江一司机因操作不当引发车祸致2死6伤,目击者:不少行人在等红绿灯,肇事车撞倒多人到路边停下

重庆黔江一司机因操作不当引发车祸致2死6伤,目击者:不少行人在等红绿灯,肇事车撞倒多人到路边停下

极目新闻
2026-05-10 19:24:48
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
伦敦世乒赛:大爆冷!蒯曼1:3不敌日本削球手,国乒1:2落后日本

伦敦世乒赛:大爆冷!蒯曼1:3不敌日本削球手,国乒1:2落后日本

国乒二三事
2026-05-10 20:36:29
马宁争议判罚!国安进球被吹,海港反获点球,VAR介入7分钟

马宁争议判罚!国安进球被吹,海港反获点球,VAR介入7分钟

奥拜尔
2026-05-10 20:28:28
连续潜航超14天 中国造的“麒麟”级潜艇有多厉害?

连续潜航超14天 中国造的“麒麟”级潜艇有多厉害?

环球网资讯
2026-05-10 13:18:11
女子自称住院期间遭医生侵犯,“为录音取证,主动问对方是否喜欢自己”;警方调查后未发现犯罪事实不予立案,涉事医生已被停职

女子自称住院期间遭医生侵犯,“为录音取证,主动问对方是否喜欢自己”;警方调查后未发现犯罪事实不予立案,涉事医生已被停职

大风新闻
2026-05-10 12:29:10
突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

一盅情怀
2026-05-10 12:46:52
韩国总统、国会议长、执政党党首同日飙泪,此前法官离奇死亡!

韩国总统、国会议长、执政党党首同日飙泪,此前法官离奇死亡!

新民晚报
2026-05-10 09:57:45
法国车手瓦伦丁爆红后硬核带飞队友,还完房贷拉64号入局

法国车手瓦伦丁爆红后硬核带飞队友,还完房贷拉64号入局

可乐谈情感
2026-05-10 20:27:43
未经同意,以色列竟在伊拉克建秘密基地!以色列前外交官:特朗普和内塔尼亚胡相互挖坑

未经同意,以色列竟在伊拉克建秘密基地!以色列前外交官:特朗普和内塔尼亚胡相互挖坑

红星新闻
2026-05-10 19:16:12
2026-05-10 21:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66856关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
旅游
房产
手机
军事航空

家居要闻

菁英人居 全能豪宅

旅游要闻

新疆旅游新动向丨从“凑人气”到“留人心” 新疆县域旅游玩出新高度

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

手机要闻

澎湃OS 4被曝六月见!彻底清除MIUI代码、底层重塑!

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版