网易首页 > 网易号 > 正文 申请入驻

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

0
分享至


来源:机器之心

如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

然而,主流 RL 算法(如 REINFORCE 与 GRPO)普遍采用基于 token 的优化目标。这种「奖励在序列级、优化在 token 级」的不匹配引发了对于它们理论健全性与训练稳定性的担忧,因此已经有研究尝试直接使用序列级优化目标。

此外,token 级优化目标在混合专家(MoE)模型的 RL 训练中带来了新的挑战,比如 MoE 的动态专家路由机制可能破坏 token 级重要性采样比的有效性。由此引出的关键问题是:在什么条件下,用 token 级目标优化序列级奖励是合理的?有效程度又是怎样的?

针对这些问题,阿里千问团队提出了一种针对 LLM 的全新 RL 公式化方法。核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token 级目标作为其一阶近似。这一近似在以下两种偏差都足够小的条件下才成立:

  • 训练与推理之间的数值差异

  • 用于采样响应的 rollout 策略与需要优化的目标策略之间的偏差

这一观点从原理上解释了多种 RL 稳定训练技巧的有效性,比如 1)重要性采样权重天然出现在基于该一阶近似的 token 级替代目标中;2)剪切(Clipping)机制通过限制策略变化幅度来抑制策略陈旧;3)在 MoE 中,路由重放(Routing Replay)方法通过在策略优化过程中固定专家路由,能够同时减少训练–推理差异与策略陈旧,从而提高训练稳定性。


  • 论文标题:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

  • 论文地址:https://www.arxiv.org/pdf/2512.01374

为验证本文理论洞察并探索实现稳定 RL 训练的有效实践,团队使用一个 30B 参数的 MoE 模型进行大量实验,总计耗费数十万 GPU 小时。

主要结论包括如下:

  • 在 on-policy 训练中,带重要性采样校正的基本策略梯度方法能够实现最高的训练稳定性;

  • 在引入 off-policy 更新以加速收敛时(即将大规模生成的响应批次拆分成多个 mini-batch 进行多次梯度更新),要缓解因策略陈旧而导致的不稳定性,就必须同时使用 Clipping 与 Routing Replay;

  • 在训练稳定后,不同冷启动方式的模型最终性能趋于一致。这说明未来研究应更关注 RL 方法本身,而不必过度强调冷启动细节。随着 RL 训练的持续,冷启动带来的差异最终会消失。

大语言模型(LLM)强化学习的公式化方法

团队将一个由参数 θ 表示的自回归大语言模型(LLM)定义为策略 π_θ。他们使用 表示提示集,用 表示数据集。在策略 π_θ 下,给定提示 x,模型生成响应 y 的似然可写作,其中 |y| 是响应 y 的 token 数。

由于团队采用的是序列级奖励设置,即对整个响应 y 赋予一个标量奖励 R (x, y),因此专注于序列级优化,而不考虑基于价值函数的设置(比如 PPO),其中每个 token 会从价值模型获得一个标量评分从而引导策略优化。

至于为什么不采用价值函数方法,是因为团队发现:构建通用、可扩展且可靠的价值模型本身就极为困难(甚至几乎不可能)。

直接优化期望序列级奖励非常困难

团队的公式化方法从真正希望最大化的序列级奖励期望出发:


其中 π_θ 是目标策略。由于模型生成响应通常并非在训练引擎(如 Megatron、FSDP)中完成,而是在推理引擎(如 SGLang、vLLM)中进行,团队采用重要性采样(IS)来完成等价的变换:


Token 级目标作为序列级目标的一阶近似

关键步骤是引入以下替代的 token 级优化目标:


其梯度为:

这一梯度形式实际上就是带 token 级重要性采样权重的基本策略梯度算法(REINFORCE)。核心洞察是:公式 (3) 中的 token 级目标可以视为公式 (1) 中序列级目标的一阶近似。也就是说,团队用一个更易优化的 token 级替代目标来逼近真正希望最大化的序列级期望奖励。

一阶近似成立的条件

为了使上述一阶近似有效,需要满足一个关键条件:目标策略 π_θ 与 rollout 策略 μ_{θ_old} 必须足够接近。这一点乍看不太直观,因此为了便于理解,对于给定的提示 x 和任意 token y_t,团队将其重要性采样权重(IS)重写为:


MoE 模型的挑战及 Routing Replay 方法

对于 MoE 模型而言,使一阶近似成立的条件变得更为复杂。具体来说,在生成每个 token 的前向计算中,MoE 模型会通过专家路由机制动态选择并激活少量专家参数。将专家路由纳入公式 (5) 后,MoE 模型的 token 级 IS 权重可写为:


由此可以看出,MoE 场景下的强化学习挑战在于:专家路由与训练 — 推理差异、策略陈旧的紧密耦合,从而更容易导致公式 (3) 中基于一阶近似的 token 级替代优化目标失效。

Routing Replay 使一阶近似重新成立,但可能引入偏差

由于专家路由会削弱 MoE 模型中一阶近似的有效性,可通过 Routing Replay 方法消除这一影响。Routing Replay 的核心思想是在策略优化过程中固定路由到的专家,从而稳定 MoE 模型的 RL 训练,使其在优化行为上更接近稠密模型。

Routing Replay 主要有两种具体实现方式:Vanilla Routing Replay(R2) 与 Rollout Routing Replay(R3)。

R2 的目标是减轻专家路由对策略陈旧的影响,其方法是在梯度更新阶段,复现训练引擎中 rollout 策略所选择的路由专家:


R3 的目标是减轻专家路由对训练 — 推理差异的影响,其实现方式是在训练引擎中统一复现推理引擎中 rollout 策略所选定的路由专家。这一做法不仅降低了训练 — 推理差异,也同时缓解了专家路由对策略陈旧的影响:


实验结果

在实验中,团队对公式 (3) 的 REINFORCE 优化目标进行了两项最小化修改,从而构建了一个极简基线算法,称为 MiniRL。

团队在数学推理任务上进行了实验,内容为:模型生成的回答会与标准答案比对,并获得一个二值奖励。团队构建了包含 4096 道、均具有经过验证答案的数学题目作为 RL 训练的提示集。评测时,团队在 HMMT25、AIME25 和 AIME24 基准上(这三个基准共包含 90 道竞赛级数学题)分别采样 32 个响应,并报告其平均准确率。

实验采用了从 Qwen3-30B-A3B-Base 微调得到的冷启动模型。训练采用 BF16 精度,而推理由于使用 FP8 精度而具有更低数值精度,从而构成一种严格的应力测试场景,即训练与推理之间存在较大的数值差异。除了训练奖励,团队还监测了两项动态指标:目标策略的 token 级熵以及推理引擎与训练引擎中 rollout 策略之间的 KL 散度。

On-policy 训练结果

从下图 1 中,团队得到了以下观察结果与结论:

  • MiniRL(即带重要性采样校正的基本策略梯度算法)取得了最佳性能和最高训练稳定性。

  • 即使训练过程仍然稳定,引入长度归一化仍会导致性能下降。这一现象符合预期,因为长度归一化破坏了对真实序列级奖励的一阶近似,从而使 token 级优化目标产生偏差。

  • 移除训练 — 推理阶段的 IS 校正会导致训练迅速崩溃,并伴随熵的急剧下降。这进一步验证了:IS 权重是该一阶近似中不可或缺的组成部分;一旦移除,token 级优化目标将立即失效。


Off-policy 训练结果

从下图 2 至图 4 中,团队得到了以下观察结果与结论:一旦引入 off-policy 更新,Routing Replay 与 clipping 都成为实现稳定训练的关键要素。

具体来讲,如图 2 和图 3 所示,只要缺失 Routing Replay 或 clipping 中的任一项,训练都会提前崩溃,进而导致峰值性能下降。这说明:Routing Replay 能够缓解专家路由带来的不稳定因素;Clipping 则能有效抑制过度激进的策略更新。两者共同作用,从而抑制策略陈旧,保障训练稳定性。




不同冷启动初始化的结果

在下图 5 中,团队展示了三种不同的冷启动初始化方式最终都取得了相近的性能。这一现象表明,研究重点应更多放在强化学习(RL)方法本身,而不必过度关注冷启动初始化的具体细节。

此外,通过对比图 1 至图 4,团队发现:无论是 on-policy 还是 off-policy,只要训练过程得以稳定,其峰值性能都高度一致。这些结果进一步说明:稳定的训练过程在成功扩展 RL 中起着决定性作用。


更多技术细节请参阅原论文。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

7名中国游客在贝加尔湖遇难,目击者称事发冰面表面光滑但下方有裂缝,总领事馆:已与遇难人员家属建立联系

极目新闻
2026-02-21 14:31:40
贝加尔湖7名遇难中国游客身份全部确认:一家四口中仅一名男性生还,另有4人约团司机同行;接私单司机身份曝光,属非法载客

贝加尔湖7名遇难中国游客身份全部确认:一家四口中仅一名男性生还,另有4人约团司机同行;接私单司机身份曝光,属非法载客

扬子晚报
2026-02-21 22:44:48
“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

“谈判陷入僵局”,外媒爆料:伊朗外长拒绝打开美方装有导弹提议的信函,并将其退回

环球网资讯
2026-02-21 17:27:11
谷爱凌:人们之所以对我有意见,是因为讨厌中国

谷爱凌:人们之所以对我有意见,是因为讨厌中国

懂球帝
2026-02-21 16:53:05
湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

火山詩话
2026-02-21 12:06:43
恒大集团创始人许家印的靠山体系

恒大集团创始人许家印的靠山体系

地产微资讯
2026-02-21 18:49:14
为啥我们五次申请CPTPP都失败?原因在于第四条

为啥我们五次申请CPTPP都失败?原因在于第四条

老籣说体育
2026-02-21 12:00:33
胡锡进果然很聪明,一眼看透了他的伎俩,趁早躲得远远的

胡锡进果然很聪明,一眼看透了他的伎俩,趁早躲得远远的

读鬼笔记
2026-02-21 09:52:03
爆冷丢金!中国队太遗憾,争议性选择失误收尾 金牌数无缘超日本

爆冷丢金!中国队太遗憾,争议性选择失误收尾 金牌数无缘超日本

大秦壁虎白话体育
2026-02-21 19:57:04
整个西方都炸了,中国男人,全球最高级的一群人

整个西方都炸了,中国男人,全球最高级的一群人

毛豆论道
2026-02-20 20:49:13
游客青海自驾被野牦牛拦路6小时,当地民警深夜驰援

游客青海自驾被野牦牛拦路6小时,当地民警深夜驰援

红星新闻
2026-02-21 18:10:16
华为手机基本走向没落了

华为手机基本走向没落了

月光作笺a
2026-02-21 06:06:45
山东男子自驾1500公里去重庆,硬开10小时到襄阳后,果断弃车换高铁:“实在是开不动了”

山东男子自驾1500公里去重庆,硬开10小时到襄阳后,果断弃车换高铁:“实在是开不动了”

大象新闻
2026-02-21 22:48:05
宇树CEO王兴兴:当前机器人技术接近10岁孩子水平,大规模应用或需3至5年,最长不超10年

宇树CEO王兴兴:当前机器人技术接近10岁孩子水平,大规模应用或需3至5年,最长不超10年

大象新闻
2026-02-21 20:44:06
娜然敲开霍家门!十年低调相守赢过所有炒作

娜然敲开霍家门!十年低调相守赢过所有炒作

陈意小可爱
2026-02-21 22:50:31
湛江妈祖事件到发生了什么?后续女孩回应来了,福建老板集体拉黑

湛江妈祖事件到发生了什么?后续女孩回应来了,福建老板集体拉黑

社会日日鲜
2026-02-21 06:56:42
贾浅浅《开花》被获得全国诗歌一等奖的诗,写出了女性的原始欲

贾浅浅《开花》被获得全国诗歌一等奖的诗,写出了女性的原始欲

读睡
2026-02-20 16:29:43
云南一老人取36万凑彩礼,40多岁儿子懵了:我已婚了呀

云南一老人取36万凑彩礼,40多岁儿子懵了:我已婚了呀

极目新闻
2026-02-21 10:18:32
48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

48岁欧阳夏丹父母双亡独自过年,一个人吃7道菜,大口吃饭不矫情

离离言几许
2026-02-20 23:38:28
斯诺克最新战报!世界第一出局,希金斯6-5绝杀,赵心童收获利好

斯诺克最新战报!世界第一出局,希金斯6-5绝杀,赵心童收获利好

越岭寻踪
2026-02-22 01:51:50
2026-02-22 04:39:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4541文章数 37408关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

健康
教育
艺术
数码
房产

转头就晕的耳石症,能开车上班吗?

教育要闻

高考地理中的河流凹凸岸

艺术要闻

他的肖像画和人体画,竟让人赞叹不已!

数码要闻

物理销毁SSD:结果根本没贯穿PCB!直接就扔到垃圾桶了

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

无障碍浏览 进入关怀版