用 LLM 稳定强化学习：理论构建与实践|算法|路由|实验|有效性

分享至

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

用 LLM 稳定强化学习：理论构建与实践

https://arxiv.org/pdf/2512.01374

摘要

本文提出了一种针对大语言模型（LLM）强化学习（RL）的新颖公式化方法，阐明了在策略梯度方法（如REINFORCE）中，为何以及在何种条件下可通过代理的词元级（token-level）目标来优化真实的序列级（sequence-level）奖励。具体而言，通过一阶近似（first-order approximation），我们证明该代理目标仅当训练–推理差异（training–inference discrepancy）与策略陈旧性（policy staleness）均被最小化时，其有效性才会不断增强。这一洞见为若干广泛采用的RL训练稳定化技术提供了原理性解释，包括重要性采样校正（importance sampling correction）、裁剪（clipping），尤其是面向混合专家模型（Mixture-of-Experts, MoE）的路由回放（Routing Replay）技术。通过针对一个300亿参数MoE模型开展的大量实验（累计耗费数十万GPU小时），我们发现：对于在线策略（on-policy）训练，结合重要性采样校正的基础策略梯度算法可实现最高的训练稳定性；当引入离线策略（off-policy）更新以加速收敛时（即将大批量响应拆分为小批量进行多次梯度更新），必须结合裁剪与路由回放技术，以缓解策略陈旧性引发的不稳定性。值得注意的是，一旦训练过程趋于稳定，无论冷启动初始化方式如何，经过充分优化的模型最终均能获得相当的性能表现。我们期望所分享的洞见与所开发的稳定RL训练方案能够推动后续研究。

1 引言

强化学习（RL）已成为提升大语言模型（LLM）解决复杂问题能力的关键技术范式（OpenAI, 2024；Guo et al., 2025；Yang et al., 2025），而稳定的训练过程对于成功扩展RL至关重要。由于语言的上下文特性，LLM的RL训练通常采用序列级奖励，即根据模型完整响应分配一个标量分数。然而，主流RL算法（如REINFORCE与GRPO）通常采用词元级优化目标。这种奖励分配单位（序列级）与优化单位（词元级）之间的不匹配，引发了对这类方法合理性与训练稳定性的担忧；部分研究已提出直接采用序列级优化目标（Zheng et al., 2025；Liu et al., 2025a）。尤其对于混合专家（MoE）模型，词元级优化目标还带来独特挑战：例如，动态专家路由机制可能导致MoE模型中的词元级重要性采样比率失效（Zheng et al., 2025）。然而，目前尚不清楚通过词元级目标优化序列级奖励是否具有理论依据，若可行，其有效性边界或成立条件为何。

本文针对LLM的RL训练提出一种新颖的公式化方法。核心洞见在于：为优化期望序列级奖励，可采用代理的词元级目标作为其一阶近似。具体而言，该近似仅当以下两者同时被最小化时才可能成立：(1) 训练与推理引擎之间的数值差异（即训练–推理差异）；(2) 用于采样响应的轨迹策略与待优化目标策略之间的差异（即策略陈旧性）。该洞见为多种RL训练稳定化技术提供了原理性解释：例如，(1) 重要性采样权重是一阶近似下代理词元级目标的固有组成部分；(2) 裁剪机制可通过抑制激进的策略更新来约束策略陈旧性；(3) 对于MoE模型，路由回放方法（Routing Replay）（Zheng et al., 2025；Ma et al., 2025）——即在策略优化期间固定已路由的专家——可同时降低训练–推理差异与策略陈旧性。

为实证验证上述洞见并探索稳定RL训练的实用方案，我们基于一个300亿参数的MoE模型开展了大量实验，累计消耗数十万GPU小时。主要结论包括：(1) 对于在线策略训练，结合重要性采样校正的基础策略梯度算法展现出最高的训练稳定性；(2) 当引入离线策略更新以加速收敛时，必须结合裁剪与路由回放技术，以缓解策略陈旧性导致的不稳定性；(3) 一旦训练趋于稳定，不同冷启动初始化的模型在充分优化后均能达成相当的最终性能。这提示未来研究可更聚焦于RL算法本身，而非过度关注冷启动初始化的细节，因为后者带来的差异在充分的RL训练后预期将逐渐消失。

综上，本文在两个维度上作出贡献：• 理论层面：提出LLM强化学习的新颖公式化方法，揭示了通过词元级目标优化序列级奖励的理论依据及其成立条件。具体而言，底层一阶近似的有效性依赖于训练–推理差异与策略陈旧性的联合最小化。• 实证层面：通过累计数十万GPU小时的MoE模型大规模实验，证明若干旨在维持一阶近似有效性的技术（尤其是专为MoE模型设计的路由回放方法）在稳定RL训练中具有一致的实用效果。我们期望所开发的稳定训练方案能够助力未来研究。

2 大语言模型强化学习的形式化

2.1 符号定义

2.2 期望序列级奖励难以直接优化

我们的形式化从旨在最大化的真实序列级奖励开始：

2.3 词元级目标作为序列级目标的一阶近似

我们公式化方法中的关键步骤是考虑以下代理词元级目标：

2.4 一阶近似成立的条件

其中，表示由训练引擎计算的轨迹策略，与推理引擎中的 μθ_old 不同。因此，根据公式 (5) 的分解，之间的差距源于两个方面：训练–推理差异和策略陈旧性。

关于训练–推理差异——即训练引擎与推理引擎之间的数值差异——其成因通常较为复杂，且与底层基础设施紧密相关。例如，训练引擎与推理引擎通常采用不同的计算内核以实现最佳性能，这会导致相同模型输入产生不一致的输出。即使在同一引擎内部，尤其是推理端，批不变内核（He and Lab, 2025）通常会因最大化吞吐量而被禁用，因此相同模型输入仍可能获得不同的输出。在混合专家（MoE）模型中，训练–推理差异还会因专家路由不一致而进一步加剧，这一点我们将在第 3 节详细讨论。
关于策略陈旧性——即采样响应的轨迹策略与待优化目标策略之间的差异——其通常源于为提升训练效率和计算资源利用率所做的权衡。由于强化学习中的轨迹生成阶段在时间上通常受限于生成长度，为通过增加计算资源收敛，我们通常将大批量采样响应拆分为小批量以进行多次梯度更新。因此，后续使用的小批量可能会表现出更大的策略陈旧性。在异步 RL 框架中，单个响应可能由多个模型版本依次生成，这也引入了策略陈旧性。

因此，为确保公式 (3) 中代理词元级目标所依赖的一阶近似的有效性，原则上我们应从两个方向缩小之间的差距：减少训练引擎与推理引擎之间的数值差异，并将策略陈旧性控制在适度范围内。

3 混合专家模型的挑战与路由回放

3.1 专家路由阻碍一阶近似的成立

对于混合专家（Mixture-of-Experts, MoE）模型（Guo et al., 2025；Yang et al., 2025）而言，一阶近似成立的条件变得不再直接明了。具体而言，在生成每个词元的前向传播过程中，MoE 模型通过专家路由机制动态地选择并仅激活一小部分专家参数。将专家路由纳入公式 (5)，我们可以将 MoE 模型的词元级重要性采样权重写作：

3.2 路由重放恢复一阶近似，但可能引入偏差

鉴于专家路由削弱了MoE模型中一阶近似的有效性，我们可以通过路由重放（Zheng等人，2025）方法来消除这一影响。路由重放的核心思想是在策略优化过程中固定路由专家，从而稳定MoE模型的强化学习训练，使模型能够像密集模型一样被优化。基于方程(6)，我们将路由重放的以下两种具体实现形式化，即普通路由重放和采样路由重放：

4 实证分析

4.1 MiniRL：极简基线算法

在我们的实验中，我们对方程(3)中的REINFORCE优化目标进行了两处最小修改，作为极简基线算法。首先，我们对原始奖励应用组归一化（Shao等人，2024）作为每个响应 y 的优势估计：

其中，sg 表示停止梯度的操作。值得注意的是，MiniRL 被采用作为基线算法，以尽可能在梯度层面与公式 3 中的代理词元级目标保持一致，而这一做法已在第 2 节的公式推导中得到理论支持。在附录 A 中，我们将提供 MiniRL 与其他算法（如 GRPO (Shao et al., 2024) 和 CISPO (Chen et al., 2025)）的对比分析。我们所有的实验均基于 MiniRL 实现。

4.2 实验设置

我们在数学推理任务上进行实验，其中模型的响应与真实答案进行比对，并据此分配二元奖励（即 R(x, y) ∈ {0, 1}）。我们整理了 4,096 道带有验证答案的数学问题作为强化学习训练的提示集。我们在 HMMT25、AIME25 和 AIME24 三个基准测试上报告了 32 次采样响应的平均准确率，每个基准测试包含 30 道竞赛级数学问题（总计 90 道）。

我们采用从 Qwen3-30B-A3B-Base 微调而来的冷启动模型进行实验。我们采用 FP8 推理和 BF16 训练的设置，为算法正确性提供压力测试，其中推理精度低于训练精度，且训练–推理差异较大。除训练奖励外，我们还报告了两个指标的动态变化：(1) 目标策略的词元级熵，其近似计算如下：

我们报告后一指标是因为近期研究（Yao et al., 2025；Liu et al., 2025a）揭示：强化学习训练中的不稳定性或崩溃现象通常伴随着训练–推理差异的急剧增大。

为进行受控实验，我们采用标准的同步强化学习框架。在每一轮全局迭代中，首先使用推理引擎中的轨迹策略对 B 个提示进行采样，并为每个提示生成 G 个响应。随后将响应拆分为 N 个小批量，并在训练引擎中应用 N 次梯度更新。本全局步骤中最终更新的策略将作为下一轮全局迭代的新轨迹策略。在所有实验中，我们为每次梯度更新采用相同的小批量规模（B=64 且 G=16），共 1,024 个响应。

对于其他超参数，我们将最大生成长度设为 32,768，并在 MiniRL 中将 εhigh 设为 0.27、εlow 设为 0.2。我们还额外将截断重要性采样（Truncated Importance Sampling, TIS）技巧（Yao et al., 2025）应用于 MiniRL 中的词元级重要性采样权重，截断阈值设为 5。我们的实验总计消耗数十万 GPU 小时，每次梯度更新的计算量估计为 5～6 GPU 小时。

4.3 在线策略训练结果

我们首先验证：在全局批量大小等于小批量大小的在线策略训练中，词元级优化目标所依赖的一阶近似的有效性是否与训练稳定性相关。在此的在线策略设置下，MiniRL 退化为以下基础策略梯度算法：

作为未来工作，将研究裁剪或掩码策略。类似地，探索更好的优势估计 Â(x,y) 可能也有帮助，但这超出了本工作的范围。

因此，此处的重要性采样权重仅用于校正训练–推理差异。我们注意到，现有的强化学习算法（如 GRPO 和 CISPO）通常在其优化目标中采用长度归一化，且其原始目标未考虑对训练–推理差异的重要性采样校正。因此，我们在实验中纳入了 MiniRL 的以下两种消融变体：

该变体省略了针对训练–推理差异的重要性采样校正。需要注意的是，这两种变体已不再满足前述的一阶近似条件，因为它们的梯度既不等于、也与公式 (1) 中真实序列级目标的梯度（忽略奖励归一化）不存在线性相关性。为进行对比，我们还为 MiniRL 及上述两种变体均配备了 R3（此处不适用 R2，参见表 1）。

根据图 1，我们得出以下观察结果和结论：

MiniRL（即带有重要性采样校正的基本策略梯度算法）实现了最佳性能和训练稳定性。
添加长度归一化会导致次优性能，尽管训练仍保持稳定。这是符合预期的，因为长度归一化使一阶近似失效，无法准确逼近真实的期望序列级奖励，从而导致词元级优化目标存在偏差。
移除训练–推理重要性采样校正会导致训练迅速崩溃和熵的急剧下降。这证实了重要性采样权重是一阶近似中的固有组成部分，省略它会立即使词元级优化目标失效。
在在线策略训练中应用 R3 并未带来性能提升，尽管它有效减少了训练–推理差异（这反映在训练–推理 KL 散度上）。此外，将 R3 与长度归一化结合甚至进一步降低了基准分数，而未使用训练–推理重要性采样校正的情况下应用 R3 仍会迅速失败。这从实证上验证了我们在 §3.2 中的推测——路由回放可以改变原始目标策略，并在优化目标中引入偏差。

这些结果表明，在设计词元级优化目标时，只有那些保持一阶近似有效性的方法才能提升训练稳定性和性能。这也验证了我们所提公式化方法的合理性。

4.4 离线策略训练结果

在强化学习中，推理时间通常受限于生成长度，无法通过增加计算资源来加速。为了利用更多计算资源实现更快收敛，一种常见做法是引入离线策略更新。在同步强化学习框架中，这意味着将大批量响应拆分为 N 个小批量以进行多次梯度更新。为探究离线策略设置下稳定强化学习训练的方案，我们实验了三种离线程度：在小批量大小固定为 1,024 个响应的情况下，将全局批量大小分别设置为 2,048、4,096 和 8,192，对应 N = 2、4 和 8。以 MiniRL 为基线，我们比较了以下方法：MiniRL（无裁剪）、MiniRL + R2（无裁剪）、MiniRL + R2 和 MiniRL + R3。

从图 2 至图 4 中，我们得出以下观察结果和结论：

一旦引入离策略更新，路由回放与裁剪机制对于稳定训练均变得至关重要。如图 2 和图 3 所示，省略路由回放或裁剪中的任一机制均会导致训练过早崩溃，从而降低峰值性能。这表明路由回放可减轻专家路由的影响，而裁剪机制也能有效防止激进的策略更新，二者共同抑制策略陈旧性。
当离策略程度较小时（gbs = 2 × mbs），R2 优于 R3；而当离策略程度较大时（gbs = 4 × mbs 和 gbs = 8 × mbs），R3 超过 R2。值得注意的是，在高离策略程度下，R2 无法维持稳定训练，且其在训练崩溃前达到的峰值性能也略低于 R3。结合我们在第 3.2 节的分析（特别是 R2 保持首个小批量的目标策略不变，而 R3 则对其进行修改）以及第 4.3 节的在线策略实验结果，我们推测：当离策略程度较小时，R3 对目标策略的修改所带来的负面影响超过了其在维持一阶近似有效性方面的益处；而在较大离策略程度下，情况则相反。

综上所述，我们发现路由回放与裁剪对于稳定的离策略训练至关重要。当离策略程度较小时，R2 足以更有效地稳定 MoE 模型的强化学习训练；而在较大离策略程度下，R3 则变得必要。

4.5 不同冷启动初始化的结果

回顾稳定强化学习训练的动机：给定一个基础模型，一旦通过足够长的强化学习训练达到其性能上限，我们便可以通过投入更多计算资源可靠地增强模型能力。为此，我们研究了采用不同冷启动数据初始化的模型在使用稳定强化学习方案训练时是否能达到相似性能。我们比较了从三个前沿模型提炼的三种冷启动数据：Qwen3-Max-Thinking-Preview、DeepSeek-R1-0528 和 gpt-oss-120b（高模式）。我们基于一个早期实验的小型 Qwen3Next MoE 模型报告结果，该模型采用全局批量大小为 4,096、小批量大小为 2,048（B = 128, G = 16, N = 2）以及生成长度为 65,536 个词元进行训练。我们采用 MiniRL + R2 作为训练方案。

在图5中，我们展示了三种冷启动初始化方法始终能够达到相当的最终性能，这促使我们更多地关注强化学习本身，而非过度聚焦于冷启动初始化的具体细节。此外，通过对比图1至图4，我们发现无论是在线策略还是离策略训练——一旦实现稳定——均能持续达到相似的峰值性能。这些结果进一步表明，稳定训练在成功扩展强化学习过程中起着决定性作用。

5 结论

我们提出了一种针对大语言模型强化学习的新颖公式化方法，将词元级优化目标视为对真实期望序列级奖励的一阶近似。通过大量实验，我们证明了能够维持该一阶近似有效性的技术——如重要性采样校正、裁剪以及针对混合专家模型的路由回放——均能有效稳定强化学习训练。我们进一步研究了在不同离策略程度下稳定强化学习训练的方案，并证明一旦训练稳定，相同的基模型在充分的强化学习训练后始终能收敛到相似的性能表现。我们希望本文分享的见解与实验结果能够启发并推动未来的研究。

原文链接：https://arxiv.org/pdf/2512.01374

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.