熵减强化学习 Entropy-preserving reinforcement learning|算法|显式|隐式|非对称

分享至

Entropy-preserving reinforcement learning

熵减强化学习

https://arxiv.org/pdf/2603.11682v1

摘要

策略梯度算法推动了语言模型推理领域的许多近期进展。一个颇具吸引力的特性是它们能够从自身轨迹的探索中学习，这一过程对于培养多样化和创造性的解决方案至关重要。正如本文所示，许多策略梯度算法在训练过程中会自然地降低熵——从而降低探索轨迹的多样性——导致策略的探索能力日益受限。在本文中，我们主张应在整个训练过程中积极监控和控制熵。我们形式化地分析了主流策略梯度目标对熵动态的影响，识别了显著影响熵行为的经验因素（如数值精度），并提出了显式的熵控制机制。这些机制包括 REPO（一类通过修改优势函数来调节熵的算法家族）以及 ADAPO（一种自适应非对称裁剪方法）。使用我们提出的熵保持方法训练的模型在整个训练过程中保持了多样性，从而产生了性能更强的最终策略，并保留了在新环境中进行顺序学习的可训练性。

1 引言

在线策略梯度强化学习（RL）已成为提升语言模型推理能力的标准方法（Jaech et al., 2024; Comanici et al., 2025; Guo et al., 2025）。该方法涉及在给定的环境和奖励函数中从当前策略采样轨迹，然后利用这些轨迹来估计一个旨在最大化期望奖励的梯度。有效的 RL 优化需要在探索与利用之间取得平衡（Thrun, 1992; Sutton et al., 1998），其中鲁棒的学习器应生成多样化的轨迹以覆盖潜在解决方案的谱系。最大熵强化学习提供了一个实现这种平衡的框架（Ziebart et al., 2008; Haarnoja et al., 2017; 2018; Eysenbach & Levine, 2022）。虽然有限马尔可夫决策过程（MDP）的最优解显然是一个确定性平稳策略，但对中间优化地形的搜索需要探索与利用的平衡。在 GRPO（Shao et al., 2024）等在线算法中观察到的一个常见问题是熵坍缩。当训练过度地将分布收窄至基础模型中已经具有高概率的解周围时，就会发生这种现象，从而忽略了其他正确但概率较低的选项。这通常会导致过早收敛到局部最优解，虽然提升了相对于基础模型的 pass@1，但以牺牲 pass@k 为代价（Shao et al., 2024; Dang et al., 2025; Yue et al., 2025）。这一挑战激发了策略梯度算法设计的创新，例如直接优化 pass@k 性能（Chen et al., 2025b）。与此同时，研究强调了 GRPO 的训练不稳定性，以及离策略漂移、重要性权重裁剪与熵之间复杂的相互作用，这启发了诸如 DAPO（Yu et al., 2025）和 GSPO（Zheng et al., 2025）等改进方法。

在本工作中，我们主张应在整个 RL 训练过程中积极监控和控制熵。我们将熵保持作为理解近期算法成功的统一视角进行分析，并提出了显式的熵控制机制。我们工作的一个重要观察是，尽管最终熵与性能之间存在相关性，但更具信息量的衡量标准是整个优化过程中的熵轨迹。正如俗语所说，“重要的不是终点，而是旅程。”图 1 追踪了这一效应。在整个训练过程中以较低熵为特征的轨迹会导致较低的性能。相反，如果熵轨迹在大部分优化过程中相似，仅在最后几步有所不同，则性能基本不受影响。

我们的贡献涵盖理论与算法开发。我们分析了策略梯度目标如何调节熵动态，证明了 PPO 的裁剪限制了熵的变化，且 DAPO 和 GSPO 的裁剪隐式地保持了熵。我们识别了影响熵动态的关键实现因素，包括数值精度（BF16 与 FP16）和框架行为（FSDP2 输出类型转换），从而解释了先前观察到的训练不稳定性。我们提出了显式的熵控制机制——修改优势函数的 REPO，以及一种自适应非对称裁剪方法 ADAPO——两者均使用自适应控制器来维持目标熵水平。仅我们的数值修正就在 AppWorld 上取得了当前最优结果（79% Test Normal，71% Test Challenge），而保持熵的 REPO 和 ADAPO 实现了最强的离策略性能，缩小了与同策略训练的差距，并保留了进行顺序学习的可训练性。

2 预备知识

近端策略优化（PPO）允许更新后的策略与采样策略略有偏离（Schulman et al., 2017）。它使用重要性权重（importance weight）来修正参数更新的幅度，使得期望的策略梯度保持无偏。这些重要性权重通常会被裁剪（clipped），以避免偏离局部信任域（Schulman et al., 2015）。

在本文中，我们分析了随着策略梯度变体优化其目标，状态级熵（state-wise entropy）是如何演变的。我们识别了哪些算法变体自然地保持熵，哪些会导致快速坍缩（§3）。我们证明了细微的实现细节可能会扭曲熵动态，导致理论上应保持熵的算法出现意外的坍缩（§4）。最后，我们提出了对 RL 方法的简单修改，这些修改能带来有效的熵正则化并提升下游任务性能（§5）。

3 理论：策略梯度的熵动态

策略梯度强化学习（RL）的熵动态归结为两个值之间的关系：（1）动作对数概率，以及（2）这些动作所产生的优势。直观地说，为某个动作分配正优势会增加其概率。对于高概率动作，这一效应会使分布变尖锐，从而降低熵。对于低概率动作，这一效应会使分布变平坦，从而增加熵。负优势的情况则相反。这种效应是自然的：毕竟，围绕正确动作锐化一个不确定的策略可以直接最大化期望回报。然而，正如我们将看到的，并非所有 RL 算法都以相同的程度锐化分布。

形式化地，考虑在状态 s s 下使用同策略动作的策略梯度更新。在对训练动态进行一阶泰勒近似下，熵的预期变化如下。

总结。 上述理论分析表明，策略梯度算法中的熵动态受优势与对数概率之间的相关性支配。PPO 的多次离策略更新会放大熵坍缩，而裁剪机制可以限定每次更新的熵变。非对称裁剪（DAPO）和序列级裁剪（GSPO）通过允许熵增加大于熵减少，提供了隐式的熵保持。然而，这些隐式机制在所有设定下可能并不充分。

重要的是，即使是像 RLOO 这样严格的同策略算法，也受制于推论 1 中描述的熵动态：如果基础策略已经对奖励函数校准良好，优势与对数概率之间的相关性将为正，熵将会减少。RLOO 避免了由离策略漂移和对回收优势的重复更新所引起的该效应的放大，但并未消除底层的动态机制。这解释了为什么在大多数设定下 RLOO 比基于 PPO 的算法保留了更多的熵，然而当基础模型针对任务进行了强预校准时，仍然可能表现出有意义的熵损失。因此，我们在 §5 中提出的显式熵控制机制，即使在同策略设定下也可能是有价值的。

4 实证发现：影响熵的实现细节

我们识别了显著影响熵动态的实证因素，将在本节中讨论。

4.1 模型输出的 16 位量化影响裁剪

4.2 FLOAT16 与 BFLOAT16 训练

在 LLM 训练中，习惯上使用 BF16 浮点类型，因为它具有更大的动态范围。然而，Qi et al. (2025) 报告称使用 float16 (FP16) 取得了改进的结果，因为其额外的尾数位能够实现更准确的梯度表示。使用 FP16 格式显著减少了 LLM 推理 (vLLM) 与训练子系统之间的差异，这是现代训练后栈（post-training stacks）固有的问题（图 2b）。

在实践中，配合适当的损失和梯度缩放，FP16 训练倾向于缓解熵坍缩，并产生更稳定且可预测的训练过程。为了强调这些实证发现的重要性：FP16 训练结合 log ⁡ π θ 舍入修正（§4.1）会导致定性不同的熵动态，使得 DAPO 的增加熵的非对称裁剪能够克服坍缩（图 3）。

5 显式熵控制方法

§3 中的理论和 §4 中的实证分析表明，熵动态受多种因素影响，且细微的实现细节可能会定性地改变算法行为。虽然隐式机制（非对称或序列级裁剪）提供了一定程度的控制，但为了稳定的 RL 训练后（post-training）过程，可能需要一种显式的熵正则化技术。

在下文中，我们通过提出一种自适应熵控制器和一个配对采样估计器来解决这两个问题，该估计器无需实例化完整 logits 即可联合估计策略梯度和熵梯度。

5.1 REPO：调节熵策略优化

高效估计。 REPO-D 和 REPO-R 都可以仅使用采样词元的对数概率进行有效估计，在使用 CCE（Wijmans et al., 2025）时，这在前向传播中已经可用。这与显式熵奖励形成对比，后者需要实例化词汇表上的完整 logit 向量。我们在 §A.7 中表明，REPO-D 在形式上等价于这种熵奖励，但是使用配对样本通过 REINFORCE 进行估计，产生零额外内存成本，并且作为一个控制变量，当优势和概率呈正相关时（这是典型情况）减少梯度方差。

5.2 ADAPO：自适应非对称裁剪

6 实验

我们评估与最先进的学习算法相比，保持的训练是否能在具有挑战性的环境中为强模型带来改进。我们选择 Qwen-3-8B 和 Qwen-3-32B 作为我们的初始策略（Yang et al., 2025）。

环境。交互式工具使用智能体。训练场景取自 AppWorld 基准（Trivedi et al., 2024）的训练集划分（90 个问题）。AppWorld 测试常规（TN，168 个任务）和测试挑战（TC，417 个任务）划分用于评估。终端奖励通过任务提供的单元测试计算，该测试将环境的最终状态与真实情况（ground truth）进行核对（更多细节见 §C.1）。竞赛级数学。训练场景取自 NuminaMath-1.5（Li et al., 2024）中 AMC/AIME 部分的一个非重叠、经过质量过滤的子集（563 个问题）。AIME 2024（30 个问题）和 AIME 2025（30 个问题）用作评估数据集。终端奖励指示生成的答案是否与参考答案匹配。我们注意到最近的模型对数学基准测试存在显著过拟合，因此我们在 AIME 中严格将词元预算（token budget）限制为 4096，以创建一个具有挑战性的学习问题。

算法。 对于每种算法，我们突出其区别于基础策略梯度的特征，同时保持其他方面的最小偏差以辅助复现（因此，某些细节和超参数选择可能与原始来源略有不同）。

6.1 跨算法的可变熵动态

我们在 AppWorld（图 4 和 5）和 AIME 实验（图 6）中观察到了 consistent patterns（一致的模式）：类 PPO 算法比严格的同策略算法耗尽熵的速度更快。GRPO 在训练过程中将熵降低了近 90%，而 RLOO 的降低幅度则要小得多。LOOP 的表现与 GRPO 非常相似，因此为了可读性而省略。全面的结果总结见 §C.3。

裁剪修正保护熵。 遵循 §3 中提供的直觉，DAPO 和 GSPO 保留了明显更多的熵。证实我们在 §4 中的观察，在没有熵控制机制的情况下，DAPO 的熵在某些实验中可能会不受控制地增加（图 5）。

保持熵的方法优于基线。 REPO-R 和 ADAPO 的得分高于其离策略基线（GRPO 和 DAPO），并在整个训练过程中保持稳定的策略熵。

6.2 熵保持与下游性能

我们评估熵保持对下游性能的影响。这些结果的预览见图 1。我们发现，保持词元级熵（per-token entropy）、在训练过程中维持更高累积熵的方法，比那些没有这样做的方法产生了更高的最终测试准确率。这些趋势在 AppWorld 上比在 AIME 上更为明显。我们假设 Qwen-3 系列模型针对 AIME 进行了高度优化，因此这种优化可能主要涉及围绕现有解进行锐化（sharpening）。另一方面，AppWorld 需要大量的探索以发现新能力。

6.3 熵保持辅助顺序训练

我们评估不同算法在多大程度上支持在不同任务上进行进一步的 RL 微调（即顺序训练）。为此，我们首先在 AIME 或 AppWorld 上训练 Qwen-3-8B。然后，我们将最佳检查点（checkpoint）作为在相反环境中训练的起点。图 7 显示，使用 GRPO 训练的策略在第二阶段训练表现不佳：由于熵坍缩，它们失去了探索能力。另一方面，DAPO，尤其是 REPO，在重新训练开始时具有充足的熵，并在整个训练过程中保持其探索能力。

6.4 数值精度稳定化熵与性能

图 3 显示，对于 Qwen-3-8B AppWorld 训练，数值修正产生了巨大的影响：DAPO 此前在此设定下表现出熵坍缩，现在则显示出熵的快速增加，正如对其非对称裁剪设计的分析所表明的那样。这表明观测到的熵动态对实现细节高度敏感，而这些细节可能并不显而易见，并且一些先前报道的熵坍缩现象可能是数值精度的伪影，而非算法的根本属性。

RLOO 实现最先进性能。 在切换到 FP16 训练（§4）后，纯同策略的 RLOO 在提交时在 AppWorld 基准测试上取得了最高分：我们的最佳检查点使用 Qwen-3-32B 取得了 79% 的 Test Normal 和 71% 的 Test Challenge 成绩。

7 相关工作

强化学习已成为对齐预训练语言模型的主导范式（Ziegler et al., 2019; Stiennon et al., 2020; Ouyang et al., 2022）。该方法已在产生可验证奖励的环境（如编程和数学）中成功扩展（Jaech et al., 2024; Lambert et al., 2024; Comanici et al., 2025; Guo et al., 2025; Team et al., 2025）。经验上，在此设定下的训练通常被视为围绕现有解锐化基础策略，而非产生新解（Gandhi et al., 2025; Liu et al., 2025b; Yue et al., 2025; Zhao et al., 2025）。一个良好的预训练基础策略起初已经对许多合理的奖励函数进行了校准，而训练后（post-training）可被视为对该分布进行调节（tempering）（Kadavath et al., 2022; Cui et al., 2025）。事实上，多项工作直接利用这种校准，通过无监督训练后过程来推动准确率提升。Agarwal 等人 (2024) 简单地最小化，Prasad 等人 (2024)；Zhang 等人 (2025)；Zuo 等人 (2025) 与模型的多数投票分布对齐，Wang 等人 (2025) 仅凭单个标注样本即可达成目标，而 Shao 等人 (2025) 甚至使用随机奖励。所有这些工作都可以通过简单地允许策略梯度去锐化一个已经校准好的基础策略来解释。虽然这类方法有助于提升 pass@1，但会损害 pass@k（Shao et al., 2024; Dang et al., 2025; Yue et al., 2025）。

8 结论

在本工作中，我们主张应在语言模型的整个强化学习训练过程中积极监控和控制熵。我们提供了理论分析，阐明了策略梯度目标如何调节动态，解释了为何 GRPO 等算法会出现坍缩，而 DAPO 和 GSPO 则能提供隐式的熵保持。我们识别了显著影响熵动态与训练不稳定性的关键实证因素，尤其是数值精度（BF16 与 FP16）和框架行为（FSDP2 输出类型转换）。基于这些洞见，我们提出了显式的控制机制：修改优势函数的 REPO，以及自适应调整裁剪阈值的 ADAPO。我们的熵保持方法在 AIME 和 AppWorld 上表现优异，优于其基线方法（GRPO 和 DAPO），并提升了顺序学习性能。我们还在论文提交时报告了 AppWorld 上的当前最优结果（使用 RLOO 结合 FP16 训练取得 79% Test Normal 和 71% Test Challenge）。

我们明确了严格同策略算法（如 RLOO）与弱同策略算法（如 GRPO 和 GSPO）之间的区别。我们的结果表明，在适当的数值处理下，严格同策略的 RLOO 取得了整体最佳性能。然而，严格同策略训练需要同步更新，这在分布式系统中会形成瓶颈。弱同策略方法支持异步训练流水线，使得轨迹收集与策略更新能够并行进行，从而显著提升吞吐量。我们提出的熵保持机制（REPO、ADAPO）与这两种范式均兼容，能够帮助弱同策略方法在保持异步执行吞吐量优势的同时，逼近严格同策略训练的性能。

总体而言，我们强调，熵（及其对应的探索能力）对于有效的策略优化至关重要，应在 RL 训练流水线中被视为首要关注点。

原文链接：https://arxiv.org/pdf/2603.11682v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.