大模型强化学习的熵控制：CE-GPPO、EPO与AsyPPO技术方案对比详解|信号|实验|时序|epo|gppo

大模型强化学习的熵控制：CE-GPPO、EPO与AsyPPO技术方案对比详解

2025-10-26 19:11:19　来源: deephub

北京举报

分享至

LLM的强化学习训练最近进展很快，SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST，这些研究团队正在攻克的是RL领域的一个老大难：怎么控制好熵，同时避免模型退化成毫无用处的确定性输出。

三篇新论文给出了不同角度的解法：CE-GPPO、EPO和AsyPPO。虽然切入点各有不同，但合在一起就能发现它们正在重塑大规模推理模型的训练方法论。下面详细说说这三个工作到底做了什么。

标准PPO在熵控制上的失效

先说policy entropy这个概念。熵衡量模型输出的随机性或者说多样性程度——高熵对应探索不同解法，低熵则是锁定单一策略。经典PPO算法的做法很简单：importance sampling ratio超出(1−ε, 1+ε)范围就直接clip掉。

这样的话问题出在哪？PPO的clipping会把低概率token的梯度信息扔掉，而这些token在推理任务里恰恰很关键。比如让模型做AIME 2025的题目，或者让它完成一个30轮的科学实验，那些探索性的、概率不高的路径往往藏着突破口。标准PPO的策略感觉这个路径"太冒险了，clip掉算了"，结果就是：

熵坍缩：模型太快变成确定性的，卡在平庸策略上出不来；熵爆炸：模型乱探索，根本收敛不了

具体例子就是在ScienceWorld这种多步骤、稀疏reward的环境里跑一下原版PPO就知道了，entropy会剧烈震荡，模型啥也学不到。

CE-GPPO：有界梯度恢复机制

快手提出的CE-GPPO（Controlling Entropy via Gradient-Preserving Policy Optimization）核心思路是用有界的方式把被clip掉的梯度拿回来。

Token的四类划分

CE-GPPO按概率和advantage把token分成四类：

PAHP (Positive Advantage, High Probability)：模型喜欢的、该强化的token
NALP (Negative Advantage, Low Probability)：差的探索token，要抑制
PALP (Positive Advantage, Low Probability)：好的探索token，这是论文说的金子
NAHP (Negative Advantage, High Probability)：高概率但该减少的token

标准PPO直接clip掉PALP和NALP，这样梯度信号全丢了，而CE-GPPO用系数α₁和α₂把它们重新引入：

stop-gradient操作允许独立调节α₁（exploitation强度）和α₂（exploration强度）。设α₁=0、α₂=1就退化成DAPO的clip-higher trick，但CE-GPPO的框架灵活得多。

实验结果：在DeepSeek-R1-Distill-Qwen-7B上测试，CE-GPPO在AIME24达到66.0（DAPO是59.7），AIME25拿到51.4（DAPO是48.7）。最优配置是α₁=0.75、α₂=1，这个设置鼓励PALP token的探索，同时温和约束NALP token避免过度探索。

为什么work

理论依据：CE-GPPO的梯度幅度被bounded在α₁(1−ε)或α₂(1+ε)范围内，trust region不会被破坏。但关键是从那些有信息价值的token里恢复了signal。

训练曲线的数据很说明问题，CE-GPPO的entropy保持得相当稳，不像GRPO那样先暴跌再爆炸。

EPO：针对多轮交互的时序平滑

EPO（Entropy-regularized Policy Optimization）是Rutgers和Adobe的工作，针对的场景完全不同，它主要研究的是那种需要30多步action才能拿到success/fail信号的多轮交互环境。

级联失效的两个阶段

EPO发现了所谓的exploration-exploitation cascade failure，分两个phase：

Phase 1（步骤0-40）：稀疏reward导致早期过度探索。agent乱试一通，养成一堆坏习惯

Phase 2（步骤40+）：早期的混乱会propagate到后续步骤。entropy一直很高，agent持续震荡，根本形成不了连贯策略

根本原因是传统entropy regularization对时序不敏感，每个timestep都是单独处理的。但在多轮任务里，早期选择会cascade影响整条trajectory的结果。

EPO的方案：历史熵锚定

EPO的核心创新是entropy smoothing regularizer。不是简单加个loss项，而是维护一个历史窗口，记录过去训练步骤的平均entropy。smoothing loss会惩罚偏离：

这样就给entropy加了"护栏"，通常设κl=0.8、κr=1.2，不会让它跑偏太远。完整loss是：

动态系数β_k按指数schedule变化，早期训练时较小（温和平滑），后期逐渐增大（强力稳定）。这直接对抗两阶段级联失败。

实验结果：ScienceWorld上，PPO+EPO比vanilla PPO提升152.1%（96.8 vs 38.4平均成功率）。ALFWorld上GRPO+EPO有19.8%提升，稳定性很好。

一个反理论的发现

流行的entropy decay schedule在多轮环境里不管用。大家都被教育要"早期探索、后期利用"，但EPO的实验数据表明，对于稀疏reward的agent来说这策略有问题。episode内部过早exploit会锁定糟糕的初始action，错误会波及整个run。正确做法是在trajectory所有步骤保持稳定的exploration pressure，再配合一点smoothing。

AsyPPO：小规模critic集成方案

HKUST、Mila和Alibaba合作的AsyPPO（Asymmetric Proximal Policy Optimization）解决的是另一个问题：让critic在LLM规模的RL训练里重新变得可用。

小模型能指导大模型吗

经典PPO用对称actor-critic架构：actor 14B参数，critic也是14B。GRPO这类新方法干脆扔掉critic，改用group-average baseline。虽然work但丢失了proper value estimation带来的稳定性和bias reduction。

AsyPPO提出了一个问题：1.7B或4B的小critic能不能guide 14B的大actor？然后给出了答案：可以，但前提是方法得对。

集成策略

单个小critic不行，value estimate太noisy。AsyPPO用两个小critic，在disjoint的prompt-level数据分片上训练。每个问题的rollout responses一半给Critic 1，一半给Critic 2。这保证：

多样性：从不同response distribution学习

同步性：看到相同prompts，保持calibration

corrected advantage用两个critic的value estimate平均值：

这里δ_t^mean来自V₁和V₂的均值，比单个critic的bias要小。

基于不确定性的门控

AsyPPO把inter-critic disagreement当signal用。每个state算critic之间value的标准差，然后：

Advantage Masking：σ_t很低的state（critic强烈一致），mask掉advantage。这些是boring的、over-visited的state，没有学习信号，不值得花梯度更新

Entropy Filtering：σ_t很高的state（critic强烈disagree），从entropy regularization里filter掉。这些是ambiguous或noisy的state（比如filler token "umm"、"well"），exploration没意义

loss变成：

I_A mask低σ state，I_H从entropy里filter高σ state。

实验结果：AsyPPO在math benchmarks（AIME24/25、MATH-500等）上比GRPO提升约3%，内存占用比对称PPO少20%。最优配置是两个4B critic guide一个14B actor。更多critic有帮助但两个就够拿到主要收益了。

非对称架构为什么现在可行

上面几个方法的关键点是pretrained LLM有丰富的representational prior。哪怕1.7B的预训练模型，也有足够world knowledge去evaluate 14B actor的behavior。这在经典RL（Atari、MuJoCo）里不成立，因为那些agent都是从零开始学，所以可以非对称actor-critic setup是LLM时代独有的可行方案。

三者的统一视角

这三篇论文其实构成了一个coherent narrative：

CE-GPPO：恢复被clip token的梯度，在单个训练步内控制entropy，平衡PALP（exploration）和NALP（exploitation）

EPO：用历史平滑在训练步之间控制entropy，防止多轮场景的cascade failure

AsyPPO：用小型ensemble高效恢复critic，再利用critic uncertainty做learning signal的门控（mask boring state、从entropy里filter noisy state）

后续方向

下一步应该可以把这些方法组合起来。比如：

在AsyPPO的uncertainty-filtered updates里用CE-GPPO的α₁、α₂调节

把EPO的历史平滑应用到CE-GPPO的gradient-preserved entropy上

把AsyPPO的critic ensembles扩展到多轮agent场景，配合EPO的trajectory-aware loss

三种方法都在解决同一个核心问题：更聪明地判断何时、如何让模型exploration vs exploitation。只是角度不同——gradient（CE-GPPO）、时序（EPO）、critic uncertainty（AsyPPO）。这些细节上的差异，决定了模型是停在平庸水平，还是能真正crack掉AIME难题或者reliable地控制机器人。

https://avoid.overfit.cn/post/f7fe0bdff36c4c7a906c9ee678df11a4

作者：Aditya Dubey

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.