网易首页 > 网易号 > 正文 申请入驻

大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解

0
分享至

LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST,这些研究团队正在攻克的是RL领域的一个老大难:怎么控制好熵,同时避免模型退化成毫无用处的确定性输出。

三篇新论文给出了不同角度的解法:CE-GPPO、EPO和AsyPPO。虽然切入点各有不同,但合在一起就能发现它们正在重塑大规模推理模型的训练方法论。下面详细说说这三个工作到底做了什么。

标准PPO在熵控制上的失效

先说policy entropy这个概念。熵衡量模型输出的随机性或者说多样性程度——高熵对应探索不同解法,低熵则是锁定单一策略。经典PPO算法的做法很简单:importance sampling ratio超出(1−ε, 1+ε)范围就直接clip掉。

这样的话问题出在哪?PPO的clipping会把低概率token的梯度信息扔掉,而这些token在推理任务里恰恰很关键。比如让模型做AIME 2025的题目,或者让它完成一个30轮的科学实验,那些探索性的、概率不高的路径往往藏着突破口。标准PPO的策略感觉这个路径"太冒险了,clip掉算了",结果就是:

熵坍缩:模型太快变成确定性的,卡在平庸策略上出不来;熵爆炸:模型乱探索,根本收敛不了

具体例子就是在ScienceWorld这种多步骤、稀疏reward的环境里跑一下原版PPO就知道了,entropy会剧烈震荡,模型啥也学不到。

CE-GPPO:有界梯度恢复机制

快手提出的CE-GPPO(Controlling Entropy via Gradient-Preserving Policy Optimization)核心思路是用有界的方式把被clip掉的梯度拿回来。

Token的四类划分

CE-GPPO按概率和advantage把token分成四类:

  • PAHP (Positive Advantage, High Probability):模型喜欢的、该强化的token
  • NALP (Negative Advantage, Low Probability):差的探索token,要抑制
  • PALP (Positive Advantage, Low Probability):好的探索token,这是论文说的金子
  • NAHP (Negative Advantage, High Probability):高概率但该减少的token

标准PPO直接clip掉PALP和NALP,这样梯度信号全丢了,而CE-GPPO用系数α₁和α₂把它们重新引入:



stop-gradient操作允许独立调节α₁(exploitation强度)和α₂(exploration强度)。设α₁=0、α₂=1就退化成DAPO的clip-higher trick,但CE-GPPO的框架灵活得多。



实验结果:在DeepSeek-R1-Distill-Qwen-7B上测试,CE-GPPO在AIME24达到66.0(DAPO是59.7),AIME25拿到51.4(DAPO是48.7)。最优配置是α₁=0.75、α₂=1,这个设置鼓励PALP token的探索,同时温和约束NALP token避免过度探索。

为什么work

理论依据:CE-GPPO的梯度幅度被bounded在α₁(1−ε)或α₂(1+ε)范围内,trust region不会被破坏。但关键是从那些有信息价值的token里恢复了signal。

训练曲线的数据很说明问题,CE-GPPO的entropy保持得相当稳,不像GRPO那样先暴跌再爆炸。

EPO:针对多轮交互的时序平滑

EPO(Entropy-regularized Policy Optimization)是Rutgers和Adobe的工作,针对的场景完全不同,它主要研究的是那种需要30多步action才能拿到success/fail信号的多轮交互环境。

级联失效的两个阶段

EPO发现了所谓的exploration-exploitation cascade failure,分两个phase:

Phase 1(步骤0-40):稀疏reward导致早期过度探索。agent乱试一通,养成一堆坏习惯

Phase 2(步骤40+):早期的混乱会propagate到后续步骤。entropy一直很高,agent持续震荡,根本形成不了连贯策略

根本原因是传统entropy regularization对时序不敏感,每个timestep都是单独处理的。但在多轮任务里,早期选择会cascade影响整条trajectory的结果。

EPO的方案:历史熵锚定

EPO的核心创新是entropy smoothing regularizer。不是简单加个loss项,而是维护一个历史窗口,记录过去训练步骤的平均entropy。smoothing loss会惩罚偏离:



这样就给entropy加了"护栏",通常设κl=0.8、κr=1.2,不会让它跑偏太远。完整loss是:



动态系数β_k按指数schedule变化,早期训练时较小(温和平滑),后期逐渐增大(强力稳定)。这直接对抗两阶段级联失败。

实验结果:ScienceWorld上,PPO+EPO比vanilla PPO提升152.1%(96.8 vs 38.4平均成功率)。ALFWorld上GRPO+EPO有19.8%提升,稳定性很好。

一个反理论的发现

流行的entropy decay schedule在多轮环境里不管用。大家都被教育要"早期探索、后期利用",但EPO的实验数据表明,对于稀疏reward的agent来说这策略有问题。episode内部过早exploit会锁定糟糕的初始action,错误会波及整个run。正确做法是在trajectory所有步骤保持稳定的exploration pressure,再配合一点smoothing。

AsyPPO:小规模critic集成方案

HKUST、Mila和Alibaba合作的AsyPPO(Asymmetric Proximal Policy Optimization)解决的是另一个问题:让critic在LLM规模的RL训练里重新变得可用。

小模型能指导大模型吗

经典PPO用对称actor-critic架构:actor 14B参数,critic也是14B。GRPO这类新方法干脆扔掉critic,改用group-average baseline。虽然work但丢失了proper value estimation带来的稳定性和bias reduction。

AsyPPO提出了一个问题:1.7B或4B的小critic能不能guide 14B的大actor?然后给出了答案:可以,但前提是方法得对。

集成策略

单个小critic不行,value estimate太noisy。AsyPPO用两个小critic,在disjoint的prompt-level数据分片上训练。每个问题的rollout responses一半给Critic 1,一半给Critic 2。这保证:

多样性:从不同response distribution学习

同步性:看到相同prompts,保持calibration

corrected advantage用两个critic的value estimate平均值:



这里δ_t^mean来自V₁和V₂的均值,比单个critic的bias要小。

基于不确定性的门控

AsyPPO把inter-critic disagreement当signal用。每个state算critic之间value的标准差,然后:

Advantage Masking:σ_t很低的state(critic强烈一致),mask掉advantage。这些是boring的、over-visited的state,没有学习信号,不值得花梯度更新

Entropy Filtering:σ_t很高的state(critic强烈disagree),从entropy regularization里filter掉。这些是ambiguous或noisy的state(比如filler token "umm"、"well"),exploration没意义

loss变成:



I_A mask低σ state,I_H从entropy里filter高σ state。

实验结果:AsyPPO在math benchmarks(AIME24/25、MATH-500等)上比GRPO提升约3%,内存占用比对称PPO少20%。最优配置是两个4B critic guide一个14B actor。更多critic有帮助但两个就够拿到主要收益了。

非对称架构为什么现在可行

上面几个方法的关键点是pretrained LLM有丰富的representational prior。哪怕1.7B的预训练模型,也有足够world knowledge去evaluate 14B actor的behavior。这在经典RL(Atari、MuJoCo)里不成立,因为那些agent都是从零开始学,所以可以非对称actor-critic setup是LLM时代独有的可行方案。



三者的统一视角

这三篇论文其实构成了一个coherent narrative:

CE-GPPO:恢复被clip token的梯度,在单个训练步内控制entropy,平衡PALP(exploration)和NALP(exploitation)

EPO:用历史平滑在训练步之间控制entropy,防止多轮场景的cascade failure

AsyPPO:用小型ensemble高效恢复critic,再利用critic uncertainty做learning signal的门控(mask boring state、从entropy里filter noisy state)

后续方向

下一步应该可以把这些方法组合起来。比如:

在AsyPPO的uncertainty-filtered updates里用CE-GPPO的α₁、α₂调节

把EPO的历史平滑应用到CE-GPPO的gradient-preserved entropy上

把AsyPPO的critic ensembles扩展到多轮agent场景,配合EPO的trajectory-aware loss

三种方法都在解决同一个核心问题:更聪明地判断何时、如何让模型exploration vs exploitation。只是角度不同——gradient(CE-GPPO)、时序(EPO)、critic uncertainty(AsyPPO)。这些细节上的差异,决定了模型是停在平庸水平,还是能真正crack掉AIME难题或者reliable地控制机器人。

https://avoid.overfit.cn/post/f7fe0bdff36c4c7a906c9ee678df11a4

作者:Aditya Dubey

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
74岁的张纪中带着老婆和丈母娘游玩,虽然满头白发但很有气质

74岁的张纪中带着老婆和丈母娘游玩,虽然满头白发但很有气质

喜欢历史的阿繁
2026-02-24 14:44:34
母亲胃癌执意放弃化疗回家,三年靶向药自费十五万,她说一切都值

母亲胃癌执意放弃化疗回家,三年靶向药自费十五万,她说一切都值

华庭讲美食
2026-02-24 12:47:40
儿子长相神似妻子领导,丈夫决定做亲子鉴定,结果出来后愣住了

儿子长相神似妻子领导,丈夫决定做亲子鉴定,结果出来后愣住了

红豆讲堂
2024-08-29 11:07:25
烧光7个亿,3年就拆除!这些“伪地铁”为何坑惨了全球中小城市?

烧光7个亿,3年就拆除!这些“伪地铁”为何坑惨了全球中小城市?

百科密码
2026-02-23 16:38:14
砍16分11助攻,不到22岁打爆活塞状元秀,马刺这个4号秀太横了

砍16分11助攻,不到22岁打爆活塞状元秀,马刺这个4号秀太横了

弄月公子
2026-02-24 15:50:22
《镖人》她是中法混血,异域浓颜系美女,曾有“北影校花”称号

《镖人》她是中法混血,异域浓颜系美女,曾有“北影校花”称号

娱君坠星河
2026-02-24 18:40:04
丰田史无前例新低!全新威兰达AIR版上市:13.78万起

丰田史无前例新低!全新威兰达AIR版上市:13.78万起

快科技
2026-02-24 11:21:07
比亚迪210km续航下探10万!吉利开年放大招:银河全系破200km!

比亚迪210km续航下探10万!吉利开年放大招:银河全系破200km!

蓝色海边
2026-02-24 13:31:16
突发!李嘉诚被「远洋捕捞」、强行接管

突发!李嘉诚被「远洋捕捞」、强行接管

家传编辑部
2026-02-24 15:29:58
年初五,8岁男孩虎跳峡坠亡,奶奶爸爸亲眼目睹,这次真不怪景区

年初五,8岁男孩虎跳峡坠亡,奶奶爸爸亲眼目睹,这次真不怪景区

子芫伴你成长
2026-02-24 08:15:08
李嘉诚,突发!

李嘉诚,突发!

新浪财经
2026-02-24 16:02:47
辅酶Q10,到底是“护心法宝”还是智商税?心内科专家说了大实话

辅酶Q10,到底是“护心法宝”还是智商税?心内科专家说了大实话

猫大夫医学科普
2026-01-24 06:53:50
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
猛料!向太曝马伊琍已再婚:11年了,文章终究过不了自己那道坎

猛料!向太曝马伊琍已再婚:11年了,文章终究过不了自己那道坎

小徐讲八卦
2026-02-24 16:25:03
腾讯关闭天美蒙特利尔工作室!成立5年没有自己作品

腾讯关闭天美蒙特利尔工作室!成立5年没有自己作品

游民星空
2026-02-23 09:21:23
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
请3大中国友国高层赴日!高市早苗想玩一把大的,特朗普对华撂底

请3大中国友国高层赴日!高市早苗想玩一把大的,特朗普对华撂底

东极妙严
2026-02-24 15:25:54
没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

文史季季红
2026-02-16 14:05:03
韩国最新报告:仅在存储芯片领域领先中国 先进制造技术已经全面落后

韩国最新报告:仅在存储芯片领域领先中国 先进制造技术已经全面落后

快科技
2026-02-24 18:35:22
春节复工仅1天,5位名人相继离世,年龄跨度79岁

春节复工仅1天,5位名人相继离世,年龄跨度79岁

月光作笺a
2026-02-24 05:09:24
2026-02-24 19:16:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1929文章数 1456关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
教育
家居
旅游
游戏

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊

教育要闻

哈尔滨公办初中中考入段率PK,哪些初中表现亮眼?113中一枝独秀

家居要闻

本真栖居 爱暖伴流年

旅游要闻

海南2026年春节假期接待游客超1232万人次

《虐杀原形》工作室改名并更新官网 重制版有希望了?

无障碍浏览 进入关怀版