网易首页 > 网易号 > 正文 申请入驻

快手Klear团队:梯度保留协调熵,解决强化学习中的熵不稳定问题

0
分享至



本研究由快手科技 Klear 语言大模型团队完成,核心作者苏振鹏,潘雷宇,吕民轩,胡文凭,张富峥,周国睿等。快手 Klear 语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI 领域新技术和新产品的发展。此前,该团队已开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别模型的 SOTA 效果。

近年来,随着 OpenAI O1、Deepseek R1、KIMI K2 等大模型不断展示出复杂推理与思维链能力,强化学习已成为推动语言模型智能跃升的关键技术环节。相比传统的监督微调,RL 通过奖励信号直接优化模型行为,使模型能够在训练中自我探索、自我修正。

然而,这一阶段的训练并非稳态过程。业界在大规模 RLVR 实践中普遍发现,模型熵的失衡,即探索与利用的不协调,是导致模型训练不稳定、性能难以提升的核心原因。针对这一长期瓶颈,快手 Klear 团队提出了一种新的强化学习算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),该方法以「熵」为核心视角,重新审视 RL 中梯度裁剪机制的本质影响,并对应地提出了梯度保留策略,在保证训练稳定的前提下,纳入裁剪区间外的梯度使模型能够在训练过程中达到探索与收敛的平衡。



  • 论文标题:CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
  • 论文地址:https://www.arxiv.org/pdf/2509.20712
  • 项目地址:https://github.com/Kwai-Klear/CE-GPPO

研究动机


在使用强化学习方法优化大模型以处理复杂推理任务的过程中,策略熵的平衡是核心挑战,原因在于它衡量了动作选择的不确定性,能够代表模型探索与利用的权衡。然而,现有的方法通常面临熵不稳定的问题,具体来说包含两方面,一方面是熵坍缩,这会造成模型的输出趋于单一,丧失探索能力,另一方面是熵爆炸,这会造成模型过度探索,进而导致训练不稳定、难以收敛。



CE-GPPO 通过研究将所有 token 分为四类,分别对熵有不同的作用:

  • 导致熵坍缩的 token 类型:正优势高概率 token(PA&HP)、负优势低概率 token(NA&LP),优化这部分 token 会强化高概率选择或弱化低概率选择,加速策略的收敛。

  • 导致熵爆炸的 token 类型:正优势低概率 token(PA&LP)、负优势高概率 token(NA&HP),优化这部分 token 会强化低概率选择或弱化高概率选择,维持输出多样性。

然而,由于 PPO 等方法广泛采用的 clip 机制,有些低概率的 token(包括 PA&LP token 和 NA&LP token)的梯度被直接截断,这意味着,PPO 在保证稳定性的同时,失去了平衡探索与利用的「安全阀」,从而导致了熵的不稳定变化,具体来说又分为以下两种情况:

  • PA&LP token 被裁剪,导致模型无法有效探索,进而造成熵坍塌的现象。
  • NA&LP token 被裁剪,导致模型过度探索,进而造成收敛延迟的现象。

现有的一些方法,比如 DAPO 中的 clip higher 方法拓展了裁剪的上界,仅仅纳入了一部分原本被裁剪的 PA&LP token,并没有解决过度探索的问题。因此,CE-GPPO 的核心目标是:在保证训练稳定的前提下,重新利用裁剪外区间低概率 token 的梯度,实现策略熵的精细调控,平衡模型训练过程中的探索与利用。


算法设计


基于上述洞察,快手 Klear 团队提出了全新的 CE-GPPO 算法,其核心思想是:不再丢弃被裁剪 token 的梯度,而是有控制地保留和缩放它们,让它们作为平衡熵变化,平衡探索与利用的 “阀门”。

核心机制



上式是 CE-GPPO 的目标函数,其在原 PPO 框架上引入了两项关键改进:

  • stop gradient 解耦机制:对超出 clip 区间的 token 应用 stop gradient 操作,在前向传播保持不变的同时在反向传播时恢复其梯度传导。

  • 双系数控制 β₁ 和 β₂ :通过两个可调整的超参数对梯度进行缩放,其中 β₁ 控制原本被截断的 NA&LP token 的梯度,促进收敛;β₂ 控制原本被截断的 PA&LP token 的梯度,鼓励探索。这使得训练可以在探索与利用之间灵活调节。


梯度稳定性证明




上式是 CE-GPPO 的梯度表达式,可以观察到,虽然 CE-GPPO 引入了 clip 区间外的梯度,其仍然能够维持训练稳定,一个核心的原因是梯度幅度是可控的:裁剪区间外的梯度被限制在 β₁(1-ɛ) 或 β₂(1+ɛ) ,其中 β₁ 和 β₂ 通常接近于 1,避免梯度爆炸。公式的其他项与 PPO 的梯度表达式一致,继承了 PPO 的「保守更新」的特性。

实验结果


为验证 CE-GPPO 在稳定性与性能上的有效性,研究团队在多个数学推理基准上进行了系统实验,包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有实验均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 与 7B)进行训练。

主要观察:

  • CE-GPPO 在所有 benchmark 上均超越强基线方法。
  • 提升最显著的任务为 AIME25 与 HMMT25,这类高难度推理任务对熵稳定性与探索能力最敏感,验证了 CE-GPPO 在保持探索性的同时确保收敛的效果。
  • 模型规模越大,CE-GPPO 带来的收益越明显,说明方法拥有能够 scale 到更大规模模型的潜力。

此外,训练过程中对比了各方法的熵动态曲线与验证集准确率变化:

  • GRPO 出现显著的熵塌缩,训练后期输出趋同;
  • DAPO 通过 clip-higher 缓解了塌缩,但存在 “熵反弹”,后期出现过度探索;
  • CE-GPPO 保持稳定且中等偏高的熵水平,全程无震荡,最终收敛性能更高。





实验分析

超参数对熵变化的影响

CE-GPPO 的两个核心超参数 β₁ 和 β₂ 控制了裁剪区间外梯度的权重,在 1.5B 与 7B 模型上进行了系统超参数实验,结果如图所示:

  • 当 β₁ 较大(例如 β₁=1, β₂=0.5)时,模型更偏向利用,熵下降更快。
  • 当 β₂ 较大(例如 β₁=0.5, β₂=1)时,模型倾向于探索,熵下降变缓且保持在较高水平,甚至也有可能出现熵上升的趋势。

这一现象验证了 CE-GPPO 的 “可控熵调节” 机制:通过调整两个系数,训练可以在「快速收敛」与「持续探索」之间取得理想平衡。



熵变化与性能的关系

进一步的,研究还分析了熵变化与性能之间的关系,并得出了以下结论:

  • 维持相对高且稳定的熵通常有利于训练过程中的持续性能提升,熵的过快下降和上升都不利于模型性能的稳定提升。
  • 给予 PA&LP tokens 更大的梯度权重 β₂ ,同时给予 NA&LP tokens 更小的权重 β₁ ,有助于维持模型的探索能力,更有利于性能提升。
  • CE-GPPO 对超参数具有鲁棒性,在不同规模模型上,β₁=0.5/0.75 和 β₂=1 的设置都能带来显著的性能提升。

训练稳定性实证性验证

为了验证 CE-GPPO 的训练稳定性,研究可视化分析了训练过程中 KL 散度和 gradient norm,并与 GRPO 的训练动态进行对比,结果表明,CE-GPPO 虽然纳入了 clip 区间外 token 的梯度,但由于梯度限制在固定区域,所以其整体训练过程是平稳的。



与其他 RL 算法比较

研究还对比了 CE-GPPO 与其他近期提出的强化学习算法的性能,比如 CISPO 和 GSPO 算法,CE-GPPO 在不同基准上取得了最好的结果,进一步的,可以分析出如下结论:

  • CISPO 虽然采用了类似的通过 stop gradient 的方法保留梯度,但在训练后期仍出现熵急剧下降和性能崩溃的现象,它与 CE-GPPO 的区别主要在于 CE-GPPO 继承了 PPO 的悲观更新的特性,并且 CE-GPPO 对于 clip 区间外梯度的管理更加细粒度,这些原因导致 CE-GPPO 的性能超过 CISPO 算法。
  • GSPO 使用序列级别的重要性采样,这导致了大约 15% 的 token 被裁剪,而 CE-GPPO 方法纳入了 clip 区间外 token 的梯度,其对于采样样本的利用率更高,所以性能更好。



与其他熵调节方法的比较

最后,研究还比较了 CE-GPPO 和其他熵调节的算法,比如传统的熵正则化以及 DAPO 的 clip-higher 策略,结果表明:

  • 直接加入熵正则项虽然能延缓熵坍缩,但其对超参数稀疏很敏感,并且性能均较差。
  • DAPO 的 clip higher 策略虽然能纳入部分高熵 token 的梯度,但在训练后期出现熵反弹和过度探索的现象,这限制了模型的收敛。
  • CE-GPPO 全程保持了较为平稳的熵曲线,并且性能随训练不断提升,达到了最优性能。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全程呲牙咧嘴,台词含糊不清,连丁禹兮和曹骏都带不动这个拖油瓶

全程呲牙咧嘴,台词含糊不清,连丁禹兮和曹骏都带不动这个拖油瓶

仙味少女心
2025-10-31 19:40:49
理想汽车汤靖详解“MEGA 2024 款起火事件”

理想汽车汤靖详解“MEGA 2024 款起火事件”

IT之家
2025-11-02 11:13:10
欧洲车企:早知道中国会发这么大火,当初就不该让荷兰抢走安世

欧洲车企:早知道中国会发这么大火,当初就不该让荷兰抢走安世

生活魔术专家
2025-11-01 03:42:39
王传君求王家卫原谅!薛之谦被上面请喝茶!

王传君求王家卫原谅!薛之谦被上面请喝茶!

八卦疯叔
2025-11-02 11:54:54
WTT冠军赛:大布伦上演逆转好戏!携手张禹珍、松岛辉空晋级四强

WTT冠军赛:大布伦上演逆转好戏!携手张禹珍、松岛辉空晋级四强

好乒乓
2025-11-02 14:35:28
库里:我对第三节的表现很失望,我的愚蠢失误改变了比赛势头

库里:我对第三节的表现很失望,我的愚蠢失误改变了比赛势头

雷速体育
2025-11-02 11:45:22
落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

冷夜说
2025-10-27 00:33:11
郑智化最新回应:遭网络暴力,更多细节曝光,深圳机场一点都不冤

郑智化最新回应:遭网络暴力,更多细节曝光,深圳机场一点都不冤

阿纂看事
2025-11-01 15:20:56
路人偶遇王菲!我的天啊!她怎么像个老太太?

路人偶遇王菲!我的天啊!她怎么像个老太太?

小椰的奶奶
2025-11-02 12:37:16
浙江一女子多次前往境外赌博,不到一年输1300万,卷走公司2000

浙江一女子多次前往境外赌博,不到一年输1300万,卷走公司2000

三农老历
2025-11-01 13:56:26
许绍雄家人发布讣闻,继子在家属名单前列,视继子为亲生感情深厚

许绍雄家人发布讣闻,继子在家属名单前列,视继子为亲生感情深厚

东方不败然多多
2025-11-02 15:29:46
48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

金风说
2025-11-01 15:41:57
热议泰州夺冠:点球明显练过;业余赛事已是中国足球重要部分

热议泰州夺冠:点球明显练过;业余赛事已是中国足球重要部分

懂球帝
2025-11-01 22:25:12
高兴的太早了?特朗普刚回国,两大噩耗袭来,之前努力全白费

高兴的太早了?特朗普刚回国,两大噩耗袭来,之前努力全白费

近史博览
2025-11-01 13:46:28
歼-35、空警600打包买了?俄专家:找中国买新航母,还要电弹​​

歼-35、空警600打包买了?俄专家:找中国买新航母,还要电弹​​

近史谈
2025-11-01 19:31:35
突发特讯!中国驻日本大使馆通告全球:就日本领导人高市早苗APEC会议期间涉台错误言行,中方对此坚决反对与强烈抗议,并提出严正交涉

突发特讯!中国驻日本大使馆通告全球:就日本领导人高市早苗APEC会议期间涉台错误言行,中方对此坚决反对与强烈抗议,并提出严正交涉

在新加坡生活
2025-11-02 14:02:09
“苏超”夺冠,泰州市委书记、市长感谢球队

“苏超”夺冠,泰州市委书记、市长感谢球队

极目新闻
2025-11-02 07:56:44
市委书记的司机处处欺压女镇长,市委书记退休后,司机落得这下场

市委书记的司机处处欺压女镇长,市委书记退休后,司机落得这下场

秋风专栏
2025-04-02 10:03:10
11 月财运爆发!3 大生肖六六大顺,好运缠身享大富大贵

11 月财运爆发!3 大生肖六六大顺,好运缠身享大富大贵

人閒情事
2025-11-02 13:51:52
70岁父亲提出离婚后,老母亲无奈只能同意,离婚当天他痛哭流涕

70岁父亲提出离婚后,老母亲无奈只能同意,离婚当天他痛哭流涕

白云故事
2025-06-11 18:25:05
2025-11-02 16:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
艺术
手机
家居
房产

战舰世界黑五船集体返场!最值得入手TOP3排名,抽任何一艘都赚!

艺术要闻

被溥仪卖给日本的王羲之真迹,内藏20幅罕见手稿,揭露草书最深层奥秘!

手机要闻

W43周单品销量Top30出炉,苹果霸占前三

家居要闻

吸睛艺术 富有传奇色彩

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

无障碍浏览 进入关怀版