网易首页 > 网易号 > 正文 申请入驻

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

0
分享至



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为 GRPO 的稳定化版本,解决这一问题。本文将深入探讨 GMPO 的原理、优势,并通过理论分析和实验验证来展示其强大的效果。



  • 论文标题:Geometric-Mean Policy Optimization
  • 论文链接:https://arxiv.org/abs/2507.20673
  • 开源代码: https://github.com/callsys/GMPO



图表 1 GMPO 和 GRPO 的对比。GRPO 优化算数平均奖励、而 GMPO 优化几何平均奖励(左)。 在训练过程中,GRPO 经常出现极端重要性采样比率,更新不稳定,而 GMPO 有更稳定的重要性采样比率,更新更加稳定(右)。

GRPO 面临的挑战

组相对策略优化(GRPO)是强化学习在大型语言模型微调中的重要进展。GRPO 通过优化 token 级奖励的算术平均值来进行训练(忽略了剪切操作):



然而算数平均对异常值十分敏感,在训练过程中容易产生极端的重要性采样比率(ps. 当前策略与旧策略分配给一个 token 的概率比)。在训练过程中,重要性采样比率(即当前策略与旧策略分配给一个标记的概率比)可能会大幅波动。这种波动导致策略更新不稳定。为了缓解这一问题,GRPO 引入了对重要性采样比率的剪切操作,但这种方法并未完全解决稳定性问题,并且还过度限制模型更新幅度使得模型探索能力变弱,进而影响了模型的泛化能力。

GMPO:GRPO 的稳定化版本

GMPO 通过优化几何平均来替代 GRPO 中的算术平均,解决了 GRPO 在训练过程中容易受到异常值影响的问题。几何平均本身对异常值更具鲁棒性,因为它会相对抑制极端值的影响,从而使训练过程更加稳定。GMPO 的训练目标可以表示为:



这种简单而有效的修改确保了 GMPO 在训练过程中能够更好地处理极端奖励,从而避免了 GRPO 中常见的不稳定情况。

通过将 PPO 中的 token 级裁切策略引入 GMPO,我们得到了 GMPO 的完整公式:



为了维持计算的稳定性,GMPO 中的连乘操作和裁切操作被放在 log 域执行。GMPO 的伪代码如下所示:



为了进一步理解为什么 GMPO 相比于 GRPO 更加稳定,我们推导并证明了 GMPO 在梯度层面上相对 GRPO 更加鲁棒:



可以看到,GRPO 每个 token 的梯度受到了它自身的重要性采样比率加权,容易受到极端值影响。GMPO 每个 token 的梯度则受到序列重要性采样比率的几何平均加权,不容易受到极端值影响。



图表 2 不同剪切范围和训练步骤下的重要性采样比率范围。范围越宽,表示策略更新越不稳定。与 GRPO(剪切范围为 (0.8, 1.2))相比,GMPO 在剪切范围为 (e−0.4, e0.4) 的情况下表现出更大的稳定性。

除了算数平均向几何平均的变化,GMPO 还有两个关键设计:

1.在 token 级别进行裁切。不同于 DeepSeek-Math,在 DeepSeek-R1 中,GRPO 被定义在了序列级。序列级重要性采样比率等效于 token 级重要性采样比率的连乘,DeepSeek-R1 对序列级重要性采样比率进行了裁切。GMPO 没有跟随 DeepSeek-R1 进行序列级别裁切,而是继续跟随 DeepSeek-Math 进行 token 级裁切。原因如下:

(1)与序列级别的剪切相比,词元级别的剪切更加稳定。如图 2 所示,序列级别剪切(GMPO-seqclip-(e−0.4,e0.4))的采样范围大于词元级别剪切(GMPO (e−0.4,e0.4)),因此在优化过程中更容易产生极端梯度。

(2)序列级别的剪切相比 token 级别的剪切过于激进。一旦触发,它会将整个序列中所有 token 的梯度置为零,可能会丢失来自序列中有价值部分的梯度信号。

2.更宽的裁切。正如 DAPO 所示,剪切操作可能限制探索并导致早期的确定性策略,从而妨碍扩展过程。为了在不牺牲稳定性的情况下促进探索,DAPO 采用了剪切上限策略,将剪切范围从 (0.8, 1.2) 轻微扩展至 (0.8, 1.28)。

如图 1 所示,我们可视化了 GRPO 和 GMPO 在每个训练步骤中的最大和最小重要性采样比率。关键观察结果如下:

(1)随着训练的进行,重要性采样比率的范围逐渐扩大,表明策略更新变得更为激进,稳定性降低。

(2)与 GRPO 相比,GMPO 保持了更稳定的采样比率范围,表明更新更加稳定。

(3)对于 GMPO,将剪切范围从 (e−0.2,e0.2) 扩展至 (−∞,+∞) 会增加策略更新的不稳定性。基于这些发现,我们通过将方程 4 中的剪切阈值 (ϵ1,ϵ2) 设置为 (e−0.4,e0.4) 来平衡训练稳定性与探索性。这个范围显著大于 GRPO 和 DAPO,能鼓励更大的探索,并提升性能。

GMPO 的优势



与 GRPO 相比,GMPO 在以下几个方面具有明显的优势:

1.更稳定的策略更新:GMPO 的梯度更新更加稳定。

2.更高的奖励:与 GRPO 相比,GMPO 在简单数据集 MATH Level 3-Level 5 上维持了相当的奖励。在更难的 DeepScaleR 和多模态数据集 Geometry3K 上有更高的奖励。

3.减少过拟合的风险:相对于 GRPO,GMPO 自然地维持了和 RL 前模型的 KL 散度。通过保持较小的 KL 散度,GMPO 减少了过拟合的风险,有助于模型在更复杂的任务中取得更好的表现。

4.更高的熵值:GMPO 在训练过程中能够保持更高的熵,支持更加持续的探索,避免了训练过程中的早期收敛。

实验验证:GMPO 与 GRPO 的对比

为了验证 GMPO 的有效性,我们在多个语言任务和多模态推理基准上进行了广泛的实验。实验结果表明,GMPO 在多个数据集上显著优于 GRPO,无论是在稳定性方面,还是在推理能力方面。

1.语言任务:在语言推理任务中,GMPO 在五个数学推理基准上进行了测试,这些基准包含不同难度的数学问题,包括 AIME24、AMC、MATH500、Minerva 和 OlympiadBench。实验结果显示:



2.多模态任务:在多模态推理任务中,GMPO 在 Geometry3K 基准上进行了测试,该任务涉及几何问题的解答。GMPO 相比 GRPO,在 Pass@1 准确率上提高了 1.4%,这表明 GMPO 在多模态任务中的应用潜力。



结论

Geometric-Mean Policy Optimization(GMPO)通过优化标记级奖励的几何平均值,成功克服了 GRPO 在训练过程中面临的不稳定性问题。与传统的算术平均方法相比,GMPO 的策略更新更加稳定,探索能力更强,同时减少了过拟合的风险。通过广泛的理论分析和实验验证,GMPO 在语言任务和多模态推理任务中都取得了显著的优势。

GMPO 的提出为未来强化学习在大型语言模型中的应用提供了一个更加可靠且可扩展的解决方案,为未来的研究奠定了坚实的基础。随着对 LLM 推理能力的不断提升,GMPO 无疑将在推动更高效、更稳定的强化学习系统方面发挥重要作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
瓜迪奥拉:更出色的球队赢得了胜利,曼联表现得比我们好

瓜迪奥拉:更出色的球队赢得了胜利,曼联表现得比我们好

懂球帝
2026-01-17 23:19:00
杀熟太狠!普通改签航司1910,携程却要7662,网友:远超电信诈骗

杀熟太狠!普通改签航司1910,携程却要7662,网友:远超电信诈骗

火山诗话
2026-01-17 15:40:33
2026双色球规则巨变:3红球5元起步,大奖不再独享?彩民策略大洗牌

2026双色球规则巨变:3红球5元起步,大奖不再独享?彩民策略大洗牌

芭比衣橱
2026-01-17 15:19:03
多名中国公民在柬失联失踪,中国驻柬埔寨大使汪文斌约见柬副首相

多名中国公民在柬失联失踪,中国驻柬埔寨大使汪文斌约见柬副首相

澎湃新闻
2026-01-17 12:13:03
加外长在北京被反复追问:当年说中国是破坏性力量,现在还做数吗

加外长在北京被反复追问:当年说中国是破坏性力量,现在还做数吗

军机Talk
2026-01-17 14:56:42
你喝了34年的汇源,可能要变山寨货了。。。

你喝了34年的汇源,可能要变山寨货了。。。

差评XPIN
2026-01-17 00:14:19
伊朗组合拳应对川普压力,美以态度暧昧,大批美军战舰向中东集结

伊朗组合拳应对川普压力,美以态度暧昧,大批美军战舰向中东集结

史政先锋
2026-01-15 16:17:02
嫣然天使儿童医院陷困境,实地探访:还用着10年前的病床,手术室灯仍亮着,有市民专程前往捐500元!

嫣然天使儿童医院陷困境,实地探访:还用着10年前的病床,手术室灯仍亮着,有市民专程前往捐500元!

大风新闻
2026-01-17 10:18:06
医生问“自费还是医保”,千万记住这3句话,能省好几千!

医生问“自费还是医保”,千万记住这3句话,能省好几千!

据说说娱乐
2026-01-16 12:20:31
广东98-99北控遭4坏消息!萨林杰态度下滑,2将不稳,徐杰迷失!

广东98-99北控遭4坏消息!萨林杰态度下滑,2将不稳,徐杰迷失!

篮球资讯达人
2026-01-17 23:08:14
吃相难看丧尽天良!传世棋圣去世不到48小时,令人忧心的一幕发生

吃相难看丧尽天良!传世棋圣去世不到48小时,令人忧心的一幕发生

科学发掘
2026-01-17 11:18:58
热议U23国足点杀乌兹:土帅玩防守没这么成功过,李昊笑容代表自信

热议U23国足点杀乌兹:土帅玩防守没这么成功过,李昊笑容代表自信

懂球帝
2026-01-17 22:49:01
卡里克开门红!执教曼联4战不败,2年第一人,打脸阿莫林

卡里克开门红!执教曼联4战不败,2年第一人,打脸阿莫林

奥拜尔
2026-01-17 22:37:40
西海岸老总确认!U23国足双星可售 5成概率离队 申花已加价追李昊

西海岸老总确认!U23国足双星可售 5成概率离队 申花已加价追李昊

我爱英超
2026-01-17 06:52:30
1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

沧海旅行家
2026-01-17 14:05:11
这一夜,全程笑脸、穿泡泡衫的孙俪,让所有人见识了她的江湖地位

这一夜,全程笑脸、穿泡泡衫的孙俪,让所有人见识了她的江湖地位

白宸侃片
2026-01-17 03:10:54
21岁胡桑诺夫未出战U23亚洲杯,乌兹比赛下半场时他将首发出战曼市德比

21岁胡桑诺夫未出战U23亚洲杯,乌兹比赛下半场时他将首发出战曼市德比

懂球帝
2026-01-17 19:40:01
5投0中!广东队输给北控,揪出表现最差之人 坑惨了球队

5投0中!广东队输给北控,揪出表现最差之人 坑惨了球队

体育哲人
2026-01-17 22:48:13
女子连续五天发视频向“出轨丈夫”道歉,粉丝已超40万,当地相关部门工作人员最新回应:已有工作组在调查核实

女子连续五天发视频向“出轨丈夫”道歉,粉丝已超40万,当地相关部门工作人员最新回应:已有工作组在调查核实

极目新闻
2026-01-16 23:19:02
贾国龙的心魔

贾国龙的心魔

智远同学
2026-01-17 10:03:20
2026-01-17 23:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

时尚
亲子
房产
手机
艺术

“这个风格”今年冬天又火了!谁穿谁高级

亲子要闻

欢迎小小的新人类-卜卜

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

手机要闻

OPPO、vivo再曝Pro Max机型,与超大杯芯片不同

艺术要闻

总投资336万亿!越南最大机场一期项目,即将完工!

无障碍浏览 进入关怀版