网易首页 > 网易号 > 正文 申请入驻

在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

0
分享至

机器之心报道

编辑:Panda

DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。

不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 critic 模型的需求。但是,这又需要为每个问题都采样一组完成结果,进而让训练过程的计算成本较高。

之后,GRPO 会使用一个基于规则的奖励函数来计算每个完成结果的奖励,并计算每个完成结果的相对优势。

为了保证训练的稳定性,GRPO 还会计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比作为策略目标函数的一部分,这又会进一步提升强化学习的训练开销。GRPO 巨大的训练开销限制了其训练效率和可扩展性。而在实践中,提高训练效率是非常重要的。

总结起来,GRPO 训练的计算成本主要源自其核心设计:为了进行组内比较,会为每个提示词生成一大组完成结果。此外,GRPO 的前向计算会以完成数量的 3 倍的尺度扩展。

那么,问题来了:在这个强化学习过程中,每个完成结果的贡献都一样吗?

近日,厦门大学纪荣嵘团队研究发现,每个完成结果的贡献与其相对优势有关。也就是说,每个完成结果对策略模型训练的贡献并不相等。如图 1 所示,完成结果的数量增大时,准确度提升并不非常显著,但训练时间却会迅速增长。

基于这一见解,他们发现可以通过对完成结果进行剪枝来加速 GRPO。然后,他们提出了一种加速版的 GRPO:CPPO(Completion Pruning Policy Optimization / 完成剪枝策略优化)。并且他们也已经开源发布了该算法的代码。

  • 论文标题:CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models
  • 论文地址:https://arxiv.org/pdf/2503.22342
  • 项目地址:https://github.com/lzhxmu/CPPO

顾名思义,CPPO 会根据优势对完成结果进行剪枝,这样一来就可以提升强化学习过程的速度。

具体来说,一开始,策略模型会针对每个问题采样一组完成结果。随后,通过奖励函数计算每个完成结果的相对优势。然后,CPPO 会修剪掉绝对优势值较低的完成结果,仅保留绝对优势较高的完成结果来计算损失。此过程可大大减少训练所需的完成结果数量,从而加快训练过程。

此外,他们还观察到,由于完成剪枝会导致 GPU 资源利用率不足,从而导致资源浪费。为了解决这个问题,他们引入了一种动态完成结果分配策略。该策略会用新问题的完成结果填充每个设备,从而充分利用 GPU 资源并进一步提高训练效率。

实验证明,他们的方法是有效的。当使用 Qwen-2.5 系列模型时(包括 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B-Instruct),在保证了准确度相当的基础上,CPPO 在 GSM8K 基准上的速度比 GRPO 快8.32倍,在 MATH 基准上快3.51倍。

或者用网友的话来说,快如闪电!

CPPO:完成剪枝策略优化

要了解 CPPO,首先必须知道 GRPO,其公式如下:

其中,q 是从数据集分布 P (Q) 中采样的问题,{o_1, o_2, ... , o_G} 是 G 个完成结果,π_θ 是策略模型,π_θ_old 是旧策略模型,π_θ_ref 是参考模型,ϵ 和 β 是超参数,A_i 是使用一组奖励 {r_1, r_2, ... , r_G} 计算的优势。

相比于 GRPO,CPPO 引入了一个选择性条件,该条件仅会包括表现出足够高优势的完成结果。CPPO 的目标公式如下:

其中 γ 是一个预定义的阈值,用于确保在梯度更新中仅保留绝对优势高于 γ 的完成结果。需要注意的是,当,或者 时,clip 函数会被激活。

图 2 展示了 CPPO 的概况:

统一单/多 GPU 设置

在多 GPU 训练场景中,该团队观察到具有显著优势的完成结果的数量因设备而异。在这种情况下,整体训练效率会有设备处理最多完成结果数量的瓶颈 —— 这种现象称为「木桶效应(bucket effect)」。为了缓解这种情况,对于每台 GPU,该团队的选择是只保留每个问题具有最大绝对优势的 k 个完成结果,其中

其中 P ∈ (0, 1] 表示剪枝率。在此策略下修改后的 CPPO 为:

其中仅在具有最高绝对优势值的 k 个完成结果对应的索引集 I 上进行求和,即

CPPO 算法的流程如下:

  1. 旧策略模型为每个问题采样一组完成结果;
  2. 奖励函数计算每个完成结果的奖励;
  3. 计算每个完成结果的相对优势;
  4. CPPO 保留 k 个具有最高绝对优势的完成结果;
  5. 根据选定的完成结果更新策略模型。

CPPO 和 GRPO 之间的关键区别是:CPPO 不会将所有完成结果用于策略模型、参考模型和旧策略模型的前向计算。相反,通过仅保留具有高绝对优势的完成结果进行梯度更新,CPPO 可显著降低前向传递期间的计算开销,从而加速了训练过程。

通过动态完成结果分配进行并行处理

该团队还提出了一种新的动态完成结果分配策略,以进一步优化 CPPO 的训练效率。

由于 GPU 内存限制,传统方法(如 GRPO 采用的方法)面临固有的局限性。具体而言,单台设备每批最多可以处理 B 个问题,每个问题生成 G 个候选完成结果。剪枝操作之后,每台设备保留的完成结果总数减少到 B × k,进而导致 GPU 利用率不理想,并行计算能力未得到充分利用。

为了解决这种低效率问题,该团队的方法是将来自其他问题的剪枝后的完成结果动态分配到设备的处理管道中,如图 3 所示。

此策略通过不断用来自原始问题和新引入问题的高质量完成结果填充其内存,确保每个设备都能以满负荷运行。至关重要的是,所有新合并的完成结果都经过相同的严格剪枝过程,以保持一致性和相关性。

这种方法的好处有两个:

  • 通过充分利用设备的并行计算潜力,它能最大化 GPU 利用率。
  • 它能使每台设备每批处理更多的问题,从而减少实现收敛所需的总训练步骤数。

有这两大优势,CPPO 便可在保证训练质量的同时提高训练效率。

CPPO 的实验效果

使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct 模型,该团队在 GSM8K 和 MATH 数据集上对 CPPO 进行了实验评估。此外,为了评估模型的分布外推理能力,他们还引入了 AMC2023 和 AIME2024 作为测试基准。

在 GSM8K 上的结果如表 1 所示,CPPO 在准确度和加速比上都明显优于 GRPO。值得注意的是,CPPO 在各种剪枝率下都达到了与 GRPO 相当甚至更高的准确度。在 87.50% 的剪枝率下,CPPO 的准确度达到 80.41%,比 GRPO 的 77.05% 高出 3.36%。

在效率方面,CPPO 大大加快了训练速度。在 93.75% 的剪枝率下,其加速比达到8.32倍。这些结果表明,CPPO 不仅能保持或提高准确度,还可显著提高训练效率。因此,CPPO 有潜力成为大规模推理模型训练的实用有效解决方案。

在 MATH 上的表现见表 2。可以看到,CPPO 可以很好地扩展到更大的模型 —— 在不牺牲准确度的情况下在 MATH 上实现了高达3.51倍的加速。例如,在 87.5% 的修剪率下,CPPO 保持了与 GRPO (75.20%) 相当的准确度,同时还将训练时间减少了 3.51 倍。

此外,在 AMC2023 和 AIME2024 基准上的评估表明,尽管 CPPO 仅在高绝对优势完成结果上进行训练,但它仍保留了模型在分布外任务上的泛化能力。因此,CPPO 不仅在增强推理能力方面匹敌甚至超越了 GRPO,而且还很好地减少了训练时间,使其成为一种更有效的替代方案。

该团队也研究了 CPPO 的稳定性和收敛性。图 4 展示了在 GSM8K 和 MATH 数据集上训练时的奖励曲线。

总体而言,奖励曲线证明 CPPO 在提高收敛速度的同时可保证 GRPO 的训练稳定性:CPPO 的奖励曲线不会崩溃或出现剧烈波动,这对于稳定训练至关重要。这些结果表明 CPPO 具有稳健而稳定的训练稳定性。此外,CPPO 的奖励曲线显示出了明显的上升趋势,能比 GRPO 更快地达到更高的奖励值。奖励值的更快增长表明 CPPO 的收敛速度更快。

你有兴趣在自己的强化学习训练流程中尝试这种更快的 CPPO 吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超越寒武纪、直逼茅台,10倍CPO牛股赴港上市

超越寒武纪、直逼茅台,10倍CPO牛股赴港上市

和讯网
2026-03-26 17:22:13
油价降了!3月26日全国油价下调85元吨,4月7日油价将迎下跌!

油价降了!3月26日全国油价下调85元吨,4月7日油价将迎下跌!

沙雕小琳琳
2026-03-26 15:31:42
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

垚垚分享健康
2026-03-25 13:25:46
王毅同加拿大外长阿南德通电话

王毅同加拿大外长阿南德通电话

齐鲁壹点
2026-03-26 21:33:12
伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

伊朗越打越顺?卡塔尔向伊朗交60亿“保护费”,特朗普看懵圈了!

讲者普拉斯
2026-03-26 21:19:51
彻底撕破脸,马英九亲自下场,萧旭岑深夜反击,郑丽文送致命一击

彻底撕破脸,马英九亲自下场,萧旭岑深夜反击,郑丽文送致命一击

叹知
2026-03-25 14:27:24
雷军彻底疯狂,小米拿下4000亿

雷军彻底疯狂,小米拿下4000亿

新浪财经
2026-03-25 23:42:55
财政部:对于参保长期护理保险的城乡居民 政府会按规定给予补助

财政部:对于参保长期护理保险的城乡居民 政府会按规定给予补助

北青网-北京青年报
2026-03-26 11:11:12
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

爱范儿
2026-03-26 15:27:20
旅游+演艺,激活消费新空间(大数据观察)

旅游+演艺,激活消费新空间(大数据观察)

人民网
2026-03-26 06:17:20
美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

美伊谈崩内幕:伊万卡是“肉票”,特朗普女婿是“以色列内线”?

瞩望云霄
2026-03-25 18:20:59
香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

深度解析热点
2026-02-13 11:55:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

特朗普的大炮一响,伊朗卖给中国的石油,为什么反而比以前更多了?

爱史纪
2026-03-26 19:30:35
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
黄巢虽然残忍,却做了件好事:为我国破除了危害近600年的祸根

黄巢虽然残忍,却做了件好事:为我国破除了危害近600年的祸根

铭记历史呀
2026-03-26 11:26:09
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
国民党败退台湾,留下许多官太太,她们向我军提的要求简单但很痛

国民党败退台湾,留下许多官太太,她们向我军提的要求简单但很痛

新一说史
2026-03-25 13:26:51
2026-03-26 22:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
家居
健康
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版