网易首页 > 网易号 > 正文 申请入驻

NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式

0
分享至



大模型后训练(post-training)正在成为 AI 进化的关键一环。从最早的 SFT(监督微调),再到近来大火的 GRPO,一条核心主线贯穿始终:如何让大模型具有更强的推理能力、更好地对齐人类偏好,同时保持稳定和高效。

然而,GRPO 虽然在 DeepSeek-R1 等项目中大放异彩,但其训练不稳定、超参数敏感的问题一直限制其大规模落地。

现在,作业帮团队联合香港科技大学(广州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通过避免重要性采样解决了 GRPO 的稳定性难题,并能在理论上提供了唯一最优解保证,并且在实验中表现全面超越现有方法。



  • 论文标题: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
  • 论文链接:https://arxiv.org/abs/2504.19599
  • 作者:张恺晨、洪煜中、鲍军威、蒋宏飞、宋旸、洪定乾、熊辉
  • 单位:作业帮教育科技有限公司、香港科技大学(广州)

GVPO 设计动机



但这里存在一个实际困难:公式中涉及的 Z (x),它需要对所有可能的采样 y 进行期望计算,在实践中几乎不可行。为了解决这个问题,研究团队发现:只要保证同一个 prompt 下所有采样对应的梯度权重之和为 0,Z (x) 就会自然消掉,从而规避了这一计算难题。

GVPO 是什么?

基于这一思路,研究团队首先提出了以梯度形式表示的 GVPO Loss:





研究团队进一步分析后发现,GVPO 拥有非常直观的物理意义。其 Loss 等价于一个均方误差损失(MSE Loss):





换句话说,GVPO 在本质上是用 MSE Loss 让「隐式奖励」去逼近「真实奖励」。

两大关键优势

1. 唯一最优解保证



2. 无须重要性采样



这意味着 GVPO 能够天然支持无需重要性采样的 off-policy 训练,在充分利用人类专家数据、蒸馏数据和历史数据的同时,避免了重要性采样常见的训练不稳定问题,从而更契合大规模工业级应用场景。

三种分析视角:从不同角度理解 GVPO

研究团队发现 GVPO 的核心思想可以从三个互补的分析视角来理解,每一种都对应着图中展示的等价损失函数:



1. 负对数似然视角(NLL)

在这个视角下,GVPO 的损失函数可以表示为带权重的负对数似然。一个关键点是:带 KL 约束的 Policy Gradient 实际上可以看作 GVPO 在 on-policy 采样下的特例。换句话说,GVPO 不仅涵盖了传统策略梯度方法的更新方式,还进一步解耦了采样分布与学习策略,从而允许灵活地整合历史数据和异构数据源,为大模型后训练打开了更高效的训练方式。

2. 均方误差视角(MSE)

从 MSE 角度看,GVPO 的优化目标等价于最小化「隐式奖励中心距离」与「实际奖励中心距离」的偏差。这一解释带来直观的物理含义:当隐式奖励完全对齐实际奖励时,损失达到最小。更重要的是,这种设计保证了 GVPO 收敛到唯一的、KL 约束下的全局最优解,为稳定训练提供了理论保证。

3. 强化学习视角(RL)

RL 视角揭示了 GVPO 损失函数的三大组成部分:

  • 组相对奖励项:推动高回报响应占据更大概率;
  • 方差正则项:自然引入适度探索,避免熵塌缩;
  • 协方差正则项:作为正则化,抑制策略过度偏离参考策略,保障训练稳定性。

这三种视角共同说明:GVPO 既有理论保证,又兼具灵活性和稳定性,将复杂的优化过程转化为可解释的数学框架。

实验结果:全面胜出

研究团队在数学推理任务上进行了系统对比。基座模型为 Qwen2.5-Math-7B,在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五个基准测试中:



GVPO 全面领先,不仅大幅提升基座模型表现,还超过 GRPO 和改进版 Dr.GRPO。在复杂推理任务中优势尤为明显。



此外,消融实验显示:

  • GVPO 对超参数 β 不敏感,几乎无需繁琐调参。(Figure 2)
  • GVPO 在采样数量 k 增加时扩展性优异,并且小模型甚至能靠增加采样追平大模型表现。(Figure 3)
  • GVPO 支持混合采样策略(历史数据 + 新数据),进一步降低成本,并且连接了现代大模型研究和传统强化学习探索策略研究。(Figure 4)

意义与前景

一句话总结:GVPO 让后训练从「经验驱动」走向「理论保证」,既「稳」又「强」

在大模型迈向通用智能的道路上,后训练已经成为竞争焦点。GVPO 的提出,可能预示着下一代后训练的范式转变:

  • 更稳定 → 降低大规模训练的工程风险
  • 更灵活 → 支撑更复杂的数据利用场景
  • 更高效 → 在推理和对齐中获得更佳的性价比

研究团队认为,GVPO 为可靠、通用的大模型后训练提供了全新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

全栈遛狗员
2026-03-25 23:00:33
小米捷报,误伤宁德时代

小米捷报,误伤宁德时代

ZAKER新闻
2026-03-26 22:10:32
在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

另子维爱读史
2026-03-24 21:15:00
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

盛夏微凉
2026-03-24 18:10:08
王海团队:已协助起诉黄天鹅

王海团队:已协助起诉黄天鹅

南方都市报
2026-03-26 10:59:32
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
浙江省人大常委会决定任免部分省政府组成部门主要负责人

浙江省人大常委会决定任免部分省政府组成部门主要负责人

浙江发布
2026-03-26 10:04:01
不仅抗炎,这还是眼睛、大脑最爱的营养!

不仅抗炎,这还是眼睛、大脑最爱的营养!

FitEmpire健身领域
2026-03-26 14:53:07
你知道的高档会所里消费有多高?网友:贫穷限制了我的想象

你知道的高档会所里消费有多高?网友:贫穷限制了我的想象

夜深爱杂谈
2026-03-14 21:25:13
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

澳门国民党中将吕文贞突然说,我是李克农的人,该向组织报到了

鹤羽说个事
2026-03-25 21:56:09
萨拉赫离队去向已明:不去沙特淘金,誓在欧洲巅峰再战

萨拉赫离队去向已明:不去沙特淘金,誓在欧洲巅峰再战

乐道足球
2026-03-26 20:44:07
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

影孖看世界
2026-03-26 23:28:51
被伊朗打疼了?美以一边要求停火30天,一边密集调动特种部队!

被伊朗打疼了?美以一边要求停火30天,一边密集调动特种部队!

军武次位面
2026-03-26 14:29:00
2026普法:强奸、通奸、嫖娼,只有这个行为会坐牢!

2026普法:强奸、通奸、嫖娼,只有这个行为会坐牢!

奇葩游戏酱
2026-03-26 05:01:32
美媒:以总理提议,特朗普拒绝

美媒:以总理提议,特朗普拒绝

环球时报国际
2026-03-27 00:13:22
2026-03-27 01:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
家居
手机
教育

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

无障碍浏览 进入关怀版