网易首页 > 网易号 > 正文 申请入驻

揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

0
分享至



近年来,大模型在数学推理、代码生成等任务上的突破,背后一个关键技术是RLVR(Reinforcement Learning with Verifiable Rewards)。

简单来说,RLVR 不是让模型「听人打分」,而是让模型自己尝试多种解法,然后用可验证的规则(如答案是否正确)来反向改进自己。这使得模型能够通过反复试错不断变强,被广泛应用于当前最先进的推理模型中。

在实际训练中,为了让学习过程更稳定、避免引入额外的价值网络,许多 RLVR 方法(如 GRPO)都会对同一个问题生成一组回答,并在组内进行相对比较。模型不是直接看「这个回答好不好」,而是看「它在这一组回答中相对好不好」,这就是所谓的组内优势估计(group-relative advantage),也是目前几乎所有 group-based 强化学习方法的核心设计。优势估计并不仅仅是一个「评估指标」,而是直接决定策略梯度更新方向的核心信号。

然而,一个长期被忽视的关键问题在于:组内优势估计并不像人们通常直觉认为的那样是「近似无偏」的。

相反,北航、北大、UCB、美团最新的工作揭示了,这种组内优势估计在统计意义上存在明确且系统性的方向性偏差:困难题的优势会被持续低估,而简单题的优势则被不断高估。



  • 论文地址:https://arxiv.org/pdf/2601.08521

这一偏差带来的后果往往十分隐蔽,却极具破坏性。训练过程中,曲线表面上看似「稳定收敛」,但模型实际上正在逐渐回避困难问题、转而偏好简单样本。随着训练的推进,探索与利用之间的平衡被悄然打破,模型的泛化能力与长期训练稳定性也随之下降。

更关键的是,这并非一个可以通过简单调整超参数来缓解的问题,而是组内优势估计这一设计在统计结构层面本身就存在的内在缺陷。

定义

接下来,我们先引入若干必要的定义,以便于清晰表述后续的核心发现。我们首先给出最常用的组内相对优势估计的数学定义。

组内相对优势估计(Group-relative Advantage) :







为便于阐述理论结论,下文中我们忽略标准化项。为了分析组内优势估计的统计性质,我们需要引入策略在给定提示下的真实期望表现和优势,并将其作为后续讨论的参照基准。

期望奖励:



期望优势:



为了刻画不同提示在训练中所处的难易程度,并分析偏差在不同难度区域的行为差异,我们引入如下基于期望奖励的题目难度定义。

题目难度:



最后,在基于组的策略优化方法中,并非所有采样组都会对参数更新产生有效贡献。为聚焦于真正驱动学习的情形,我们需要显式排除那些导致梯度消失的退化情况。

非退化梯度事件:

R 表示奖励总和:







从而导致梯度消失,参数不发生更新。实践中,这类退化组不提供有效学习信号,通常被 GRPO 及其变体显式或隐式地忽略。因此,我们将分析聚焦于实际驱动学习的有效更新区间,即至少存在一个非零优势的情形。形式化地,定义非退化事件:



对 S 进行条件化并不会改变优化目标或训练轨迹,而仅刻画那些真正参与参数更新的样本子集,使我们能够精确分析组相对优势估计中的系统性偏差。

核心发现

重要发现 1:





这一结论表明,组相对优势的偏差并非由有限采样噪声引起,而是源自其相对优势估计机制本身,且与提示难度密切相关。





在相同的提示难度下,G 越小,优势估计偏差越大;随着 G 的增加,偏差虽有所缓解,但在有限采样范围内仍然不可忽略。

举例 1:



举例 2:



该图展示了在 MATH 数据集上,对于同一道困难题目,组相对优势估计在不同回答采样数量下的表现差异。当采用 8 次采样时,对正确回答所计算得到的优势为 A=2.65;而当采样数量提升至 128 次时,所估计的优势增大至 A=3.64,更接近其真实优势值。

重要发现 2:





论文也提供具体偏差量估计:



总结



具体而言,该估计方法会对困难提示系统性地低估真实优势,而对简单提示系统性地高估真实优势。进一步地,对于极其困难的提示,优势估计必然被低估;而对于极其简单的提示,则必然被高估。

尽管上述分析主要基于0–1 二值奖励的设定,该假设覆盖了大量 RLVR 场景,尤其是依赖硬判别 verifier 的推理任务,但真实应用中的奖励信号往往更加一般。

为此,论文在附录 D.5 中将分析推广至连续且有界的奖励分布。

结果表明,组相对优势估计中的核心偏差现象并非 Bernoulli 奖励假设的偶然产物,而是在更广泛的有界奖励模型中同样普遍存在。

这个发现告诉我们什么

该发现对 RLVR 训练具有直接而深远的影响。

具体而言,组相对优势估计的系统性偏差会导致不同难度提示在学习过程中受到不平衡的梯度信号:对于困难提示,其真实优势被低估,从而产生较小的梯度更新,导致学习进展缓慢;而对于简单提示,其优势被高估,模型则容易对其过度强化。最终,这种不对称的优势估计会抑制有效探索,使训练过程偏向于反复强化简单样本,而忽视真正具有挑战性的提示。

基于上述分析,我们认为优势估计应当根据提示难度进行自适应调整:对于困难提示,应适当放大其估计优势以鼓励探索;而对于简单提示,则应抑制其优势以防止过度利用。

为在实践中判定提示难度,论文提出算法HA-DW,引入短期历史平均奖励作为动态锚点,将新提示与该锚点进行对比,从而判断其相对难度,并据此对优势估计进行自适应重加权。



该图展示了在对组相对优势估计进行校正之后,不同难度提示上的性能变化。可以观察到,引入优势校正机制后(GRPO+HA-DW),模型在困难提示(Hard)上的性能提升最为显著,相比原始 GRPO 提升了 3.4%。

GRPO/Group-based PO 的问题不只是 variance,而是 bias。这项工作也释放了一个很强的信号:LLM 强化学习正在从「工程上能跑出效果就行」,回到「估计是不是准确」的根本问题和可解释性。以后 RLVR 里,bias analysis /estimator correctness 很可能会成为标配。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025 年全球手机销量排行榜来了!第三名有点意外啊

2025 年全球手机销量排行榜来了!第三名有点意外啊

XCiOS俱乐部
2026-01-30 19:14:42
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
必须把孩子生起来!金灿荣教授罕见发火了,痛批国内不生育的现状

必须把孩子生起来!金灿荣教授罕见发火了,痛批国内不生育的现状

火山诗话
2026-01-30 06:25:28
"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

派大星纪录片
2026-01-30 18:07:40
白银重挫20% 创2008年以来最大盘中跌幅

白银重挫20% 创2008年以来最大盘中跌幅

财联社
2026-01-31 01:13:04
明家电诈集团11人被执行死刑细节:有人浑身筛糠,明珍珍最怂

明家电诈集团11人被执行死刑细节:有人浑身筛糠,明珍珍最怂

胡侃社会百态
2026-01-29 17:20:07
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 12:16:42
五盘鏖战胜出!德约终结辛纳澳网19连胜,第38次跻身大满贯决赛

五盘鏖战胜出!德约终结辛纳澳网19连胜,第38次跻身大满贯决赛

全景体育V
2026-01-30 22:33:10
金晨发文道歉!承认是自己驾车,车祸受伤照片曝光,警方否认骗保

金晨发文道歉!承认是自己驾车,车祸受伤照片曝光,警方否认骗保

乌娱子酱
2026-01-30 18:34:49
3-0,40岁C罗轻松轰入赛季第18球,率队4连胜,逼近沙特联榜首

3-0,40岁C罗轻松轰入赛季第18球,率队4连胜,逼近沙特联榜首

侧身凌空斩
2026-01-31 03:57:25
放过观众吧!这5位春晚“混子”演啥都不好看,难怪遭到观众抵制

放过观众吧!这5位春晚“混子”演啥都不好看,难怪遭到观众抵制

徐徐道史
2025-12-19 20:01:39
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

刘森森
2026-01-29 16:21:41
别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大

别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大

离离言几许
2026-01-30 20:54:49
伊朗、中国和俄罗斯将举行联合海上演习

伊朗、中国和俄罗斯将举行联合海上演习

桂系007
2026-01-30 03:56:40
斯塔默游故宫导游火了!导游大哥穿黑衣沉稳大气,全英文解说获赞

斯塔默游故宫导游火了!导游大哥穿黑衣沉稳大气,全英文解说获赞

八八尚语
2026-01-30 11:21:52
金晨肇事逃逸更多细节曝光!疑似医务工作者透露:车祸前刚做鼻子

金晨肇事逃逸更多细节曝光!疑似医务工作者透露:车祸前刚做鼻子

社会酱
2026-01-30 19:48:11
后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

火山诗话
2026-01-30 15:13:24
苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

云霄纪史观
2026-01-30 01:47:42
和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

闲侃闲侃
2026-01-29 08:36:50
全线大跌,超22万人爆仓!刚刚,黄金、白银,直线跳水

全线大跌,超22万人爆仓!刚刚,黄金、白银,直线跳水

中国基金报
2026-01-30 09:29:21
2026-01-31 05:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142556关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

房产
健康
教育
旅游
艺术

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

耳石症分类型,症状大不同

教育要闻

害群之马!老师因“把分数写在试卷上”被家长投诉,官方要求整改

旅游要闻

单季接待数百万游客,冰雪大世界的文旅破圈之路!

艺术要闻

惊艳!越南摄影师镜头下的妩媚女子!

无障碍浏览 进入关怀版