网易首页 > 网易号 > 正文 申请入驻

奖励是假的,能让Qwen提升25%性能却是真的!

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?

甚至还和真实奖励相差无几。

自从RLVR被DeepSeek-R1带火,RL推理研究层出不穷,走进了蜜月期。

这不,来自华盛顿大学的一群博士生来火上浇油了——

使用Qwen模型(尤其是数学版本),对虚假奖励进行RLVR,仍然可以将MATH-500的绝对准确率显著提升约25%

团队实验发现:

  • RLVR通过激活预训练中的推理能力来提升性能,但不考虑奖励信号的正确性。

这彻底颠覆了既往大家对RLVR的认知,原来那些年在虚假奖励上踩过的坑,还真能实现弯道超车?

X上的网友们纷纷表示,强烈建议每位RLVR研究员都来读一读,尤其是那些围绕Qwen模型精心构造奖励函数的研究员们,该瑟瑟发抖了……

Qwen自家的研究员Binyuan Hui也在评论区现身:

  • 也许是预训练数据混合以某种方式意外导致了一些有用的行为,又一次侧面印证了代码推理的重要性。

具体啥情况?下面我们娓娓道来。

虚假奖励带来显著的RLVR增益

此前已有研究证明,RLVR在提升语言模型推理能力上非常有效,核心思想是利用可自动验证的奖励信号优化

普遍研究都默认优化效果依赖奖励的正确性,但研究团队反直觉地认为其中必有蹊跷——虚假奖励或许也能“变废为宝”?

于是说干就干,开始大胆假设,小心求证。

从实验出发

为测试RLVR提升数学推理能力所需的最低监督下限,团队设计了一系列逐步简化的奖励函数替代标准真实奖励:

  1. 真实奖励:使用真实标签对可验证正确的回答给予奖励,将其作为奖励监督质量的上限。
  2. 多数投票奖励:在微调前利用模型对训练集进行伪标注,即对每个提示采样64个响应并选取多数答案,再基于这些(可能错误的)标签进行奖励。
  3. 格式奖励:进一步弱化奖励信号,奖励所有包含至少一个非空\boxed {}表达式的响应,完全忽略回答的数学正确性。
  4. 随机奖励:在奖励过程中不提供任何指导,直接给定一个固定概率超参数随机分配奖励,其中1的概率为,0为,主实验中设置。
  5. 错误奖励:故意提供错误的监督,只奖励错误答案,即先用多数投票法标注所有训练数据,选择错误标签的子集进行训练,并给予对应的响应奖励。

基于GRPO方法微调Qwen2.5-Math模型,再使用不同奖励函数进行RLVR训练。

实验结果表明,与未调优的基线模型相比,所有奖励函数(即使是设计上存在问题的函数),均能在所有基准测试的前50步内显著提升数学推理性能。

值得注意的是,虚假奖励带来的性能提升,与基于真实标签的RLVR提升幅度,相差只有几个百分点

例如,在MATH500基准上,使用错误标签奖励进行训练可提升24.6%,而基于真实答案的RLVR提升幅度只有28.8%,即使是提供纯噪音的随机奖励,也仍能带来 21.4%的性能提升。

因此团队证明,即使是完全错误的奖励或随机奖励,也能在Qwen2.5-Math模型中激发性能提升。

但在进一步的研究中,他们发现这种奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虚假奖励下几乎无变化,甚至还会出现下降的趋势。

这又是怎么一回事呢?研究团队只好又开始挖掘模型差异的根源。

为什么虚假奖励有效

通过分析Qwen2.5-Math-7B和OLMo2-7B的推理轨迹,团队发现预训练期间,模型学习到的特定推理策略差异是关键。

Qwen2.5-Math-7B频繁生成Python代码辅助思考过程(占所有回答的 65.0%),尽管无法执行,但这种代码推理行为在一定程度上,与答案准确率高度正相关。

但该模式在其他模型中并未有所发现,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代码,无法从此推理策略中获益。

OLMo2-7B-SFT和Qwen2.5-7B虽然也频繁尝试使用代码推理,但该策略反而会降低模型性能。

而基于虚假奖励的RLVR可以有效增强代码推理频率,如Qwen2.5-Math-7B在进行RLVR训练后,代码推理频率在最初15步内,迅速从65%提升至约90%。

此外,通过分析随机奖励也能提升性能的特殊情况,研究人员还发现一个有趣的结论:GRPO的裁剪偏差可能会诱导随机奖励生成有益的训练信号,增加代码推理行为,从而实现性能提升。

One More Thing

本项目是由多位华人学者共同完成的,他们目前都在华盛顿大学的NLP小组读博。

而当论文作者Stella Li在X上发帖介绍自己的论文时,我们注意到评论区有这样一位网友的留言,他指出在模型改进中,也许「结果不重要,推理过程才重要」

Stella Li的回复也提出了另外一种可能,也许错误推理+正确答案或者正确推理+错误答案,可能也会帮助OLMo2-7B-SFT实现类似Qwen在虚假奖励下的性能增益。

另外,作者也温馨提示,现有的以Qwen为中心的RLVR研究可能需要在非Qwen模型上做进一步验证,不要只盯着单一模型做漂亮数值提升的工作,因为那可能意义并不大。

项目链接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代码链接:https://github.com/ruixin31/Rethink_RLVR
论文链接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

参考链接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江宣传评世界杯转播权之争:与其花费巨资追捧海外赛事,不如投入本土足球

浙江宣传评世界杯转播权之争:与其花费巨资追捧海外赛事,不如投入本土足球

澎湃新闻
2026-05-08 12:24:10
登上访华专机前,特朗普收到通知,鲁比奥能不能来,中方给了台阶

登上访华专机前,特朗普收到通知,鲁比奥能不能来,中方给了台阶

共工之锚
2026-05-14 00:10:26
马斯克发帖炫耀:只有黄仁勋我们两个在空军一号上

马斯克发帖炫耀:只有黄仁勋我们两个在空军一号上

微微热评
2026-05-13 22:30:04
太失礼?到韩国见完中方就走,都不跟主人打招呼,首尔炸了

太失礼?到韩国见完中方就走,都不跟主人打招呼,首尔炸了

魔都姐姐杂谈
2026-05-13 22:44:16
重磅!国家正式出手!不生孩子的时代要结束了?

重磅!国家正式出手!不生孩子的时代要结束了?

一口娱乐
2026-05-13 18:11:47
刚删完中文就慌了!国际足联,耍的那点小聪明,竟捅了天大的篓子

刚删完中文就慌了!国际足联,耍的那点小聪明,竟捅了天大的篓子

西楼知趣杂谈
2026-05-13 14:16:55
华南理工男生上课偷录女生裙底:全程30分钟,现场画面,细节曝光

华南理工男生上课偷录女生裙底:全程30分钟,现场画面,细节曝光

李晚书
2026-05-13 18:02:04
立夏后,少吃鸡肉和牛肉,多吃这3种肉,腿脚有力,精力充沛过夏

立夏后,少吃鸡肉和牛肉,多吃这3种肉,腿脚有力,精力充沛过夏

花小厨
2026-05-12 12:27:48
太突然!香港80后“地产女王”烧炭身亡,曾向朋友发信息称要自杀!她草根出生,做过百亿级收购,生前已陷入严重财务困境

太突然!香港80后“地产女王”烧炭身亡,曾向朋友发信息称要自杀!她草根出生,做过百亿级收购,生前已陷入严重财务困境

每日经济新闻
2026-05-13 19:54:12
撕破脸了?国际足联官网剔除中文,甩出谈判筹码,遭40亿索赔压顶

撕破脸了?国际足联官网剔除中文,甩出谈判筹码,遭40亿索赔压顶

霁寒飘雪
2026-05-13 16:47:06
CBA赛场绝美女球迷意外走红!疑似东阳光老板娘,AI真假网友吵翻

CBA赛场绝美女球迷意外走红!疑似东阳光老板娘,AI真假网友吵翻

谭谈社会
2026-05-13 03:53:12
华人遍布全世界各地,却为何唯独泰国华人,几乎被完全同化

华人遍布全世界各地,却为何唯独泰国华人,几乎被完全同化

长风文史
2026-05-13 17:00:01
或为今年最强!8级狂风+大暴雨要来,深圳天气“大翻脸”!明天千万留意

或为今年最强!8级狂风+大暴雨要来,深圳天气“大翻脸”!明天千万留意

南方都市报
2026-05-13 22:27:53
森林狼球迷意难平!不止因为97-126惨败马刺,更多在于以下五点!

森林狼球迷意难平!不止因为97-126惨败马刺,更多在于以下五点!

田先生篮球
2026-05-13 12:24:59
刚刚!彻夜谈判失败!

刚刚!彻夜谈判失败!

中国半导体论坛
2026-05-13 12:39:51
红酒白酒全面崩盘,中国人为啥突然不愿意喝酒了呢?

红酒白酒全面崩盘,中国人为啥突然不愿意喝酒了呢?

流苏晚晴
2026-05-12 19:17:02
看完“晨光军工”手搓的飞机大炮后,无数网友把课桌吹成了“最强民用机床”?

看完“晨光军工”手搓的飞机大炮后,无数网友把课桌吹成了“最强民用机床”?

BB姬
2026-05-12 22:39:45
关心:黄仁勋为什么能“压哨登机”

关心:黄仁勋为什么能“压哨登机”

观察者网
2026-05-13 16:22:20
3-2逆转中亚劲旅,中国男足2连胜,比韩国净胜球少屈居第二

3-2逆转中亚劲旅,中国男足2连胜,比韩国净胜球少屈居第二

侧身凌空斩
2026-05-13 21:30:47
中美谈妥,贝森特握紧中方的手,新的情况发生,外资加仓中国资产

中美谈妥,贝森特握紧中方的手,新的情况发生,外资加仓中国资产

知法而形
2026-05-13 18:59:19
2026-05-14 00:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12621文章数 176462关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

特朗普抵京走红毯舞起熟悉手势 乘"陆军一号"前往酒店

头条要闻

特朗普抵京走红毯舞起熟悉手势 乘"陆军一号"前往酒店

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

健康
时尚
手机
房产
游戏

干细胞能让人“返老还童”吗

专栏 | 进入心流后,不被洪流裹挟

手机要闻

iPhone18Pro配色敲定+iOS 27功能曝光!今年9月的苹果,料有点多

房产要闻

卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

《OW》10周年庆典被老外狂喷"抠死了":把我们当猴耍

无障碍浏览 进入关怀版