网易首页 > 网易号 > 正文 申请入驻

奖励是假的,能让Qwen提升25%性能却是真的!

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?

甚至还和真实奖励相差无几。

自从RLVR被DeepSeek-R1带火,RL推理研究层出不穷,走进了蜜月期。

这不,来自华盛顿大学的一群博士生来火上浇油了——

使用Qwen模型(尤其是数学版本),对虚假奖励进行RLVR,仍然可以将MATH-500的绝对准确率显著提升约25%

团队实验发现:

  • RLVR通过激活预训练中的推理能力来提升性能,但不考虑奖励信号的正确性。

这彻底颠覆了既往大家对RLVR的认知,原来那些年在虚假奖励上踩过的坑,还真能实现弯道超车?

X上的网友们纷纷表示,强烈建议每位RLVR研究员都来读一读,尤其是那些围绕Qwen模型精心构造奖励函数的研究员们,该瑟瑟发抖了……

Qwen自家的研究员Binyuan Hui也在评论区现身:

  • 也许是预训练数据混合以某种方式意外导致了一些有用的行为,又一次侧面印证了代码推理的重要性。

具体啥情况?下面我们娓娓道来。

虚假奖励带来显著的RLVR增益

此前已有研究证明,RLVR在提升语言模型推理能力上非常有效,核心思想是利用可自动验证的奖励信号优化

普遍研究都默认优化效果依赖奖励的正确性,但研究团队反直觉地认为其中必有蹊跷——虚假奖励或许也能“变废为宝”?

于是说干就干,开始大胆假设,小心求证。

从实验出发

为测试RLVR提升数学推理能力所需的最低监督下限,团队设计了一系列逐步简化的奖励函数替代标准真实奖励:

  1. 真实奖励:使用真实标签对可验证正确的回答给予奖励,将其作为奖励监督质量的上限。
  2. 多数投票奖励:在微调前利用模型对训练集进行伪标注,即对每个提示采样64个响应并选取多数答案,再基于这些(可能错误的)标签进行奖励。
  3. 格式奖励:进一步弱化奖励信号,奖励所有包含至少一个非空\boxed {}表达式的响应,完全忽略回答的数学正确性。
  4. 随机奖励:在奖励过程中不提供任何指导,直接给定一个固定概率超参数随机分配奖励,其中1的概率为,0为,主实验中设置。
  5. 错误奖励:故意提供错误的监督,只奖励错误答案,即先用多数投票法标注所有训练数据,选择错误标签的子集进行训练,并给予对应的响应奖励。

基于GRPO方法微调Qwen2.5-Math模型,再使用不同奖励函数进行RLVR训练。

实验结果表明,与未调优的基线模型相比,所有奖励函数(即使是设计上存在问题的函数),均能在所有基准测试的前50步内显著提升数学推理性能。

值得注意的是,虚假奖励带来的性能提升,与基于真实标签的RLVR提升幅度,相差只有几个百分点

例如,在MATH500基准上,使用错误标签奖励进行训练可提升24.6%,而基于真实答案的RLVR提升幅度只有28.8%,即使是提供纯噪音的随机奖励,也仍能带来 21.4%的性能提升。

因此团队证明,即使是完全错误的奖励或随机奖励,也能在Qwen2.5-Math模型中激发性能提升。

但在进一步的研究中,他们发现这种奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虚假奖励下几乎无变化,甚至还会出现下降的趋势。

这又是怎么一回事呢?研究团队只好又开始挖掘模型差异的根源。

为什么虚假奖励有效

通过分析Qwen2.5-Math-7B和OLMo2-7B的推理轨迹,团队发现预训练期间,模型学习到的特定推理策略差异是关键。

Qwen2.5-Math-7B频繁生成Python代码辅助思考过程(占所有回答的 65.0%),尽管无法执行,但这种代码推理行为在一定程度上,与答案准确率高度正相关。

但该模式在其他模型中并未有所发现,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代码,无法从此推理策略中获益。

OLMo2-7B-SFT和Qwen2.5-7B虽然也频繁尝试使用代码推理,但该策略反而会降低模型性能。

而基于虚假奖励的RLVR可以有效增强代码推理频率,如Qwen2.5-Math-7B在进行RLVR训练后,代码推理频率在最初15步内,迅速从65%提升至约90%。

此外,通过分析随机奖励也能提升性能的特殊情况,研究人员还发现一个有趣的结论:GRPO的裁剪偏差可能会诱导随机奖励生成有益的训练信号,增加代码推理行为,从而实现性能提升。

One More Thing

本项目是由多位华人学者共同完成的,他们目前都在华盛顿大学的NLP小组读博。

而当论文作者Stella Li在X上发帖介绍自己的论文时,我们注意到评论区有这样一位网友的留言,他指出在模型改进中,也许「结果不重要,推理过程才重要」

Stella Li的回复也提出了另外一种可能,也许错误推理+正确答案或者正确推理+错误答案,可能也会帮助OLMo2-7B-SFT实现类似Qwen在虚假奖励下的性能增益。

另外,作者也温馨提示,现有的以Qwen为中心的RLVR研究可能需要在非Qwen模型上做进一步验证,不要只盯着单一模型做漂亮数值提升的工作,因为那可能意义并不大。

项目链接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代码链接:https://github.com/ruixin31/Rethink_RLVR
论文链接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

参考链接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

Emily说个球
2026-03-26 15:11:29
张雪峰经典名言 100 条(完整版)

张雪峰经典名言 100 条(完整版)

新浪财经
2026-03-25 06:17:25
张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

大运河时空
2026-03-25 15:15:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

椰黄娱乐
2026-03-24 11:36:57
立陶宛请求访华,当面向中方认错?中方已开出条件,做不到就免谈

立陶宛请求访华,当面向中方认错?中方已开出条件,做不到就免谈

临云史策
2026-03-25 21:59:37
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
小摩:降三花智控目标价至42港元 维持“增持”评级

小摩:降三花智控目标价至42港元 维持“增持”评级

财联社
2026-03-26 16:05:03
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

谭咏麟32岁儿子近况:智性恋天菜,才貌双全,今在加拿大做工程师

白面书誏
2026-03-24 14:41:16
事关美国对伊朗动武,外媒最新爆料

事关美国对伊朗动武,外媒最新爆料

环球时报国际
2026-03-25 15:21:08
黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

黑色星期四,黄金直线下跌,原油大幅拉升,港股暴跌,A股大跌!

有范又有料
2026-03-26 16:07:15
国家机密,洲际导弹的制造方法

国家机密,洲际导弹的制造方法

远方青木
2026-03-25 23:55:16
为啥萨哈夫能放生,革命卫队发言人必须被斩首

为啥萨哈夫能放生,革命卫队发言人必须被斩首

移光幻影
2026-03-21 10:13:06
2026-03-26 19:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
数码
时尚
健康
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

皮衣+裙,高级到炸

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版