网易首页 > 网易号 > 正文 申请入驻

为什么用错奖励模型也能提分?新研究:模型学的不是新知识,是思维

0
分享至


本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模型、推荐系统。

最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。

研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。

研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型,从而在开放性 NLP 任务中增强语言模型的表现,并使较小的模型也能通过强化学习成功获得思考能力。

  • 论文地址:https://huggingface.co/papers/2505.22653
  • 代码链接:https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason

论文概览

作者们首先研究了数学任务中奖励噪音对语言模型的影响,因为数学任务使用简单的规则校验,根据答案的正确性进行奖励,这使得人为控制奖励噪音变得非常简单(例如,通过将基于答案正确性的奖励函数结果进行 p% 的反转,正确答案得 0 分,错误答案得 1 分),从而便于研究。在训练 Qwen-2.5-7B 模型时,实验发现即使 p 值非常高,模型在下游任务中的表现几乎没有下降。只有当 p 值达到 50%(即完全随机奖励)时,训练效果才开始崩溃。这一现象引发了一个重要问题:为何即便模型给出错误答案并且得到奖励,训练效果依然保持不变?

图 1:使用不同程度奖励反转后的 Qwen-2.5-7B 在 MATH-500 数据集上的准确率变化,横轴为训练步数。

针对这一现象,作者提出了一种可能的解释:尽管答案错误,输出中的某些信息依然为模型的输出提供了奖励的价值。研究者认为,这些有价值的信息反映在模型的思考过程上。当模型生成诸如「First, I need to」,「second, I will」,「given these factors」,「finally」等思考模式时,无论最终答案是否正确,这一思考过程本身值得奖励。

为了验证这一假设,作者统计了在没有噪声奖励训练(即 p=0)的情况下,Qwen-2.5-7B 在数学任务中输出的高频思考关键词,并设计了一种非常简单的奖励机制 ——Reasoning Pattern Reward(RPR)。每当模型输出包含这些高频思考关键词时,便根据出现频次给予相应奖励,频次越高,奖励越大。

图 2: RPR 示意

仅使用 RPR 机制,完全不考虑答案的正确性,Qwen-2.5-7B 仍然能够在 MATH-500 数据集上将准确率从 5% 提升至 70% 以上。尽管在后续训练中准确率有所下降,作者通过案例研究指出,这一下降源于 RPR 使得模型在获得正确答案后「过度思考」,从而导致输出超长无法提取正确答案。作者承认,仅使用 RPR 而不使用其他答案校验奖励可能会被模型「hack」并产生问题,但他们强调,此实验的目的是证明思考模式在能力提升中的重要性,而非为了获得最好的结果。

这一实验表明,强化学习中,语言模型的提升主要源自输出格式的转变而非新知识的获取:模型在 RL 期间采样到具有良好思维模式的输出,而这种思维模式能够提高模型逐 token 接近正确答案的概率。

以上基于奖励函数的实验结果让作者们意识到,这一发现也许对于基于奖励模型(reward model)的强化学习后训练具有重要启示:由于奖励模型通常并不完美,输出中往往会包含噪声。如果语言模型能够在开放性任务中保持对奖励模型输出噪声的鲁棒性,那么我们或许不必过于追求极度精准的奖励模型,确保其「足够好」即可。

为验证这一点,作者在 Nvidia-HelpSteer3 数据集(一个多领域 AI 帮助性回复生成任务)上进行了实验。通过控制训练步数,训练了不同准确率的奖励模型,并用这些模型训练 Qwen-2.5-7B。作者认为奖励模型的准确率与其提供的奖励噪声呈负相关关系,即奖励模型准确率越高,奖励噪声越低。模型在测试集上输出的回复由人类 + GPT-4o 判断帮助性、信息度、与综合质量。

图 3: 奖励模型在 HelpSteer3 训练过程中,在验证集上的准确率,作者选取不同训练步数的 checkpoint 作为奖励模型进行训练。

实验结果显示,当奖励模型准确率超过 75% 时,不同奖励模型训练得到的语言模型在下游任务中的主观评测得分相似。这一现象与在数学任务中的观察相符,表明语言模型能够容忍一定程度的奖励噪声。然而,当奖励模型准确率低于 75% 时,训练效果显著下降;当准确率降至 65% 时,模型的表现大幅不如使用高准确率奖励模型训练得到的结果。这也许指出了 Qwen-2.5-7B 在该任务上的噪声耐受限度。

图 4: 不同奖励模型训练得到的语言模型在 HelpSteer3 任务中的主观评测表现

这一发现或许对许多研究人员而言提供了慰藉:在很多应用场景中,我们不必过分追求奖励模型的高准确率,因为超过某个临界点后,进一步提高奖励模型的准确率对任务性能的提升将变得有限

作者们进一步思考,如果真的无法获得「足够好」的奖励模型,如何增强现有奖励模型以提升下游任务表现?

为此,作者提出通过 RPR 对奖励模型进行校准:如果某个输出被奖励模型评为低分,但其思考模式较好(即 RPR 得分较高),那么这个低分可能是一个假阴性,应该根据其思考模式通过 RPR 机制对奖励模型的输出进行补偿。通过这种方式,作者在 HelpSteer3 任务中验证了,即使奖励模型的准确率为 65%,经过 RPR 校准后,模型表现接近原本 85% 准确率的奖励模型训练出的效果。同时,85% 准确率奖励模型经过校准后,模型在下游任务中的表现进一步增强,突破了作者们所拥有的奖励模型质量的限制。

图 5: 经过 RPR 校准后,所有奖励模型训得的语言模型质量都有提升。

作者们的另一个重要发现是,即便使用作者所拥有的最精确的奖励模型(准确率 85%),Qwen-2.5-3B 在 HelpSteer3 任务上发生了训练崩溃,表现为输出长度急剧下降,仅剩数十个 token。但经过 RPR 校准后,3B 模型成功完成了训练,避免了崩溃并获得了良好的效果,并且在很多复杂的开放任务中,比如根据指令做 PPT,呈现出良好的解题思路。

图 6: 经过 RPR 校准奖励模型后,3B 的模型也可以在 HelpSteer 任务上成功训练;而使用未校准的奖励模型,RL 发生了崩溃。

研究者们希望通过展示语言模型对基于结果的奖励噪声的鲁棒性,以及单独使用 RPR 获得下游任务提升的结果,来强调强化学习对语言模型的影响更在于改变其输出风格,形成良好的思考模式,而非教授新知识

此外,思考模式的重要性在使用奖励模型进行训练的开放性任务中得到了验证,也为强化学习后训练算法的改进提供了新思路。

作者指出,模型预训练技术的增强仍然值得持续投入,因为如果强化学习只专注于思考模式的培养,语言模型预训练阶段的能力依然会对下游任务构成瓶颈(例如文中对 Llama3 的实验表明,由于 Llama3 预训练模型难以生成较高质量的思考路径,导致其在各个任务中的表现和抗噪音能力远逊色于 Qwen 模型)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

明心
2026-03-26 15:15:16
生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

江江食研社
2026-03-24 03:30:08
纳指重回22000点,美股超3800只个股上涨

纳指重回22000点,美股超3800只个股上涨

21世纪经济报道
2026-03-26 18:02:22
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
小姑子用我地址买12000帝王蟹拒付款关机,我让快递联系她公司

小姑子用我地址买12000帝王蟹拒付款关机,我让快递联系她公司

周哥一影视
2026-03-26 12:56:32
FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

赛博兰博
2026-03-25 14:31:11
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

极目新闻
2026-03-26 20:16:01
小米把这套系统藏了15年,今天终于拔了插头

小米把这套系统藏了15年,今天终于拔了插头

我是一个粉刷匠2
2026-03-26 10:29:50
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
很多被奉为经典的古文,很难说有多少教育意义

很多被奉为经典的古文,很难说有多少教育意义

小院之观
2026-03-24 08:30:13
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

鹤羽说个事
2026-03-25 22:21:29
马尔蒂尼一席话点破所谓双骄,耽误了梅西多少金球?

马尔蒂尼一席话点破所谓双骄,耽误了梅西多少金球?

耀阳体育
2026-03-25 16:14:41
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

椰黄娱乐
2026-03-26 15:45:32
唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

阿龙美食记
2026-03-24 09:50:48
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈谈

不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈谈

犟种美食
2026-03-26 16:36:47
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
2026-03-26 20:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12607文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
房产
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

上新|| 她们说,找到了自己的人生裙子!

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版