网易首页 > 网易号 > 正文 申请入驻

为什么很准,奖励模型不work?新研究:准确度 is not all you need

0
分享至

机器之心报道

编辑:张倩、Panda

训练狗时不仅要让它知对错,还要给予差异较大的、不同的奖励诱导,设计 RLHF 的奖励模型时也是一样。

我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模型(RM)的质量。但是,我们应该如何衡量 RM 的质量呢?近日,普林斯顿大学一个研究团队发现,如果仅用准确度来衡量 RM 的质量,可能无法完全体现一个奖励模型作为有效教师的特性。为此,他们选择了从优化角度来研究这个问题。

  • 论文标题:What Makes a Reward Model a Good Teacher? An Optimization Perspective
  • 论文链接:https://arxiv.org/pdf/2503.15477

在这篇论文中,他们证明:无论奖励模型有多准确,如果它会导致奖励方差较低,那么 RLHF 目标优化起来就会比较缓慢。即使是完全准确的奖励模型也会导致优化速度极其缓慢,性能表现赶不上会导致奖励方差较高但准确度较低的模型。

他们还表明,对一种语言模型有效的奖励模型可能会让另一种语言模型的奖励方差较低,从而导致优化过程变得缓慢。

这些结果说明:如果在设计奖励模型时仅基于准确度或不考虑具体的语言模型,那么就会遭遇一些根本性的限制。总体而言,除了准确度之外,奖励模型还需要诱导出足够的方差才能实现有效优化。

考虑到强化学习与生物大脑学习机制具有一定的共通性,于是我们求助了 Claude,让它通过「人训练狗」的类比给我们提供了更为直观易懂的解释:

看起来这个解释还不错?

这项工作吸引了不少研究者的注意。其中,来自斯坦福大学的 AI 研究者Rajan Vivek 不止肯定了该工作的价值,还给出了一些让奖励更加细粒度(诱导奖励方差)的技巧,包括:

  1. 在最小对比对上进行训练:可以人工合成这些对比对,要求奖励模型能够可靠地为其中一个输出赋予略高的分数。
  2. 从生成式奖励模型中计算连续奖励:通过取 token 概率和分数的加权和来实现。
  3. 结合监督微调(SFT)、均方误差(MSE)和偏好损失:这些方法使模型能够生成推理依据,优化其连续奖励,并有效地从最小对比对中学习!

下面继续来看原论文给出的更为技术化的描述。

从优化视角看如何设计优良的奖励模型

该团队研究的是通过策略梯度最大化 RLHF 目标(如下 (1) 式)时预期的真实奖励 r_G 增加到所需量所需的时间。这个时间越短越好。

他们证明,如果奖励模型 r_RM 会为初始策略引入较低的奖励方差,则由于目标图景平坦,r_RM 和 r_G 都会以较慢的速度增加。因此,为了实现高效优化,r_RM 需要确保奖励方差不会太低。

之后,他们确立了奖励方差和优化率之间关系的两个主要含义。

1、由于奖励方差与准确度没有绑定,因此更准确的奖励模型不一定是更好的教师。

2、由于相同的奖励模型可能会给一种策略引入较高的奖励方差,但为另一种策略引入较低的奖励方差,因此对于不同的初始策略,使用不同的奖励模型会有更好的效果。

图 1 展示了准确度与奖励方差对 RLHF 目标图景的影响。

具体来说,准确度和奖励方差体现了奖励模型的不同方面:前者控制着与 ground truth 奖励的对齐,而后者决定了目标图景的平坦度。

准确度越低,奖励模型越容易受到奖励 hacking 攻击 —— 奖励模型认为有益的方向可能并不会提升 ground truth 奖励。另一方面,即使奖励模型完全准确,低奖励方差也意味着平坦的图景有碍策略梯度方法的效率。

低奖励方差意味着最大化奖励的速度缓慢

这里将预期奖励所需的时间下限设为一个加法常数。定理 1 表明,这个时间的增长与 成反比,这是 r_RM 针对初始策略与训练集 S 中的提示词得到的平均奖励方差。这样一来,如果提示词 x ∈ S 的 较低(即当 r_RM 无法充分地分离在初始策略下可能的输出时),则策略梯度就会出现优化速度慢的问题。

定理 1 是原论文中定理 4 的精简版,对其的证明请访问原论文附录部分。

众所周知,低奖励方差意味着通过 softmax 产生下一 token 分布的策略出现了梯度消失现象。

具体而言,对于任何提示词 x 和策略 π_θ, 都会随着 衰减。然而,仅凭这一点并不能得到令人满意的奖励最大化率下限,因为如果没有进一步的知识,梯度范数可能会在训练过程中迅速增加。

但研究表明情况并非如此:当奖励方差较低时,RLHF 目标的高阶导数会与梯度一起消失,从而阻止梯度范数的快速增加。这会限制策略参数 θ(t) 的移动,从而导致奖励增长率的下限。

更准确的奖励模型不一定是更好的教师

上一小节表明:低奖励方差会阻碍策略梯度的效率。值得注意的是,奖励方差与通常用于评估奖励模型的指标(准确度)无关。准确度仅取决于奖励模型如何排序不同的输出,而不考虑其奖励之间的分离程度,而奖励方差则由这种分离程度决定。定理 2 确定的一个关键含义是:准确的奖励模型 r_RM 也可能有较低的奖励方差。

需要明确一下,定理 2 考虑了两点:(i) 存在 r_RM 完全准确而 r′_RM 几乎完全不准确的极端情况;(ii) 对于提示词 x 和奖励模型 r_RM,关于无序输出对的均匀分布的准确度用 accx (rRM) 表示。关于该定理的详细版本(定理 5)的证明请访问原论文附录。

该团队指出,定理 2 并不意味着高准确度的奖励模型就一定是糟糕的教师。事实上,在几乎任何准确度水平上,一些奖励模型都会导致优化低效,而其他奖励模型则表现良好。定理 2 只是形式化了准确度本身不足以评估 RLHF 中的奖励模型的原因。

尽管如此,准确度仍是一个需要努力追求的属性,因为更准确的模型通常不太容易受到奖励 hacking 攻击。也就是说,当使用不完美的奖励模型进行训练时,由于两个奖励不匹配,最终 ground truth 奖励可能会开始减少。因此,通常的做法是只运行几个 epoch 的策略梯度。定理 2 体现到了这种情况,其中准确度较低的奖励模型可以通过推动 ground truth 奖励的更快增加而胜过更准确的奖励模型。

准确度的作用取决于对齐方法。虽然准确度本身并不能保证 RLHF 的有效性,但其重要性因对齐方法而异。例如,在 Best-of-N 采样中,很容易证明完全准确的奖励模型始终是最佳的。

对于不同的初始策略,不同的奖励模型更好

奖励方差取决于奖励模型和策略。特别是,对一个策略产生高奖励方差的奖励模型可能会对另一个策略产生低奖励方差。因此,奖励方差和优化之间的联系意味着对于不同的初始策略,使用不同的奖励模型会更好,见定理 3。这表明,为了忠实地评估 RLHF 的奖励模型,需要考虑正在对齐的策略。

实验结果

在实验部分,作者验证了从理论分析中得出的结论在实践中是成立的。

首先,他们表明,在策略梯度期间,奖励方差与奖励最大化率密切相关。具体来说,在固定训练预算下,更准确的奖励模型如果产生较低的奖励方差,反而可能导致性能下降。更令人意外的是,这一现象甚至适用于真实(ground truth)奖励本身:作者发现,即使能够直接获取真实奖励,在某些情况下使用代理奖励模型反而能取得更好的效果。

如下图 2 所示,作者使用一些奖励模型,通过策略梯度方法(RLOO)训练了一个 Pythia-2.8B 语言模型。这些奖励模型的特性如表 1 所示。作为对比,作者还直接使用真实奖励进行了策略梯度训练。图 2 展示了代理奖励(左图,即用于训练的奖励)和真实奖励(右图)随训练轮数增加的变化情况。与定理 2 一致,一个完美、准确但导致低奖励方差的奖励模型(红色标记)的表现不如一些准确度较低的模型。更有趣的是,在最初几轮训练中,使用代理奖励模型的效果甚至优于直接优化真实奖励。

图 7 展示了一个这种差距更为明显的实验。

接下来,作者证明了对于不同的语言模型,不同的奖励模型会带来更高的真实奖励。如下图 3 所示,作者使用公开可用的奖励模型,通过策略梯度方法(RLOO)在 UltraFeedback 的提示上训练了不同的语言模型;奖励模型的特性见表 9。图中数据显示,与定理 3 一致,能够产生最高真实奖励的奖励模型会随着初始策略的不同而变化。

有关这些实验的更多详情以及定理证明请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

南权先生
2026-03-25 15:19:55
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
居莱尔发威+比分1-0,土耳其淘汰强敌,进世预赛欧洲区附加赛决赛

居莱尔发威+比分1-0,土耳其淘汰强敌,进世预赛欧洲区附加赛决赛

侧身凌空斩
2026-03-27 02:52:42
首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

上观新闻
2026-03-26 19:36:04
以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

史政先锋
2026-03-26 20:22:48
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

闻识
2026-03-27 01:19:31
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
密密麻麻!大批乌鸦盘旋以色列上空 网友震惊

密密麻麻!大批乌鸦盘旋以色列上空 网友震惊

看看新闻Knews
2026-03-26 20:41:18
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

兰亭墨未干
2026-03-26 22:47:38
精锐空降师抵中东,五万大军压境,美伊地面战一触即发?

精锐空降师抵中东,五万大军压境,美伊地面战一触即发?

高博新视野
2026-03-26 08:00:26
张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

茶韵浮生
2026-03-26 20:26:51
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
世人只知体操冠军“擦边”,吴柳芳亲述其背后的“心酸”

世人只知体操冠军“擦边”,吴柳芳亲述其背后的“心酸”

一支破笔半支烟
2026-03-26 10:58:32
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
2026-03-27 05:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
旅游
游戏
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版