网易首页 > 网易号 > 正文 申请入驻

为什么很准,奖励模型不work?新研究:准确度 is not all you need

0
分享至

机器之心报道

编辑:张倩、Panda

训练狗时不仅要让它知对错,还要给予差异较大的、不同的奖励诱导,设计 RLHF 的奖励模型时也是一样。

我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模型(RM)的质量。但是,我们应该如何衡量 RM 的质量呢?近日,普林斯顿大学一个研究团队发现,如果仅用准确度来衡量 RM 的质量,可能无法完全体现一个奖励模型作为有效教师的特性。为此,他们选择了从优化角度来研究这个问题。

  • 论文标题:What Makes a Reward Model a Good Teacher? An Optimization Perspective
  • 论文链接:https://arxiv.org/pdf/2503.15477

在这篇论文中,他们证明:无论奖励模型有多准确,如果它会导致奖励方差较低,那么 RLHF 目标优化起来就会比较缓慢。即使是完全准确的奖励模型也会导致优化速度极其缓慢,性能表现赶不上会导致奖励方差较高但准确度较低的模型。

他们还表明,对一种语言模型有效的奖励模型可能会让另一种语言模型的奖励方差较低,从而导致优化过程变得缓慢。

这些结果说明:如果在设计奖励模型时仅基于准确度或不考虑具体的语言模型,那么就会遭遇一些根本性的限制。总体而言,除了准确度之外,奖励模型还需要诱导出足够的方差才能实现有效优化。

考虑到强化学习与生物大脑学习机制具有一定的共通性,于是我们求助了 Claude,让它通过「人训练狗」的类比给我们提供了更为直观易懂的解释:

看起来这个解释还不错?

这项工作吸引了不少研究者的注意。其中,来自斯坦福大学的 AI 研究者Rajan Vivek 不止肯定了该工作的价值,还给出了一些让奖励更加细粒度(诱导奖励方差)的技巧,包括:

  1. 在最小对比对上进行训练:可以人工合成这些对比对,要求奖励模型能够可靠地为其中一个输出赋予略高的分数。
  2. 从生成式奖励模型中计算连续奖励:通过取 token 概率和分数的加权和来实现。
  3. 结合监督微调(SFT)、均方误差(MSE)和偏好损失:这些方法使模型能够生成推理依据,优化其连续奖励,并有效地从最小对比对中学习!

下面继续来看原论文给出的更为技术化的描述。

从优化视角看如何设计优良的奖励模型

该团队研究的是通过策略梯度最大化 RLHF 目标(如下 (1) 式)时预期的真实奖励 r_G 增加到所需量所需的时间。这个时间越短越好。

他们证明,如果奖励模型 r_RM 会为初始策略引入较低的奖励方差,则由于目标图景平坦,r_RM 和 r_G 都会以较慢的速度增加。因此,为了实现高效优化,r_RM 需要确保奖励方差不会太低。

之后,他们确立了奖励方差和优化率之间关系的两个主要含义。

1、由于奖励方差与准确度没有绑定,因此更准确的奖励模型不一定是更好的教师。

2、由于相同的奖励模型可能会给一种策略引入较高的奖励方差,但为另一种策略引入较低的奖励方差,因此对于不同的初始策略,使用不同的奖励模型会有更好的效果。

图 1 展示了准确度与奖励方差对 RLHF 目标图景的影响。

具体来说,准确度和奖励方差体现了奖励模型的不同方面:前者控制着与 ground truth 奖励的对齐,而后者决定了目标图景的平坦度。

准确度越低,奖励模型越容易受到奖励 hacking 攻击 —— 奖励模型认为有益的方向可能并不会提升 ground truth 奖励。另一方面,即使奖励模型完全准确,低奖励方差也意味着平坦的图景有碍策略梯度方法的效率。

低奖励方差意味着最大化奖励的速度缓慢

这里将预期奖励所需的时间下限设为一个加法常数。定理 1 表明,这个时间的增长与 成反比,这是 r_RM 针对初始策略与训练集 S 中的提示词得到的平均奖励方差。这样一来,如果提示词 x ∈ S 的 较低(即当 r_RM 无法充分地分离在初始策略下可能的输出时),则策略梯度就会出现优化速度慢的问题。

定理 1 是原论文中定理 4 的精简版,对其的证明请访问原论文附录部分。

众所周知,低奖励方差意味着通过 softmax 产生下一 token 分布的策略出现了梯度消失现象。

具体而言,对于任何提示词 x 和策略 π_θ, 都会随着 衰减。然而,仅凭这一点并不能得到令人满意的奖励最大化率下限,因为如果没有进一步的知识,梯度范数可能会在训练过程中迅速增加。

但研究表明情况并非如此:当奖励方差较低时,RLHF 目标的高阶导数会与梯度一起消失,从而阻止梯度范数的快速增加。这会限制策略参数 θ(t) 的移动,从而导致奖励增长率的下限。

更准确的奖励模型不一定是更好的教师

上一小节表明:低奖励方差会阻碍策略梯度的效率。值得注意的是,奖励方差与通常用于评估奖励模型的指标(准确度)无关。准确度仅取决于奖励模型如何排序不同的输出,而不考虑其奖励之间的分离程度,而奖励方差则由这种分离程度决定。定理 2 确定的一个关键含义是:准确的奖励模型 r_RM 也可能有较低的奖励方差。

需要明确一下,定理 2 考虑了两点:(i) 存在 r_RM 完全准确而 r′_RM 几乎完全不准确的极端情况;(ii) 对于提示词 x 和奖励模型 r_RM,关于无序输出对的均匀分布的准确度用 accx (rRM) 表示。关于该定理的详细版本(定理 5)的证明请访问原论文附录。

该团队指出,定理 2 并不意味着高准确度的奖励模型就一定是糟糕的教师。事实上,在几乎任何准确度水平上,一些奖励模型都会导致优化低效,而其他奖励模型则表现良好。定理 2 只是形式化了准确度本身不足以评估 RLHF 中的奖励模型的原因。

尽管如此,准确度仍是一个需要努力追求的属性,因为更准确的模型通常不太容易受到奖励 hacking 攻击。也就是说,当使用不完美的奖励模型进行训练时,由于两个奖励不匹配,最终 ground truth 奖励可能会开始减少。因此,通常的做法是只运行几个 epoch 的策略梯度。定理 2 体现到了这种情况,其中准确度较低的奖励模型可以通过推动 ground truth 奖励的更快增加而胜过更准确的奖励模型。

准确度的作用取决于对齐方法。虽然准确度本身并不能保证 RLHF 的有效性,但其重要性因对齐方法而异。例如,在 Best-of-N 采样中,很容易证明完全准确的奖励模型始终是最佳的。

对于不同的初始策略,不同的奖励模型更好

奖励方差取决于奖励模型和策略。特别是,对一个策略产生高奖励方差的奖励模型可能会对另一个策略产生低奖励方差。因此,奖励方差和优化之间的联系意味着对于不同的初始策略,使用不同的奖励模型会更好,见定理 3。这表明,为了忠实地评估 RLHF 的奖励模型,需要考虑正在对齐的策略。

实验结果

在实验部分,作者验证了从理论分析中得出的结论在实践中是成立的。

首先,他们表明,在策略梯度期间,奖励方差与奖励最大化率密切相关。具体来说,在固定训练预算下,更准确的奖励模型如果产生较低的奖励方差,反而可能导致性能下降。更令人意外的是,这一现象甚至适用于真实(ground truth)奖励本身:作者发现,即使能够直接获取真实奖励,在某些情况下使用代理奖励模型反而能取得更好的效果。

如下图 2 所示,作者使用一些奖励模型,通过策略梯度方法(RLOO)训练了一个 Pythia-2.8B 语言模型。这些奖励模型的特性如表 1 所示。作为对比,作者还直接使用真实奖励进行了策略梯度训练。图 2 展示了代理奖励(左图,即用于训练的奖励)和真实奖励(右图)随训练轮数增加的变化情况。与定理 2 一致,一个完美、准确但导致低奖励方差的奖励模型(红色标记)的表现不如一些准确度较低的模型。更有趣的是,在最初几轮训练中,使用代理奖励模型的效果甚至优于直接优化真实奖励。

图 7 展示了一个这种差距更为明显的实验。

接下来,作者证明了对于不同的语言模型,不同的奖励模型会带来更高的真实奖励。如下图 3 所示,作者使用公开可用的奖励模型,通过策略梯度方法(RLOO)在 UltraFeedback 的提示上训练了不同的语言模型;奖励模型的特性见表 9。图中数据显示,与定理 3 一致,能够产生最高真实奖励的奖励模型会随着初始策略的不同而变化。

有关这些实验的更多详情以及定理证明请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古代“一两银子”,相当于多少人民币?算算你一个月能挣几两银子

古代“一两银子”,相当于多少人民币?算算你一个月能挣几两银子

抽象派大师
2026-05-11 17:02:32
看完《低智商犯罪》24集结局,我心情复杂意犹未尽,写下这篇文章

看完《低智商犯罪》24集结局,我心情复杂意犹未尽,写下这篇文章

八卦南风
2026-05-14 13:28:54
A股跌破4200点,重要信号出现

A股跌破4200点,重要信号出现

北京红竹
2026-05-14 12:10:08
空军一号前纹丝不动!解放军硬核一幕刷屏外网,尽显大国底气

空军一号前纹丝不动!解放军硬核一幕刷屏外网,尽显大国底气

金子从天降
2026-05-14 11:37:00
小米SU7 Ultra挖孔机盖案 一审宣判

小米SU7 Ultra挖孔机盖案 一审宣判

每日经济新闻
2026-05-13 23:52:11
央视主持大调整:三人告别,杨帆遇冷,撒贝宁朱迅情况最意外

央视主持大调整:三人告别,杨帆遇冷,撒贝宁朱迅情况最意外

吕彏极限手工
2026-05-12 19:04:49
最新研究表明,维生素B12可能是健康老龄化的关键,真相来了!

最新研究表明,维生素B12可能是健康老龄化的关键,真相来了!

岐黄传人孙大夫
2026-05-12 20:10:03
川普恐要打破165年传统,成为美历史上首位在任签名上美元的总统

川普恐要打破165年传统,成为美历史上首位在任签名上美元的总统

疯狂的小历史
2026-05-05 10:12:11
中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

云舟史策
2026-05-14 07:09:58
茼蒿再次被关注!医生发现:吃得越多,关节炎患者寿命或越长?

茼蒿再次被关注!医生发现:吃得越多,关节炎患者寿命或越长?

岐黄传人孙大夫
2026-05-14 12:30:06
一声不吭造了7艘准航母,美国才发现,原来真正对手已并非俄罗斯

一声不吭造了7艘准航母,美国才发现,原来真正对手已并非俄罗斯

格林的公主
2026-05-14 14:09:06
广电总局官宣,机顶盒再见!

广电总局官宣,机顶盒再见!

果粉俱乐部
2026-05-14 13:55:05
22岁大学生连夜开车1300多公里,自费5200多元送校友回家奔丧!利川宣布:4人全年免门票,为该校学子提供见习岗位、实践平台

22岁大学生连夜开车1300多公里,自费5200多元送校友回家奔丧!利川宣布:4人全年免门票,为该校学子提供见习岗位、实践平台

极目新闻
2026-05-13 12:26:13
成都退礼服女孩风波升级!百万粉大V怒批:是合唱团欠工资还是穷

成都退礼服女孩风波升级!百万粉大V怒批:是合唱团欠工资还是穷

观察鉴娱
2026-05-14 10:53:42
放量下挫 失守4200点!A股双重信号已明确!

放量下挫 失守4200点!A股双重信号已明确!

郭一鸣
2026-05-14 15:16:39
倾家荡产也不能治愈?提醒:这4种病根本无法根治,别白花...

倾家荡产也不能治愈?提醒:这4种病根本无法根治,别白花...

袁医生课堂
2026-03-14 08:31:05
阿联酋否认以色列总理访阿

阿联酋否认以色列总理访阿

新华社
2026-05-14 06:31:02
莫布利:哈登是最伟大的球员之一,他的职业精神非常棒

莫布利:哈登是最伟大的球员之一,他的职业精神非常棒

懂球帝
2026-05-14 15:05:24
“一秒天黑”!8级狂风+大暴雨马上到!深圳天气“大翻脸”!

“一秒天黑”!8级狂风+大暴雨马上到!深圳天气“大翻脸”!

极目新闻
2026-05-14 14:56:07
三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

史之铭
2026-05-07 20:06:03
2026-05-14 16:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12995文章数 142648关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

重庆一栋百年古建筑以399万公开拍卖 仅限中国人竞买

头条要闻

重庆一栋百年古建筑以399万公开拍卖 仅限中国人竞买

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

新时代传统豪华是什么样? 上汽奥迪E7X给出了自己的答案

态度原创

手机
游戏
旅游
时尚
公开课

手机要闻

小米17 Max挑战极限!影像旗舰硬生生塞进8000mAh电池 机圈罕见

索尼紧急撤回!PS5重大功能惨遭下架 原因成谜

旅游要闻

在昆明打卡“昆明”!这些点位打卡攻略来啦

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版