网易首页 > 网易号 > 正文 申请入驻

周志华团队新作:LLM中存在奖励模型,首次理论证明RL对LLM有效性

0
分享至

机器之心报道

机器之心编辑部

将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习(RLHF)。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分,最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

因此,创建一个先进的奖励模型需要建立庞大且高质量的人类偏好数据集,而这一过程通常既缓慢、昂贵,又难以扩展。

这种对人类标注数据的依赖促使研究者探索其他对齐方法。一个重要的研究方向是基于 AI 反馈的强化学习(RLAIF)。该方法利用强大的专有大语言模型生成奖励信号或偏好标签,从而规避人类标注需求。虽然成本效益显著,但这些方法缺乏严谨的理论基础,且容易继承评判模型本身的风格偏差与固有偏见。这引发了一个关键问题:高质量奖励信号是否必须依赖外部来源?

来自南京大学的研究者发现,一个强大的通用奖励模型并非需要构建,而是可以挖掘出来的, 因为它已经潜在地存在于通过标准的下一个 Token 预测训练的任何语言模型中,称之为「内源性奖励(endogenous reward)」。

本文的核心贡献是为这一观点提供严格的理论基础。本文证明了可以从标准的下一个 Token 预测目标中恢复出一种特定形式的离线逆强化学习(IRL)奖励函数,该目标用于预训练和监督微调(SFT)。这一见解能够超越启发式方法,并建立一种原则性的方法,来引出语言模型在训练过程中隐式学习到的奖励函数。

具体来说,本文展示了语言模型的 logits 可以直接解释为 soft Q 函数,通过逆 soft 贝尔曼算子可以从中恢复出奖励函数。

至关重要的是,这一理论联系不仅仅提供了一种奖励提取的方法。本文还证明了,使用模型自身的内源性奖励进行微调可以使策略在误差界限上优于基线模型。强化学习过程有效地修正了标准模仿学习(即下一个 Token 预测)中的累积误差,将性能差距从任务视野的二次依赖关系 O (H²) 降低到优越的线性关系 O (H)。

据了解,这是首次理论证明强化学习在 LLM 中的有效性。广泛实验验证了这一理论,表明这种内源性奖励不仅优于现有的 LLM-as-a-judge 方法而且可以超越那些通过昂贵的人类标注数据显式训练的奖励模型的表现。

  • 论文标题: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
  • 论文链接:https://arxiv.org/pdf/2506.23235

这篇论文提出了解决 LLM 的对齐问题,通过利用模型内部的奖励机制,而不是依赖外部的人类反馈,这可能会改变未来 LLMs 的开发和应用方式。

本文在实验中旨在评估以下核心问题:

Q1:在与启发式基线方法和显式训练的最新奖励模型对比时,免训练内源性奖励模型(EndoRM)在常见奖励模型基准测试中的表现如何?

Q2:内源性奖励是否具备强大的指令遵循能力,能否作为可通过提示词调用的通用奖励模型?

Q3:基于内源性奖励的强化学习能否产生更优策略,实现理论预测的自我改进效果?

多样偏好对上的奖励准确率(Q1)

为回答 Q1,本研究通过预测 RM-Bench 中被选中的回复来评估奖励模型性能。更高的准确率意味着奖励质量更优。

由于本评估的方法无需训练,因此本评估将其与其他无需训练的方法进行对比:生成式验证器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise 。

所有基线方法及本评估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作为基础模型以确保公平比较。此外,本评估还列出了四个显式训练的高性能奖励模型的结果作为参考。

表 1 中的结果显示,EndoRM 不仅显著优于所有使用相同基础模型的无需训练基线方法,还以更高的平均得分超越了最先进的显式训练奖励模型。

这一发现表明,EndoRM 相比依赖高成本偏好数据筛选和训练的奖励模型更具有效性。

图 1 中进一步展示了 Multifaceted-Bench 的实验结果,从中可以观察到 EndoRM 在五个领域上始终优于所有基线方法。考虑到 Multifaceted-Bench 中可能包含数以千计的偏好对,这一结果证明了即使在任务复杂度和偏好多样性增加的情况下,EndoRM 仍能实现可扩展的鲁棒性。

这一发现进一步验证了本评估的核心假设:强大的奖励信号已潜在存在于基础模型之中。

验证指令遵循能力(Q2)

一个关键论点是内源性奖励并非静态的,而是可以通过提示来引导。

为验证这一点,本文使用了 DSP 数据集,该数据集包含四个不同的领域。本评估通过将 DSP 论文中相应的系统提示作为输入,创建了四个特定领域的版本的内源性奖励。

然后,本评估测试每个特定领域的内源性奖励在所有四个测试集上的响应分类准确率。

表 2 中的结果显示出强烈的对角模式:每个 EndoRM 在其自身领域上表现最佳。例如,EndoRM-Academy 在学术数据上达到了其最高准确率(76.89%)。

这证实了内源性奖励不是一个固定的评估器,而是一个动态的、可提示的评判器,继承了基础大型语言模型强大的指令遵循能力。

通过强化学习实现自我提升(Q3)

最后,本评估测试了定理 2 中的核心理论主张:带有内源性奖励的强化学习可以通过减轻复合误差来改进基础策略。

本评估在 MATH-lighteval 数据集上通过强化学习对基础模型 Qwen2.5-Math-7B 进行训练。内源性奖励模型同样是 Qwen2.5-Math-7B,在策略学习期间其参数保持固定。提示和响应的最大长度均设为 1024,KL 系数设为 0.01。

表 3 中的结果表明,带有内源性奖励的强化学习微调有助于模型在所有五个基准测试中一致地优于基础模型。

本评估还在附录 E 中给出了模型在强化学习前后的响应示例,从中可以看出,对于同一个问题,在基于内源性奖励进行优化之前,模型无法解决问题,并且随着响应的进行开始胡言乱语,甚至输出 Python 代码。

相比之下,本评估的方法提供了一个清晰简洁的解决方案。

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

快看张同学
2026-03-26 14:46:05
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,如今自食恶果

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,如今自食恶果

沧海旅行家
2026-03-25 16:13:09
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

成吉思热
2026-03-26 10:06:14
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
他俩才是最牛岳父母,3个女儿全嫁百亿富豪,一个比一个漂亮厉害

他俩才是最牛岳父母,3个女儿全嫁百亿富豪,一个比一个漂亮厉害

白面书誏
2026-03-26 18:13:05
79元太火!小米磁吸玩偶卖断货 官方承诺加快生产

79元太火!小米磁吸玩偶卖断货 官方承诺加快生产

快科技
2026-03-26 07:09:03
原来他12年前就已离世!患病3年女儿不愿照看,死后为争遗产现身

原来他12年前就已离世!患病3年女儿不愿照看,死后为争遗产现身

白面书誏
2026-03-26 13:38:18
原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

以茶带书
2026-03-26 13:38:50
东莞长安医院“慰问用水果篮”中标价492元/份?医院采购办称水果篮包含11种水果,纪检办回应正在调查中

东莞长安医院“慰问用水果篮”中标价492元/份?医院采购办称水果篮包含11种水果,纪检办回应正在调查中

极目新闻
2026-03-26 18:38:43
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
马英九基金会决定中止今年两岸青年交流,马应该出面声明!

马英九基金会决定中止今年两岸青年交流,马应该出面声明!

达文西看世界
2026-03-26 10:58:22
伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

探源历史
2026-03-25 13:22:35
东北两省书记省长会见刘强东

东北两省书记省长会见刘强东

观察者网
2026-03-25 21:43:37
2026-03-26 21:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
艺术
健康
旅游
教育

上新|| 她们说,找到了自己的人生裙子!

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

无障碍浏览 进入关怀版