网易首页 > 网易号 > 正文 申请入驻

斯坦福最新理论研究:RLHF中奖励过度优化现象也存在Scaling Laws

0
分享至

可以说,人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而,先前的RLHF算法通常是一个复杂而脆弱的过程

在经典的 RLHF 框架中,我们首先需要训练一个奖励模型来表示人类偏好,然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象(reward over-optimization)和奖励攻击(reward hacking)难题,虽然通过RL学习,奖励模型对LLM评估得到的性能会增加,但部署到实际场景中,性能会停滞甚至会下降。后来,有研究者提出直接对齐算法(Direct Alignment Algorithms,DAAs)来绕过奖励建模阶段,以缓解上述现象

目前,DDA已经成为经典 RLHF pipeline的替代方案,但DAA是否存在类似的过度优化现象尚未得到很好的探索,本文介绍一篇来自斯坦福大学等研究机构的理论性工作,本文表明的观点在于,尽管 DAA 不使用单独的奖励模型,但其仍然会因过度优化而导致性能恶化。并且提出了一个统一不同DDA方法的理论框架,通过大量的实验(在不同模型规模和超参数下)证明并解释了过度优化问题的潜在原因。

论文题目: Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms 论文链接: https://arxiv.org/abs/2406.02900

一、引言

作为ChatGPT的底层优化算法,RLHF备受学术界和工业界的关注,因此产生了很多性能更优的变体。例如OpenAI的InstructGPT、Anthropic的Constitutional AI等,这些方法使用三阶段流程(SFT、奖励建模、RL)来对齐语言模型。OpenAI发表在ICML2023上的工作[1]首先对这类方法中的奖励过度优化现象进行了研究,过度优化在一定程度上影响了LLMs在实际场景中的可靠性和安全性。虽然后续出现的直接对齐算法DAA(例如Direct Preference Optimization[2]和Implicit Preference Optimization[3])简化了传统RLHF的整体流程,但其仍然存在过度优化问题。

此外,在DAA研究社区中,尚未出现对DAA中过度优化现象的理论分析和解释,这导致研究者们无法针对性地对其进行改进。因此,本文的研究团队首先对不同DAA方法中的过度优化问题建立了一个理论框架,并探索了这种现象在不同模型规模和超参数下的表现。此外,本文还尝试将LLMs的缩放定律(Scaling Law)拓展到DAA中,这一创新性尝试为我们理解DAA的行为提供了新的视角

二、RLHF和DAA的理论基础

传统的RLHF流程通常包含三个主要阶段,监督微调(Supervised Fine Tuning, SFT)、奖励建模(Reward Modeling)和强化学习训练。监督学习通过构建高质量的提示和问答对来训练LLM对下一个token进行最大似然估计,来得到初步训练的模型。随后需要构建一个奖励模型,其目的是学习可以表示人类偏好的奖励函数,即使用SFT模型为每个提示 生成答案对 ,并根据人类偏好对生成答案进行排序,整体上,偏好分布可以表示如下:

其中 是未观察到的潜在奖励, 是logistic函数,经过训练后我们可以得到参数化的奖励模型。随后我们可以使用对LLM进行进一步的更新,流行的方法通常使用PPO等策略梯度算法进行优化。尽管RLHF在具体实践中很有效,但它存在一个关键问题:奖励过度优化。由于LLM策略优化的是代理奖励估计,而不是真实的奖励函数,这导致随着训练迭代的进行,模型的期望奖励增加,但实际输出质量可能下降

DAA算法的核心思想在于,其直接使用用户反馈来更新LLM策略,绕过单独的奖励函数拟合和RL阶段,极大地简化了RLHF的流程。在数学形式上,DAA首先基于RLHF目标的闭式解,并将 带入奖励优化目标中得到DAA的目标函数:

三、对DAA中过度优化的实证分析

3.1 过度优化现象评估

为了清晰的展示直接对齐过程中过度优化的现象,作者评估了三种不同的训练DAA目标,分别是DPO[2]、IPO[3]和SLiC[4]。作者使用不同的值(KL散度约束)训练模型,并使用GPT-4作为评判标准,计算模型生成摘要相对于数据集摘要的胜率,并通过绘制胜率图和KL散度图来对过度优化现象进行可视化,实验结果如下图所示。

评估实验在1B, 2.8B, 和6.9B三种模型规模上进行,每次对模型训练1个epoch,并在epoch内记录4个均匀分布的中间检查点,从上图中我们可以看到,参与实验的所有目标函数都表现出明显的过度优化,并且性能呈“驼峰型”模式,即随KL预算增加先上升后下降,在较大KL预算情况下,模型在处理25%数据后就达到最佳性能,之后开始下降。

为了进一步分析,作者在上图中进一步绘制了有关训练动态的其他结果,其中表明,1B模型在较小的KL预算下就开始过度优化,而6.9B模型则展现出了更好的win-rate和KL权衡,这表明,模型参数规模越大,越不容易出现DAA的过度优化现象。

3.2 将Scaling Law引入到DAA算法中

在得到评估DAA中过度优化的算法框架之后,作者开始探索能否将Scaling Law引入到该框架中。经典RLHF的先前工作已经为奖励模型得分建立了此类缩放定律,该定律可以衡量模型在初始策略和优化策略之间的 KL 散度,可以形式化表示为:

其中, ,由于DAA不训练代理奖励模型,因此在DAA算法中,作者直接使用GPT-4模型的胜率替代令作者惊讶的是,这个缩放定律可以准确地将和DAA的胜率联系起来。和胜率之间的二次拟合相比,这个缩放定律可以将误差RMSE减半。此外,作者还考虑了DAA算法中的长度偏好问题(Length Correlations)。先前有研究表明,DPO算法非常容易放大数据集中的冗长偏差,本文通过如下的实验表明,长度并不是过度优化唯一可以利用的维度。

上图左侧展示了使用标准训练和经过长度正则化方法的胜率性能,可以看出,这两种方法都存在过度优化的问题,但训练动态会根据 KL 预算的增加而有所不同。这表明,长度正则化虽然可以改变KL-胜率的约束区域,但无法消除过度优化现象,甚至在某些情况下,长度正则化可能会加剧过度优化。作者使用线性回归来分析DAA隐式奖励和长度之间的关系,其结果如上图右侧所示,回归形式可以表示如下:

其中 是输入提示, 是 DPO 隐性奖励对应的样本。作者绘制了不同模型大小的 值的变化情况,从实验结果中可以看出,以DPO为代表的DAA算法存在明显的缩放定律行为,较弱的模型在简单长度特征上的推断程度比较强的模型高得多,例如上图中模型大小为2.8B的红色三角明显优于模型大小为6.9B的绿色叉号。基于这一结果,作者认为,在有限的模型容量下,无论是从模型能力还是从 KL 预算角度考虑,模型都会由于过度优化而产生特征外推,从而导致出现 OOD 问题

四、DAA算法中奖励利用的本质

经过上述理论和实验分析,作者认为,虽然DAA方法不像传统RLHF那样使用单独的奖励模型,但它们仍然表现出类似的过度优化行为,本文试图在强化过程中的奖励利用方面来解释这一现象的潜在机制。作者首先对比了DAA和传统RLHF中的奖励利用问题:

  1. 传统RLHF中的奖励过度优化:

  • 原因:优化时使用可能出现分布外(OOD)行为的代理奖励函数

  • 表现:奖励函数对OOD样本给出错误的高奖励,导致性能下降

DAAs中的“隐式”奖励过度优化:

  • 特点:没有单独的奖励模型,模型的OOD行为与“隐式”奖励模型直接相关

  • 困难:难以直接应用传统RLHF中的解释手段

此外,本文作者指出,DAAs中的奖励建模目标不是严格凸的,这可能导致可能存在多个最优解,最终得到的结果可能出现在OOD响应空间中。为了进一步说明这一点,本文设计了一个简单的树形MDP实验。如下图所示,在树形结构中,每个状态有3个可能的动作 ,每个动作可以确定性地映射到下一个状态,所有叶节点最后整合得到终止状态 。

作者对上述MDP执行标准训练程序,即先在偏好响应上进行SFT训练,然后使用DAA更新策略,同时记录不同DAA算法在训练过程中OOD轨迹的概率变化情况,实验结果如下图所示。

可以看出,DAA算法在训练过程中逐渐靠近了OOD轨迹,而在分布内(偏好对)轨迹的概率在训练期间降低。这揭示了DAAs的一个基本缺陷,即使在很简单的训练设置中,现有的DAA算法仍然会在OOD序列产生错误外推。因此作者认为,未来的DAA设计可能需要考虑如何引入额外的正则化项来约束OOD行为,同时能够设计新的目标函数,使问题更接近严格凸。这样可以从根本上解决强化过程中的过度优化问题。

五、总结

本文对RLHF中直接对齐算法(DAA)的过度优化问题进行了大量的分析,通过提出统一框架、设计创新性实验和理论分析,本文不仅描述了DAA中过度优化的表现,还探讨了其潜在机制。过对不同算法(DPO、IPO、SLIC)和不同模型规模(1B、2.8B、6.9B)的实验,作者观察到不同 KL 散度下一致的过度优化趋势。尽管DAA简化了传统RLHF流程,但仍面临类似的过度优化问题。这一发现对于改进大语言模型的对齐方法、设计更安全可靠的AI系统都有重要意义。此外,作者也为未来的研究指明了方向,例如改进DAA目标函数、开发新的正则化技术、深化理论分析等。

参考资料

[1] L. Gao, J. Schulman, and J. Hilton. Scaling laws for reward model overoptimization. International Conference on machine Learning, 2023.

[2] R. Rafailov, A. Sharma, E. Mitchell, C. D. Manning, S. Ermon, and C. Finn. Direct preference optimization: Your language model is secretly a reward model. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.

[3] M. G. Azar, M. Rowland, B. Piot, D. Guo, D. Calandriello, M. Valko, and R. Munos. A general theoretical paradigm to understand learning from human preferences, 2023.

[4] Y. Zhao, R. Joshi, T. Liu, M. Khalman, M. Saleh, and P. J. Liu. Slic-hf: Sequence likelihood calibration with human feedback. arXiv preprint arXiv:2305.10425, 2023.

llustration From IconScout By Rini Astiyah

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

service@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学术大佬们慌了!集体连夜删减简历、隐藏论文,评论区一针见血

学术大佬们慌了!集体连夜删减简历、隐藏论文,评论区一针见血

谭谈社会
2026-05-27 13:08:19
新加坡媒体:警惕!《给阿嬷的情书》正在东南亚华人社会悄悄蔓延

新加坡媒体:警惕!《给阿嬷的情书》正在东南亚华人社会悄悄蔓延

手工制作阿歼
2026-05-27 09:00:23
入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

叹为观止易
2026-05-28 05:57:08
一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

一年捕食三千只蚊子,八年才缓慢长大,竟被人类当作美食疯狂捕捉

万象硬核本尊
2026-05-28 21:24:47
刚刚!朱一明巨额套现!

刚刚!朱一明巨额套现!

中国半导体论坛
2026-05-28 20:15:06
蔚来CEO:我是马刺球迷,输球郁闷了好久晚上还得开发布会

蔚来CEO:我是马刺球迷,输球郁闷了好久晚上还得开发布会

懂球帝
2026-05-28 11:55:26
世体:因费兰不愿被加入到小蜘蛛交易中,巴萨也放弃球员交换

世体:因费兰不愿被加入到小蜘蛛交易中,巴萨也放弃球员交换

懂球帝
2026-05-28 20:44:35
没想到,武契奇访华仅4天,45岁妻子竟凭一个举动给他长脸了

没想到,武契奇访华仅4天,45岁妻子竟凭一个举动给他长脸了

谛听骨语本尊
2026-05-28 13:49:53
Claude Code创始人建议计算机科学毕业生创业:现在是黄金时代

Claude Code创始人建议计算机科学毕业生创业:现在是黄金时代

IT之家
2026-05-28 15:14:24
米其林将发布天津榜单!

米其林将发布天津榜单!

天津人
2026-05-28 14:30:32
为什么全国人民都在拒接电话?

为什么全国人民都在拒接电话?

黯泉
2026-04-18 17:00:56
少年打球得罪富二代,被砍断双手身亡,家长:给我砍,老子不差钱

少年打球得罪富二代,被砍断双手身亡,家长:给我砍,老子不差钱

就一点
2026-05-18 00:00:54
湖北大娘硬讹收割机后续!警方介入,当地人再曝恶行,根本不敢惹

湖北大娘硬讹收割机后续!警方介入,当地人再曝恶行,根本不敢惹

米果说识
2026-05-27 14:27:31
王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

王晶没说谎,58岁久居“日本农村”的郑伊健,现状印证了他的评价

小兰聊历史
2026-05-25 07:41:20
孟晖任湖北省教育厅厅长

孟晖任湖北省教育厅厅长

EOL教育在线
2026-05-28 17:16:40
中方已读不回,巴拿马外长大闹联合国会场,向中方索要“尊重”

中方已读不回,巴拿马外长大闹联合国会场,向中方索要“尊重”

小小科普员
2026-05-28 16:06:48
北极"尸体点"正在融化:数百年前的水手遗骨暴露于世

北极"尸体点"正在融化:数百年前的水手遗骨暴露于世

闪存猎手
2026-05-25 04:36:07
我飞北京动手术,想在亲姐姐家借住3天被拒,我二话不说,当晚就停了帮她还了2年的房贷

我飞北京动手术,想在亲姐姐家借住3天被拒,我二话不说,当晚就停了帮她还了2年的房贷

感觉会火
2026-04-16 18:21:45
访华不忘给女儿代购,自曝儿子在学中文,夫人疯狂扫货新中式西服旗袍,武契奇一家有多爱中国文化!

访华不忘给女儿代购,自曝儿子在学中文,夫人疯狂扫货新中式西服旗袍,武契奇一家有多爱中国文化!

国是直通车
2026-05-28 14:57:16
多巴胺返贫正在毁掉你孩子的内驱力,适度饥饿才能养出优秀的孩子

多巴胺返贫正在毁掉你孩子的内驱力,适度饥饿才能养出优秀的孩子

男孩派
2026-05-27 10:40:59
2026-05-29 00:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2393文章数 596关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

家居
健康
游戏
房产
数码

家居要闻

蜂鸟餐椅 线面交错

专家教你辨认“正规外泌体”!

被毁掉的“3D版DNF”,如今又双叒叕打赢复活赛了?

房产要闻

突发重磅!三亚新机场公司正式成立!

数码要闻

慧荣发布AI负载优化SSD主控SM2524XT:14GB/s,DRAM-less

无障碍浏览 进入关怀版