斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws|轨迹|算法|隐式|正则化|scaling

分享至

可以说，人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而，先前的RLHF算法通常是一个复杂而脆弱的过程。

在经典的 RLHF 框架中，我们首先需要训练一个奖励模型来表示人类偏好，然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象（reward over-optimization）和奖励攻击（reward hacking）难题，虽然通过RL学习，奖励模型对LLM评估得到的性能会增加，但部署到实际场景中，性能会停滞甚至会下降。后来，有研究者提出直接对齐算法（Direct Alignment Algorithms，DAAs）来绕过奖励建模阶段，以缓解上述现象。

目前，DDA已经成为经典 RLHF pipeline的替代方案，但DAA是否存在类似的过度优化现象尚未得到很好的探索，本文介绍一篇来自斯坦福大学等研究机构的理论性工作，本文表明的观点在于，尽管 DAA 不使用单独的奖励模型，但其仍然会因过度优化而导致性能恶化。并且提出了一个统一不同DDA方法的理论框架，通过大量的实验（在不同模型规模和超参数下）证明并解释了过度优化问题的潜在原因。

论文题目： Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms 论文链接： https://arxiv.org/abs/2406.02900

一、引言

作为ChatGPT的底层优化算法，RLHF备受学术界和工业界的关注，因此产生了很多性能更优的变体。例如OpenAI的InstructGPT、Anthropic的Constitutional AI等，这些方法使用三阶段流程(SFT、奖励建模、RL)来对齐语言模型。OpenAI发表在ICML2023上的工作[1]首先对这类方法中的奖励过度优化现象进行了研究，过度优化在一定程度上影响了LLMs在实际场景中的可靠性和安全性。虽然后续出现的直接对齐算法DAA（例如Direct Preference Optimization[2]和Implicit Preference Optimization[3]）简化了传统RLHF的整体流程，但其仍然存在过度优化问题。

此外，在DAA研究社区中，尚未出现对DAA中过度优化现象的理论分析和解释，这导致研究者们无法针对性地对其进行改进。因此，本文的研究团队首先对不同DAA方法中的过度优化问题建立了一个理论框架，并探索了这种现象在不同模型规模和超参数下的表现。此外，本文还尝试将LLMs的缩放定律（Scaling Law）拓展到DAA中，这一创新性尝试为我们理解DAA的行为提供了新的视角。

二、RLHF和DAA的理论基础

传统的RLHF流程通常包含三个主要阶段，监督微调（Supervised Fine Tuning, SFT）、奖励建模（Reward Modeling）和强化学习训练。监督学习通过构建高质量的提示和问答对来训练LLM对下一个token进行最大似然估计，来得到初步训练的模型。随后需要构建一个奖励模型，其目的是学习可以表示人类偏好的奖励函数，即使用SFT模型为每个提示生成答案对，并根据人类偏好对生成答案进行排序，整体上，偏好分布可以表示如下：

其中是未观察到的潜在奖励，是logistic函数，经过训练后我们可以得到参数化的奖励模型。随后我们可以使用对LLM进行进一步的更新，流行的方法通常使用PPO等策略梯度算法进行优化。尽管RLHF在具体实践中很有效，但它存在一个关键问题：奖励过度优化。由于LLM策略优化的是代理奖励估计，而不是真实的奖励函数，这导致随着训练迭代的进行，模型的期望奖励增加，但实际输出质量可能下降。

DAA算法的核心思想在于，其直接使用用户反馈来更新LLM策略，绕过单独的奖励函数拟合和RL阶段，极大地简化了RLHF的流程。在数学形式上，DAA首先基于RLHF目标的闭式解，并将带入奖励优化目标中得到DAA的目标函数：

三、对DAA中过度优化的实证分析

3.1 过度优化现象评估

为了清晰的展示直接对齐过程中过度优化的现象，作者评估了三种不同的训练DAA目标，分别是DPO[2]、IPO[3]和SLiC[4]。作者使用不同的值（KL散度约束）训练模型，并使用GPT-4作为评判标准，计算模型生成摘要相对于数据集摘要的胜率，并通过绘制胜率图和KL散度图来对过度优化现象进行可视化，实验结果如下图所示。

评估实验在1B, 2.8B, 和6.9B三种模型规模上进行，每次对模型训练1个epoch，并在epoch内记录4个均匀分布的中间检查点，从上图中我们可以看到，参与实验的所有目标函数都表现出明显的过度优化，并且性能呈“驼峰型”模式，即随KL预算增加先上升后下降，在较大KL预算情况下，模型在处理25%数据后就达到最佳性能，之后开始下降。

为了进一步分析，作者在上图中进一步绘制了有关训练动态的其他结果，其中表明，1B模型在较小的KL预算下就开始过度优化，而6.9B模型则展现出了更好的win-rate和KL权衡，这表明，模型参数规模越大，越不容易出现DAA的过度优化现象。

3.2 将Scaling Law引入到DAA算法中

在得到评估DAA中过度优化的算法框架之后，作者开始探索能否将Scaling Law引入到该框架中。经典RLHF的先前工作已经为奖励模型得分建立了此类缩放定律，该定律可以衡量模型在初始策略和优化策略之间的 KL 散度，可以形式化表示为：

其中，，由于DAA不训练代理奖励模型，因此在DAA算法中，作者直接使用GPT-4模型的胜率替代。令作者惊讶的是，这个缩放定律可以准确地将和DAA的胜率联系起来。与和胜率之间的二次拟合相比，这个缩放定律可以将误差RMSE减半。此外，作者还考虑了DAA算法中的长度偏好问题（Length Correlations）。先前有研究表明，DPO算法非常容易放大数据集中的冗长偏差，本文通过如下的实验表明，长度并不是过度优化唯一可以利用的维度。

上图左侧展示了使用标准训练和经过长度正则化方法的胜率性能，可以看出，这两种方法都存在过度优化的问题，但训练动态会根据 KL 预算的增加而有所不同。这表明，长度正则化虽然可以改变KL-胜率的约束区域，但无法消除过度优化现象，甚至在某些情况下，长度正则化可能会加剧过度优化。作者使用线性回归来分析DAA隐式奖励和长度之间的关系，其结果如上图右侧所示，回归形式可以表示如下：

其中是输入提示，是 DPO 隐性奖励对应的样本。作者绘制了不同模型大小的值的变化情况，从实验结果中可以看出，以DPO为代表的DAA算法存在明显的缩放定律行为，较弱的模型在简单长度特征上的推断程度比较强的模型高得多，例如上图中模型大小为2.8B的红色三角明显优于模型大小为6.9B的绿色叉号。基于这一结果，作者认为，在有限的模型容量下，无论是从模型能力还是从 KL 预算角度考虑，模型都会由于过度优化而产生特征外推，从而导致出现 OOD 问题。

四、DAA算法中奖励利用的本质

经过上述理论和实验分析，作者认为，虽然DAA方法不像传统RLHF那样使用单独的奖励模型，但它们仍然表现出类似的过度优化行为，本文试图在强化过程中的奖励利用方面来解释这一现象的潜在机制。作者首先对比了DAA和传统RLHF中的奖励利用问题：

传统RLHF中的奖励过度优化:

原因：优化时使用可能出现分布外（OOD）行为的代理奖励函数
表现：奖励函数对OOD样本给出错误的高奖励，导致性能下降

DAAs中的“隐式”奖励过度优化:

特点：没有单独的奖励模型，模型的OOD行为与“隐式”奖励模型直接相关
困难：难以直接应用传统RLHF中的解释手段

此外，本文作者指出，DAAs中的奖励建模目标不是严格凸的，这可能导致可能存在多个最优解，最终得到的结果可能出现在OOD响应空间中。为了进一步说明这一点，本文设计了一个简单的树形MDP实验。如下图所示，在树形结构中，每个状态有3个可能的动作，每个动作可以确定性地映射到下一个状态，所有叶节点最后整合得到终止状态。

作者对上述MDP执行标准训练程序，即先在偏好响应上进行SFT训练，然后使用DAA更新策略，同时记录不同DAA算法在训练过程中OOD轨迹的概率变化情况，实验结果如下图所示。

可以看出，DAA算法在训练过程中逐渐靠近了OOD轨迹，而在分布内（偏好对）轨迹的概率在训练期间降低。这揭示了DAAs的一个基本缺陷，即使在很简单的训练设置中，现有的DAA算法仍然会在OOD序列产生错误外推。因此作者认为，未来的DAA设计可能需要考虑如何引入额外的正则化项来约束OOD行为，同时能够设计新的目标函数，使问题更接近严格凸。这样可以从根本上解决强化过程中的过度优化问题。

五、总结

本文对RLHF中直接对齐算法（DAA）的过度优化问题进行了大量的分析，通过提出统一框架、设计创新性实验和理论分析，本文不仅描述了DAA中过度优化的表现，还探讨了其潜在机制。过对不同算法（DPO、IPO、SLIC）和不同模型规模（1B、2.8B、6.9B）的实验，作者观察到不同 KL 散度下一致的过度优化趋势。尽管DAA简化了传统RLHF流程，但仍面临类似的过度优化问题。这一发现对于改进大语言模型的对齐方法、设计更安全可靠的AI系统都有重要意义。此外，作者也为未来的研究指明了方向，例如改进DAA目标函数、开发新的正则化技术、深化理论分析等。

参考资料

[1] L. Gao, J. Schulman, and J. Hilton. Scaling laws for reward model overoptimization. International Conference on machine Learning, 2023.

[2] R. Rafailov, A. Sharma, E. Mitchell, C. D. Manning, S. Ermon, and C. Finn. Direct preference optimization: Your language model is secretly a reward model. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.

[3] M. G. Azar, M. Rowland, B. Piot, D. Guo, D. Calandriello, M. Valko, and R. Munos. A general theoretical paradigm to understand learning from human preferences, 2023.

[4] Y. Zhao, R. Joshi, T. Liu, M. Khalman, M. Saleh, and P. J. Liu. Slic-hf: Sequence likelihood calibration with human feedback. arXiv preprint arXiv:2305.10425, 2023.

llustration From IconScout By Rini Astiyah

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

service@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.