网易首页 > 网易号 > 正文 申请入驻

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF漏洞,网友抢着看

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。

当然是发~博~客。

前脚刚发出来,后脚就被大伙儿齐刷刷码住,评论区一堆人排队加待读清单。

还有不少OpenAI前同事转发推荐。

这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。

主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

她强调奖励黑客行为在大模型的RLHF训练中的潜在影响,并呼吁更多研究关注理解和缓解这一问题。

在我看来,这是现实世界部署更多自主AI模型应用的主要障碍。

尝试定义Reward Hacking

传统概念强化学习中,Agent利用奖励函数中的缺陷或模糊性来获得高额奖励,而没有真正学习或完成预期任务,是一个常见的问题。

她举的例子包括:

  • 机器人把手放在物体和摄像头之间,欺骗人类已经抓住物体了
  • 以跳的更高为目标的Agent在物理模拟器中利用程序bug,完成不符合物理规律的跳跃。

在大模型中,Reward hacking则可能表现为:

  • 摘要生成模型利用ROUGE评估指标的缺陷获得高分,但生成的摘要难以阅读。
  • 代码模型篡改单元测试代码,甚至直接修改奖励本身。

翁荔认为Reward hacking的存在有两大原因:

  • 强化学习环境通常不完美
  • 准确指定奖励函数本质上是一项艰巨的挑战

语言模型兴起的时代,并且RLHF成为对齐训练事实上的方法,语言模型强化学习中的Reward hacking表现也相当令她担忧。

过去学术界对这个话题的研究都相当理论,专注于定义或证明Reward hacking的存在,然而关于实际该如何缓解这种现象的研究仍然有限。

她写这篇博客,也是想呼吁更多研究关注、理解和缓解这一问题。

为了定义Reward Hacking,翁荔首先回顾了近年来学术界提出的相关概念

包括奖励腐败(Reward corruption)、奖励篡改(Reward tampering)等等。

其中,Reward hacking这个概念,早在2016年由Anthropic创始人Dario Amodei共一论文提出。

当时他和另一位联创Chris Olah还在谷歌大脑,且已经与OpenAI联创John Schulman展开合作。

如今他们仨又在Anthropic汇合了……

言归正传,综合一系列研究,翁荔认为Reward Hacking在较高层次上可分为两类:

  • 环境或目标设定不当:由于环境设计或奖励函数存在缺陷,导致Agent学到非预期行为。
  • 奖励篡改:Agent学会直接干预奖励机制本身。

同时她也认为设计有效的奖励塑造机制本质上很困难。

与其责备设计不当的奖励函数,不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素,设计一个好的奖励函数本身就是一项内在挑战。

另外在分布外环境中测试强化学习Agent时,还可能出现以下问题:

  • 模型即使有正确的目标也无法有效泛化,这通常发生在算法缺乏足够的智能或能力时。
  • 模型能够很好地泛化,但追求的目标与其训练目标不同。

那么,为什么会出现Reward Hacking?根据Amodei等人2016年的分析成因包括:

  • 环境状态和目标的不完全可观测性,导致奖励函数无法完美表征环境。
  • 系统复杂性使其易受攻击,尤其是被允许执行改变环境的代码时。
  • 涉及抽象概念的奖励难以学习或表述。
  • RL的目标就是高度优化奖励函数,这与设计良好的RL目标之间存在内在”冲突”。

此外,观察到的Agent行为可能与无数个奖励函数相一致,准确识别其真正优化的奖励函数在一般情况下是不可能的。

翁荔预计随着模型和算法的日益复杂,Reward Hacking问题会更加普遍。

更智能的模型更善于发现并利用奖励函数中的”漏洞”,使Agent奖励与真实奖励出现偏差。相比之下,能力较弱的算法可能无法找到这些漏洞。

那么,大模型时代的Reward Hacking,又有哪些独特之处?

语言模型中的Reward Hacking

在RLHF训练中,人们通常关注三种类型的奖励:

  • 人们真正希望大模型优化的内容,被称为黄金奖励(Gold reward)
  • 人类奖励(Human reward),实际用来评估大模型,在数据标注任务中来自个体人类,且标注有时间限制,并不能完全准确地反映黄金奖励
  • 代理奖励(Proxy reward),也就是在人类数据上训练的奖励模型所预测的得分,继承了人类奖励的所有弱点,加上潜在的建模偏差

翁荔认为,RLHF通常优化代理奖励分数,但人们最终关心的是黄金奖励分数。

例如,模型可能经过优化,学会输出看似正确且有说服力的回答,但实际上却是不准确的,这可能会误导人类评估者更频繁地批准其错误答案。

换句话说,由于RLHF,“正确”与“对人类看似正确”之间出现了分歧。

在一项RLHF研究中,使用了大模型竞技场ChatbotArena数据训练奖励模型,就出现AI更擅长说服人类它们是正确的情况:

  • RLHF提高了人类对AI回答的认可度,但不一定就能提高AI的正确率。
  • RLHF削弱了人类对AI回答的评估能力,评估的错误率更高。
  • RLHF使错误的AI回答对于人类更有说服力,表现为评估的假阳性率显著增加。

此外,随着大模型越来越多作为评估者对其他模型提供反馈,也可能进一步引入偏差。

翁荔认为这种偏差尤其令人担心,因为评估模型的输出被用作奖励信号的一部分,可能容易被利用。

比如2023年一项实验中,简单改变候选答案的顺序就能改变结果,GPT-4倾向于给第一个答案高分数,ChatGPT(3.5)更倾向于第二个。

另外,即使不更新参数,大模型仅靠上下文学习能力也可能产生Reward hacking现象,称为ICRH(In-context Reward Hacking)。

ICRH与传统Reward Hacking还有两个显著不同:

  • ICRH在自我优化设置中的测试时间通过反馈循环发生,而传统Reward hking行为在训练期间发生。
  • 传统Reward hacking行为出现在Agent专注于一项任务时,而ICRH则是由完成通用任务驱动的。

翁荔认为目前还没有避免、检测或预防ICRH的有效方法,仅仅提高提示的准确性不足以消除ICRH,而扩大模型规模可能会加剧ICRH。

在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

缓解措施

最后翁荔表示尽管有大量文献讨论奖励黑客现象,但少有工作提出缓解奖励黑客的措施。

她简要回顾了三种潜在方法。

一种是改进强化学习算法

前面提到的Anthropic创始人Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中,指出了一些缓解方向,包括:

对抗性奖励函数(Adversarial reward functions)、模型预测(Model Lookahead)、对抗性盲化(Adversarial blinding)、谨慎的工程设计(Careful engineering)、奖励上限(Reward capping)、反例抵抗(Counterexample resistance)、多奖励组合(Combination of multiple rewards)、奖励预训练(Reward pretraining)、变量不敏感性(Variable indifference)、陷阱机制(Trip wires)。

此外,谷歌DeepMind团队此前提出了“解耦批准”的方法来防止奖励篡改。

在这种方法中,收集反馈的行为与实际执行的行为是分开的,反馈会在行为执行前就给出,避免了行为对自己反馈的影响。

另一种潜在缓解措施是检测奖励黑客行为

将奖励黑客行为视为一个异常检测任务,其中检测器应标记出不一致的实例。

给定一个可信策略和一组手动标注的轨迹回放,可以基于可信策略和目标策略这两个策略的动作分布之间的距离构建一个二分类器,并测量这个异常检测分类器的准确性。

之前有实验观察到,不同的检测器适用于不同的任务,而且在所有测试的强化学习环境中,没有任何测试的分类器能够达到60%以上的AUROC。

第三种潜在缓解措施是分析RLHF数据

通过检查训练数据如何影响对齐训练结果,可以获得有关预处理和人类反馈收集的见解,从而降低奖励黑客风险。

哈佛大学与OpenAI研究人员今年合作提出了一套评估指标,用于衡量数据样本特征在建模和对齐人类价值观方面的有效性。他们在HHH-RLHF数据集上进行了系统的错误分析以进行价值对齐(SEAL)。

这一篇博客关于缓解措施的部分还只是“初探”,翁荔对下一篇内容给出了预告:

希望我很快能在一篇专门的帖子中涵盖缓解措施部分

关于翁荔

翁荔是OpenAI前华人科学家、ChatGPT的贡献者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是短暂的在Facebook实习了一段时间,后担任Dropbox软件工程师。

她于2017年初加入OpenAI,在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。

在OpenAI去年底成立的安全顾问团队中,翁荔领导安全系统团队(Safety Systems),解决减少现有模型如ChatGPT滥用等问题。

最著名的Agent公式也由她提出,即:Agent=大模型+记忆+主动规划+工具使用。

其Google Scholar引用量达14000+。

一个月前,翁荔短暂回国现身2024Bilibili超级科学晚活动,以《AI安全与“培养”之道》为主题进行了演讲分享。

这也是她首次在国内大型活动场合公开发表AI主题演讲。

之后没几天,翁荔突然发推文表示决定离职OpenAI。

目前她还没有宣布下一个计划,推特签名透露会与AI安全相关。

领英和谷歌学术页面也还挂着OpenAI,均未更新。

原文:
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

参考链接:https://x.com/lilianweng/status/1863436864411341112

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蔬菜也卖不动了?现在遇冷不好卖的3种菜,摊贩:懂行的人太多了

蔬菜也卖不动了?现在遇冷不好卖的3种菜,摊贩:懂行的人太多了

阿莱美食汇
2026-01-30 20:14:56
1-0,法甲争冠热门避免2连败,反超巴黎圣日耳曼队升至榜首

1-0,法甲争冠热门避免2连败,反超巴黎圣日耳曼队升至榜首

侧身凌空斩
2026-01-31 05:46:46
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S

大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S

小娱乐悠悠
2026-01-30 09:06:05
男单四强产生!国乒三位球员止步八强,仅剩独苗,夺冠难度大

男单四强产生!国乒三位球员止步八强,仅剩独苗,夺冠难度大

湘楚风云
2026-01-31 02:12:06
澳方通告全球,强逼中企卖港口,我大使摊牌:中国不会忍气吞声

澳方通告全球,强逼中企卖港口,我大使摊牌:中国不会忍气吞声

王姐懒人家常菜
2026-01-31 07:01:03
深夜血洗!黄金突然闪崩?央行偷偷干大事,散户还在傻傻接盘?

深夜血洗!黄金突然闪崩?央行偷偷干大事,散户还在傻傻接盘?

亿通电子游戏
2026-01-30 11:58:27
斯塔默在上海致辞评价中国之行

斯塔默在上海致辞评价中国之行

阿离家居
2026-01-31 06:35:31
今起,开车到北京南站送人有大变化!

今起,开车到北京南站送人有大变化!

BRTV新闻
2026-01-30 15:30:26
改革升级?秦志戬新举动搅动国乒,王皓遭遇危机,马琳或被放弃

改革升级?秦志戬新举动搅动国乒,王皓遭遇危机,马琳或被放弃

忠橙家族
2026-01-30 20:37:56
自由身转投沙特联赛,古加社媒告别+致谢国安

自由身转投沙特联赛,古加社媒告别+致谢国安

懂球帝
2026-01-30 22:07:15
中超放开外援限制与组建企业队,中超全华班球队,你支持哪个方案

中超放开外援限制与组建企业队,中超全华班球队,你支持哪个方案

足球分析员
2026-01-30 11:05:03
总有人纳闷,王健林就算只剩100亿,为啥王思聪花钱还是那么大方

总有人纳闷,王健林就算只剩100亿,为啥王思聪花钱还是那么大方

小光侃娱乐
2025-12-10 22:10:04
68岁马良行重新出山:年龄不是问题,希望打造冠军体系

68岁马良行重新出山:年龄不是问题,希望打造冠军体系

澎湃新闻
2026-01-30 15:45:06
一天深夜,80多的胡妈妈抓着胡兵的手:放下瞿颖吧

一天深夜,80多的胡妈妈抓着胡兵的手:放下瞿颖吧

忠于法纪
2026-01-30 18:22:07
扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

有趣的火烈鸟
2025-12-31 20:39:06
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
李湘暴雷,被英国相关部门调查,如果洗钱罪名坐实,下场会很惨

李湘暴雷,被英国相关部门调查,如果洗钱罪名坐实,下场会很惨

大双
2026-01-27 09:43:03
白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

白酒会被90后00后终结吗?这是我见过最简明易懂的答案!

夜深爱杂谈
2026-01-28 18:25:29
伊朗即将挨打前,中国的作用体现出来了,美航母刚到就被“封路”

伊朗即将挨打前,中国的作用体现出来了,美航母刚到就被“封路”

像梦一场a
2026-01-30 20:45:36
2026-01-31 08:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12090文章数 176368关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

头条要闻

特朗普听到"中英破冰"秒垮脸 失心疯的全过程被拍下

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

教育
亲子
旅游
公开课
军事航空

教育要闻

“正常爹看女儿,就不可能是这种眼神”,女儿被爸爸压腿视频火了

亲子要闻

婴儿的性格是天生的吗?网友:还没生出来 大夫就说肚子里不是善茬

旅游要闻

“史上最长春节假期”:“分段式过节”流行,年初三成出行高峰

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版