网易首页 > 网易号 > 正文 申请入驻

RLHF不够用了,OpenAI设计出了新的奖励机制

0
分享至

机器之心报道

机器之心编辑部

OpenAI 的新奖励机制,让大模型更听话了。

自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。

为了确保 AI 系统安全运行并与人类价值观保持一致,我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是,收集这些常规和重复任务的人类反馈通常效率不高。此外,如果安全政策发生变化,已经收集的反馈可能会过时,需要新的数据。

我们能否构建一种新的机制来完成这些任务?近日,OpenAI 公布了一种教导 AI 模型遵守安全政策的新方法,称为基于规则的奖励(Rule-Based Rewards,RBR)。

相关论文已经放出。

  • 论文标题:Rule Based Rewards for Language Model Safety
  • 论文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
  • 代码链接:https://github.com/openai/safety-rbr-code-and-data

论文作者之一、OpenAI 安全系统负责人 Lilian Weng 表示,「RBR 可以自动执行一些模型微调。传统上, 我们依赖于来自人类反馈的强化学习作为默认的对齐训练方法来训练模型,这确实有效。然而在实践中,我们面临的挑战是,我们花了很多时间讨论政策的细节,而到最后,政策可能已经发生了变化。」

RBR 根据一组安全规则提供 RL 信号,使其更容易适应不断变化的安全政策,而无需严重依赖人类数据。此外,借助 RBR,研究者能够以更统一的视角看待安全性和模型能力,因为更强大的分级模型可以提供更高质量的 RL 信号。

OpenAI 表示自 GPT-4 发布以来,他们一直将 RBR 用作安全堆栈的一部分,包括 GPT-4o mini,并计划在未来的模型中实施它。

为什么要提出 RBR?

随着大型语言模型(LLM)功能的增强和普及,确保其安全性和对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上,例如基于人类反馈的强化学习(RLHF)。

然而,仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费钱又费时,而且随着模型能力的提高或用户行为的改变,安全准则也会发生变化,这些数据可能会过时。即使要求相对稳定,也很难向注释者传达。安全方面的情况尤其如此,因为所需的模型响应非常复杂,需要对是否响应以及如何响应请求做出细微差别。如果说明不够明确,注释者可能不得不依赖个人偏见,从而导致超出预期的模型行为,如变得过于谨慎,或以不理想的风格(如评判)做出响应。

例如,在 OpenAI 的一次实验中,一些注释者在对用户有关自残请求的可能回复进行排序时,偏向于将用户转到美国自杀热线,而这对美国以外的用户没有帮助。要解决这些问题,往往需要重新标注或收集新数据,这既昂贵又耗时。

为了解决这些问题,使用 AI 反馈的方法最近越来越受欢迎,其中最突出的是宪法 AI(Constitutional AI)。这些方法利用 AI 反馈合成训练数据,与人类数据相结合,用于监督微调(SFT)和奖励模型(RM)训练步骤。不过,在宪法 AI 和其他方法中,「宪法」涉及「选择危害较小的响应」等一般性指导原则,AI 模型有很大的自由裁量权来决定什么是有害的。在现实世界的部署中,我们需要执行更详细的政策,规定应该拒绝哪些提示,以及拒绝的方式是什么。

因此,在这篇论文中,OpenAI 的研究者提出了一种新的 AI 反馈方法 ——RBR,它允许人类详细说明所需的模型响应,类似于给人类注释者的指示。

RBR 的工作原理是怎样的?

实施 RBR 的方法包括定义一组命题 —— 关于模型响应中期望或不期望方面的简单陈述,例如「带有评判性」、「包含不允许的内容」、「提及安全政策」、「免责声明」等。然后,这些命题被用来形成规则,这些规则被精心设计以捕捉在各种场景中安全和适当响应的细微差别。

例如,在面对不安全请求时,拒绝(如「抱歉,我无法帮你」)是一种期望的模型响应。相关规则将规定,拒绝应「包含简短的道歉」并且「应说明无法遵从」。

研究团队设计了三类期望的模型行为,用于处理有害或敏感的话题。根据安全政策,不同的请求对应不同的模型响应类型。

图中内容由 AI 工具翻译,仅供参考。

以下是一些命题的简化示例,以及它们如何映射理想行为或非理想行为到不同响应类型的。

图中内容由 AI 工具翻译,仅供参考。

研究者在下表中提供了一些在实验中训练模型所完成的示例。

图中内容由 AI 工具翻译,仅供参考。

评估器是一个固定的语言模型,根据响应遵循规则的程度对其进行评分,从而使 RBR 方法能够灵活适应新规则和安全政策。

RBR 使用这些评分来拟合一个线性模型,该模型的权重参数是从一个已知理想响应类型的小数据集,以及对应的期望做法和不期望做法中学习的。

这些 RBR 奖励随后与来自「仅提供帮助」的奖励模型的奖励结合起来,作为 PPO 算法的额外信号,以鼓励模型遵循安全行为策略。

该方法允许研究者对模型的行为进行精细控制,确保其不仅避免有害内容,而且以一种既表示尊重又有帮助的方式进行。

强化学习过程中 RBR 与传统奖励模型的集成。

RBR 好用吗?

实验显示,经过 RBR 训练的模型表现出与经过人类反馈训练的模型相当的安全性能。前者还减少了错误地拒绝安全请求(即过度拒绝)的情况。

此外,RBR 还显著减少了对大量人工数据的需求,使训练过程更快、更具成本效益。

随着模型能力和安全准则的发展,RBR 可以通过修改或添加新规则快速更新,而无需进行大量重新训练。

该图显示了有用性(以模型正确遵循安全提示的百分比来衡量)与安全性(以模型正确拒绝不安全提示的百分比来衡量)之间的权衡。对于这两个指标,值越高越好。右上角标记了有用性和安全性之间的完美平衡。有用性基线不使用安全性 RBR,往往更有用但安全性较低。人类基线是在仅有帮助和人工注释的安全性数据上进行训练的,往往非常安全但有用性较低。借助 RBR,OpenAI 的目标是使模型既安全又有用。

RBR 有哪些局限?

尽管规则基础的系统(RBR)在有明确、直观规则的任务中表现良好,但在更主观的任务中(如撰写高质量的文章),应用 RBR 可能会有些棘手。然而,RBR 可以与人类反馈结合起来,以平衡这些挑战。例如,RBR 可以强制执行特定的准则(如「不要使用俚语」或模型规范中的规则),而人类反馈可以帮助处理更细微的方面(如整体连贯性)。RBR 的强度被优化为既能正确执行安全偏好,又不会过度影响最终的奖励评分 —— 这样,RLHF 奖励模型仍然可以在如写作风格等方面提供强有力的信号。

伦理考量:将安全检查从人类转移到 AI 上可能会减少对 AI 安全的人工监督,并且如果使用有偏见的模型提供 RBR 奖励,还可能放大潜在的偏见。为了解决这个问题,研究人员应该仔细设计 RBR,以确保其公平和准确,并考虑结合使用 RBR 和人类反馈,以最大限度地减少风险。

OpenAI 表示,RBR 不仅限于安全训练,它们可以适应各种任务,其中明确的规则可以定义所需的行为,例如为特定应用程序定制模型响应的个性或格式。下一步,OpenAI 还计划进行更广泛的消融研究,以更全面地了解不同的 RBR 组件、使用合成数据进行规则开发以及人工评估,以验证 RBR 在包括安全以外的其他领域的各种应用中的有效性。

参考内容:

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国民党最倒霉的高官:本已逃到台岛,却被蒋介石赶回云南

国民党最倒霉的高官:本已逃到台岛,却被蒋介石赶回云南

云霄纪史观
2026-07-05 03:09:03
沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

细说职场
2026-07-04 22:25:07
上周面试过了一个候选人,薪资也谈到58k*16了。结果背调的时候,前公司给了句:不建议录用。offer悬了,前司的离职评价真那么重要么

上周面试过了一个候选人,薪资也谈到58k*16了。结果背调的时候,前公司给了句:不建议录用。offer悬了,前司的离职评价真那么重要么

励职派
2026-07-01 22:50:59
要坚信,越便宜的房子越没人要

要坚信,越便宜的房子越没人要

真叫卢俊
2026-07-02 11:39:46
王楚钦也没想到,男单全军覆没不到24小时,樊振东传来重磅好消息

王楚钦也没想到,男单全军覆没不到24小时,樊振东传来重磅好消息

大鱼简科
2026-07-04 16:42:52
“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

熙熙说教
2026-07-01 19:29:52
8500 万天才备选!阿森纳补强终极 B 计划,卡卡盛赞新佩德里

8500 万天才备选!阿森纳补强终极 B 计划,卡卡盛赞新佩德里

一隅非生
2026-07-05 06:17:58
美军臆测解放军10月“收复台湾”,决定在韩国、日本、菲律宾与澳大利亚部署弹药战车等作战物资,一旦发生紧急情况,即可从本土调兵作战

美军臆测解放军10月“收复台湾”,决定在韩国、日本、菲律宾与澳大利亚部署弹药战车等作战物资,一旦发生紧急情况,即可从本土调兵作战

每日经济新闻
2026-07-04 16:59:47
点射打破僵局!姆巴佩5场7球追平梅西 世界杯淘汰赛11球历史第1人

点射打破僵局!姆巴佩5场7球追平梅西 世界杯淘汰赛11球历史第1人

风过乡
2026-07-05 06:41:39
眼看越来越多的人死亡,法国什么都顾不上了,赶快找中国“帮忙”

眼看越来越多的人死亡,法国什么都顾不上了,赶快找中国“帮忙”

椰青美食分享
2026-07-04 14:36:59
赖特:佛得角证明阿根廷可以被击败,罗梅罗上半场就该拿黄牌

赖特:佛得角证明阿根廷可以被击败,罗梅罗上半场就该拿黄牌

懂球帝
2026-07-04 20:57:32
73天闪电过会!宇树科技创造IPO纪录,人形机器人核心标的全梳理

73天闪电过会!宇树科技创造IPO纪录,人形机器人核心标的全梳理

小白鸽财经
2026-07-04 20:30:03
理查兹:萨拉赫至今还欠我钱,当年在佛罗伦萨我天天送他训练

理查兹:萨拉赫至今还欠我钱,当年在佛罗伦萨我天天送他训练

懂球帝
2026-07-04 18:28:46
1952年女护士冒险抢回黄继光遗体,晚年遗憾叹息:当年忘了一件事

1952年女护士冒险抢回黄继光遗体,晚年遗憾叹息:当年忘了一件事

凉州辞
2026-07-04 13:45:03
日本终于有人敢捅破窗户纸!台湾问题不解决,日本永远也别想翻身

日本终于有人敢捅破窗户纸!台湾问题不解决,日本永远也别想翻身

潘冹旅行浪子
2026-07-05 05:16:53
中国44年来首次试射洲际导弹,全球反应堪比好莱坞大片

中国44年来首次试射洲际导弹,全球反应堪比好莱坞大片

烽火三月佳人三千
2026-06-25 14:21:42
同曦商业头脑拉满!租借王岚嵚得祝铭震,现交易祝铭震获千万报酬

同曦商业头脑拉满!租借王岚嵚得祝铭震,现交易祝铭震获千万报酬

篮球资讯达人
2026-07-04 14:12:24
总统府被围,马科斯不敢出门,菲国数万人反了,莎拉不是孤军奋战

总统府被围,马科斯不敢出门,菲国数万人反了,莎拉不是孤军奋战

透视到底
2026-07-05 06:29:38
去省厅报到遇前妻,她羞辱我不懂规矩,我坐上厅长位:你再说一遍

去省厅报到遇前妻,她羞辱我不懂规矩,我坐上厅长位:你再说一遍

千秋文化
2026-07-02 19:53:21
“整个人被撕成两半!”男子炒菜时突然僵住,ICU抢回一命,夏天,记住这4件“保命小事”

“整个人被撕成两半!”男子炒菜时突然僵住,ICU抢回一命,夏天,记住这4件“保命小事”

都市快报橙柿互动
2026-07-02 23:48:45
2026-07-05 07:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
家居
艺术
时尚
军事航空

韩版“全境封锁”PC配置降低 内存改为32GB起步

家居要闻

传奇筑 日常诗

艺术要闻

八大山人迷之印章 你认得几个?

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版