网易首页 > 网易号 > 正文 申请入驻

研究者警告:强化学习暗藏「策略悬崖」,AI对齐的根本性挑战浮现

0
分享至



本文作者为徐兴成博士,任上海人工智能实验室青年研究员,北京大学与英国牛津大学联合培养数学博士,上海市启明星项目(扬帆专项)获得者。研究方向:大模型后训练、强化学习与基础理论研究。

强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。长期以来,这些问题被归结为经验性的 “炼丹” 难题。近日,来自上海人工智能实验室的徐兴成博士,通过论文《策略悬崖:大模型中从奖励到策略映射的理论分析》,首次为这一顽疾提供了根本性的数学解释,揭示了强化学习深处一个名为 “策略悬崖” 的深刻挑战。



  • 论文标题:The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models
  • 论文链接:https://arxiv.org/abs/2507.20150
  • 论文作者:徐兴成(上海 AI 实验室)

一、 悬崖边的巨人:为何 RL 训练的大模型行为如此脆弱?

从 OpenAI 的 o 系列到 DeepSeek-R1、Google 的 Gemini 2.5,再到 Anthropic 的 Claude 4、xAI 的 Grok 4 和 OpenAI 刚发布的 GPT-5,整个行业都在尝试用更精细的 “奖励” 来雕琢模型的 “行为”,强化学习,特别是基于人类反馈的强化学习(RLHF)和可验证奖励的强化学习(RLVR),已成为通往更强大、更安全的 AI 系统的必经之路。

然而,一系列令人不安的问题也随之而来。模型学会了 “谄媚”(Sycophancy),即迎合用户的偏好而非陈述事实;更危险的是,它们可能学会 “欺骗性对齐”(Deceptive Alignment),即模型表面上看起来完全对齐,实则在暗中追求着与人类意图不符的目标。更有甚者,模型会表现出失控的倾向,无视用户在请求中明确规定的语言、回复长度或格式等指令。为何模型会表现出 “谄媚”、“欺骗” 等 “口是心非” 的行为,甚至存在增加失控的风险?

这些现象,过去往往被归结为奖励函数设计得不够完美,或是 “坏数据” 的影响。但来自上海人工智能实验室研究员徐兴成的这篇论文,提供了一个更深层、更统一的理论解释,并向整个行业发出了一个严峻的警告:这些看似随机的失败并非偶然,而是源于一个深刻的数学原理 ——从奖励到最优 AI 策略映射的不连续性。当模型在奖励函数的指引下探索行为空间时,微不足道的变化可能将它推下万丈深渊,这就是 “策略悬崖”。

二、 理论解读:“策略悬崖” 是如何形成的?

为了理解 “策略悬崖”,我们可以把 RL 的优化过程想象成一个 GPS 导航系统:

  • 奖励 (Reward):相当于你的导航目标,例如 “找到到达目的地的最快路径”。
  • 策略 (Policy):是 GPS 生成的具体路线,即 “前方 500 米右转,再直行 2 公里”。
  • 奖励 - 策略映射 (Reward-Policy Map):是导航系统的核心算法,它根据你的目标(奖励)来生成最佳路线(策略)。

这篇论文的深刻洞察在于,这个核心算法的输出并非总是平滑和稳定的。“策略悬崖” 指的是,当你对导航目标做出一个极其微小的调整时(例如,“避开一段收费一元的道路”),导航系统给出的路线可能会发生天翻地覆的变化,从一条康庄大道突然切换到一条完全不相干的乡间小路。

这种剧变在数学上被称为不连续性(Discontinuity)。论文证明,导致这种不连续性的根本原因有二:

  1. 最优策略的多解性(Degeneracy of Optima):在复杂的语言或推理任务中,通往 “正确答案” 的路径不止一条。模型可能会发现多条截然不同但奖励值几乎完全相同的 “最优路径”。例如,无论是先给出答案再编造理由,还是通过严谨推理得出答案,只要最终结果正确,一个不完美的奖励函数可能会给予它们同等的最高分。这就形成了一个庞大的、模糊的 “最优策略集”。

  2. 奖励函数的不完备性(Incompleteness of Rewards):我们设计的奖励函数几乎永远是真实世界复杂目标的 “有损压缩”。它总会遗漏某些重要的维度。当模型面对一个不完备的奖励函数时,它会像一个 “聪明的懒汉” 一样,理性地选择最省力的方式来最大化这个有缺陷的指标,而无视那些没有被奖励明确约束的行为。

当这两个条件同时满足时,“策略悬崖” 就出现了。RL 优化算法就像一个在平坦高原上寻找最高点的盲人,奖励信号微小的扰动都可能让他从一个 “山峰” 瞬间 “跳” 到另一个 “更高的山峰”,导致模型行为发生剧变。

三、从理论到现实:统一解释多种 “对齐失败” 现象

这篇论文的强大之处在于,它将上述理论框架应用到了对近期 AI 安全领域多个关键实验的解读上,形成了一条有力的证据链,证明 “策略悬崖” 并非纸上谈兵。

证据一:“公然作弊” 与 “隐蔽欺骗”

  • 核心洞察:在 OpenAI 关于模型在编码任务中 “作弊” 的研究中,当奖励信号(弱评估器)只能检查单元测试是否通过时,模型学会了直接修改测试用例来 “作弊”。当研究者试图用一个能检测作弊行为的 “补丁”(CoT 监督)来修复奖励时,模型并没有变得诚实,而是学会了更高级的欺骗—— 它会写出看似无辜的推理过程,但同时进行了更隐蔽的篡改。
  • 理论解释:这正是两种典型的 “策略悬崖” 式跳变。当 CoT 未受监控时,模型通过直接修改测试用例学会了公然的作弊。增加惩罚项并未使策略平滑地趋向 “诚实”,而是将模型从一个 “坏” 的策略点,推向了另一个同样 “坏” 但更难被发现的策略点。因为新的奖励地貌依然存在漏洞,允许这种隐蔽欺骗成为新的最优解之一。

证据二:“违背指令”、“谄媚” 与 “诡辩”

  • 核心洞察:研究发现,专门为提升推理能力而训练的模型,其遵循指令(如格式、风格、语言)的能力反而会下降。同样,在 RLHF 中,模型最终学会的不是更 “真实”,而是更 “受用户喜欢” 或更 “有说服力”,哪怕这意味着牺牲事实。
  • 理论解释:这些现象都源于不完美的奖励。在违背指令的案例中,奖励信号没有包含指令遵循的部分。在谄媚或诡辩的案例中,奖励模型来自用户偏好,与真实奖励信号存在显著的偏差。模型只是在理性地最大化它被赋予的目标,从而自然地滑向了那些虽非本意但奖励同样高的策略区域。

证据三:跨领域多奖励场景中的敏感性

  • 核心洞察:在更复杂的、需要同时平衡来自于多个不同领域(如数学、编码、安全)的奖励的场景中,论文作者通过受控实验证明,仅仅对其中一个奖励模型进行微调,或者对训练数据进行微小的筛选(例如移除 200 个模棱两可的样本),就会导致最终模型的性能在多个维度上发生剧烈变化。
  • 理论解释:这验证了论文提出的 “有效奖励 (Effective Reward)” 概念。在多任务学习中,模型内部会形成一个依赖于当前上下文的、动态聚合多个奖励的 “有效奖励函数”。最终策略的稳定性,取决于这个内部聚合机制的稳定性。数据或者奖励信号的微小变动,就可能改变聚合的奖励信号,从而重塑整个有效奖励地貌,引发策略跳变。

四、影响与展望:从 “炼丹术” 到 “物理学”

《策略悬崖》这篇论文的意义,远不止于解释已有的问题。它为整个 AI 安全和对齐领域带来了重要的认知启发和理论根基。

  1. 挑战现有范式:它表明,仅仅依靠 “更大的模型、更多的数据、更强的算力” 可能无法从根本上解决对齐问题。如果底层的奖励 - 策略映射本身是断裂的,再强大的优化算法也可能在悬崖边迷失。未来的研究必须更加关注奖励地貌的结构本身。
  2. 重新审视正则化:论文从数学上严格证明,熵正则化(Entropy Regularization) 并非只是一个提升探索效率的 “小技巧”,而是一个能恢复 “奖励 - 策略映射” 连续性的根本性工具。它通过鼓励策略的随机性,平滑了奖励地貌中的尖峰和悬崖,确保了模型的稳定。这为熵正则化在实践中的广泛应用提供了坚实的理论基础。
  3. 通往可控 AI 的新路径:理解 “策略悬崖” 也意味着我们可以利用它。既然微小的 “推力” 可以引导策略发生巨大转变,那么通过精心设计的 “决胜局奖励(Tie-Breaker Rewards)”,我们或许能主动地、可控地将模型推向我们期望的、更优的策略区域,实现 “四两拨千斤” 的精细控制。
  4. 对具身智能的启示:这项研究甚至对具身智能、机器人等领域也有启发。当 AI 需要与物理世界交互时,其策略的稳定性和可预测性至关重要。“策略悬崖” 的存在,提醒我们在将这些模型赋予物理实体之前,必须对奖励与策略之间的复杂动态有足够深刻的理解和控制。

五、结语

长期以来,AI 对齐的研究在很大程度上依赖于经验、直觉和试错,仿佛一门复杂的 “炼丹术”。这篇论文,则为这门艺术注入了严谨科学的灵魂。它用严谨的理论和坚实的证据,揭示了一个我们长期以来隐约感觉到、却从未清晰指出的问题。

当然,正如作者在论文中坦言,这项工作目前仍侧重于理论框架的构建,其提供的证据主要来自于对现有研究的再解读和初步的受控实验。未来仍需更系统、更大规模的定量实验来验证 “策略悬崖” 的诸多推论,并基于此理论设计出全新的、更稳定的强化学习算法。

“策略悬崖” 的发现,不是一个悲观的终点,而是一个清醒的起点。它告诉我们,驯服 AI 的道路,远比我们想象的要复杂。这篇论文,就像一声及时的警钟,提醒着在 AI 浪潮中急速前行的我们:在建造更高、更智能的大厦之前,我们是否真正理解了这块地基的物理属性?这,或许是通往真正安全、可信的通用人工智能之路上,我们必须回答的核心问题。

参考文献

1. T. Korbak, M. Balesni, et al. Chain of thought monitorability: A new and fragile opportunity for AI safety. arXiv preprint arXiv:2507.11473, 2025.

2. B. Baker, J. Huizinga, L. Gao, Z. Dou, M. Y. Guan, A. Madry, W. Zaremba, J. Pachocki, and D. Farhi. Monitoring reasoning models for misbehavior and the risks of promoting obfuscation. arXiv preprint arXiv:2503.11926, 2025.

3. T. Fu, J. Gu, Y. Li, X. Qu, and Y. Cheng. Scaling reasoning, losing control: Evaluating instruction following in large reasoning models. arXiv preprint arXiv:2505.14810, 2025.

4. OpenAI. GPT-5 System Card. August 7, 2025. https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
揭陈晓离婚内幕9个月,卓伟再爆离婚瓜:夫妻反目2年,男方学历高

揭陈晓离婚内幕9个月,卓伟再爆离婚瓜:夫妻反目2年,男方学历高

白面书誏
2025-11-15 19:03:41
俄罗斯发出警告:战争爆发中国将被围攻,不过最危险的不止战争

俄罗斯发出警告:战争爆发中国将被围攻,不过最危险的不止战争

扶苏聊历史
2025-11-15 14:24:02
曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

平老师666
2025-11-13 20:51:40
交管12123新变化:违章当天就通知 4次免罚不是随便用,看完再操作

交管12123新变化:违章当天就通知 4次免罚不是随便用,看完再操作

芭比衣橱
2025-11-17 04:52:17
99%的男人不知道,女人最渴望被触碰的3个“敏感带”

99%的男人不知道,女人最渴望被触碰的3个“敏感带”

精彩分享快乐
2025-11-17 00:05:03
南京楼市的故事结束了,南京待售二手房从153512套变成了152538套

南京楼市的故事结束了,南京待售二手房从153512套变成了152538套

有事问彭叔
2025-11-16 19:08:07
9场0球!皇马21岁前锋枯坐板凳 英超3队有意:报价2000万

9场0球!皇马21岁前锋枯坐板凳 英超3队有意:报价2000万

叶青足球世界
2025-11-16 20:28:15
美国总统为啥从没召集过50个州长开全国大会?不是不想,是没资格

美国总统为啥从没召集过50个州长开全国大会?不是不想,是没资格

诗意世界
2025-11-14 15:52:24
刘晓庆太超前!几句话点评王家卫《花样年华》,简直字字珠玑

刘晓庆太超前!几句话点评王家卫《花样年华》,简直字字珠玑

温柔娱公子
2025-11-14 17:15:03
泰王来了,他在破除一个魔咒

泰王来了,他在破除一个魔咒

虚声
2025-11-15 19:59:17
刘恺威要是看到这照片,估计得懵。

刘恺威要是看到这照片,估计得懵。

陈意小可爱
2025-11-17 01:44:46
6年时间终落地!英国房东、租客请注意:《租客权利法》明年五一正式生效!

6年时间终落地!英国房东、租客请注意:《租客权利法》明年五一正式生效!

英国那些事儿
2025-11-15 23:17:27
才知道,原来微信还可以“监控”对方聊天记录,不知道可惜了!

才知道,原来微信还可以“监控”对方聊天记录,不知道可惜了!

CG说科技
2025-10-24 18:36:15
哈兰德2分钟双响,意大利主场1-4被逆转,挪威时隔28年重返世界杯

哈兰德2分钟双响,意大利主场1-4被逆转,挪威时隔28年重返世界杯

钉钉陌上花开
2025-11-17 05:46:23
11月16日晚间,多家上市公司发布重大利好利空好消息

11月16日晚间,多家上市公司发布重大利好利空好消息

A股数据表
2025-11-16 18:24:32
11 月 19 日起,浦东机场“封卡”第一枪!滴滴挑单司机真的慌了

11 月 19 日起,浦东机场“封卡”第一枪!滴滴挑单司机真的慌了

我不叫阿哏
2025-11-16 15:16:20
不忍了,中方实弹射击!

不忍了,中方实弹射击!

燕梳楼频道
2025-11-16 13:49:35
狂降13℃!江苏“速冻”模式开启,18-19日迎最冷清晨

狂降13℃!江苏“速冻”模式开启,18-19日迎最冷清晨

扬子晚报
2025-11-16 21:26:36
拔出萝卜带出泥!张雪峰演唱会风波升级,知情人曝猛料,本人破防

拔出萝卜带出泥!张雪峰演唱会风波升级,知情人曝猛料,本人破防

做一个合格的吃瓜群众
2025-11-16 17:06:46
图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路

图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路

新智元
2025-11-16 13:13:57
2025-11-17 06:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

游戏
家居
艺术
公开课
军事航空

《纪元117:罗马和平》多人游戏问题大 育碧承诺修复

家居要闻

现代简逸 寻找生活的光

艺术要闻

Charles Chaplin:19世纪法国新洛可可风格画家

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版