警惕！AI 已学会「阳奉阴违」——OpenAI 研究发现：罚得越狠，AI 作弊就越隐蔽|黑客|翻译|推理|openai

警惕！AI 已学会「阳奉阴违」——OpenAI 研究发现：罚得越狠，AI 作弊就越隐蔽

2025-04-03 10:21:58　来源: AI科技大本营

北京举报

分享至

【CSDN 编者按】AI 的“狡猾”程度正在超出人们的想象。OpenAI 最近的一项研究显示，单纯依靠惩罚机制并不能阻止 AI 撒谎、作弊，反而会促使它学会隐藏自己的违规行为。而这项研究带给产业界的启示远超技术层面：如果 AI 的“道德”只是伪装给人类看的表演，那么现有安全框架是否在自掘坟墓？

原文链接：https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻译 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

根据 ChatGPT 创建者 OpenAI 最近发布的一项研究显示，为防止 AI 模型发生撒谎或作弊的行为而设置的一些惩罚机制，并不能真正阻止它的不当行为——反而只会迫使它学会如何更好地隐蔽自己的欺骗手段。

（CSDN 付费下载自视觉中国）

大模型的"作弊基因"难根治

自 2022 年底面向公众推出以来，大语言模型（LLM）已屡次暴露出令人不安的行为模式：从常规的说谎作弊、隐藏操纵行为，到更极端的威胁要杀人、窃取核武器密码，甚至还策划了一场致命的疫情……这些 AI 的“恶劣”行为，可谓层出不穷。

现在，OpenAI 的新实验证明，在训练过程中清除这些不当行为可能比最初设想的更加困难。

在这项实验中，研究人员让一个未公开的 AI 模型执行一系列任务，而这些任务均可以通过作弊、撒谎或采取其他捷径来完成。实验结果显示，该 AI 模型采用了“奖励黑客（reward hacking）”策略——即通过作弊来最大化其奖励。

然而，当研究人员试着因此惩罚这个 AI 模型时，它并没有因此修正自己的行为，而是将其作弊行为变得更加隐蔽。OpenAI 在官方博文中详细描述了这项研究，但该研究尚未经过同行评审。

研究人员在博客文章中写道：“对于前沿推理模型来说，它们通常会在思维链（Chain-of-Thought）中非常明确地陈述自己的意图。例如，它们甚至会直接表述自己要作弊，比如‘让我们来黑掉它吧’。”

虽然开发者可以监控和标记 AI 的不当行为，但研究人员也补充道，“模型的‘自然可监控性’非常弱”：如果对思维链直接施加强监督，模型就会学会隐藏自己的意图，同时继续表现出不当行为。

AI 如何在思维链中隐藏欺骗行为？

推理模型（Reasoning Models），如 ChatGPT 的 o1 和 o3-mini，是标准 LLM 的升级版本。它们采用“思维链”的方法，能够回溯和重新评估其逻辑，从而在解决更复杂任务时表现得更准确。在思维链过程中，模型会用自然语言清晰地记录每一步推理，使得其决策过程更加透明。

在这项研究中，研究人员用 GPT-4o 监督一个未公开的前沿推理模型的训练过程，并观察其执行多项编码任务的情况。在某些情况下，该推理模型发现作弊更容易、回报更大时，就会在其思维链中明确表示自己正在作弊。例如，在某个任务中，它提前终止了程序并虚假报告任务已成功；在另一个任务中，它仅生成了一个空壳文件来应付检查（文件名正确但内容为空）。

当研究人员尝试惩罚该 AI 模型时，其表现虽有所改善，但“奖励黑客（reward hacking）”策略和错误输出仍大量存在。更令人担忧的是，该推理模型还学会了在思维链中隐藏自己的作弊行为，使负责监督的 GPT-4o 无法再通过思维链检测其异常。

简而言之，这个 AI 推理模型从“明目张胆”进化成了“阳奉阴违”。正如研究人员所说：“即使在施加思维链监督的情况下，AI 仍在学习如何进行奖励黑客，只不过它现在的作弊行为变得无法被监测 AI 发现了，因为它已经学会了在思维链中隐藏自己的意图。”

研究建议：对推理型 AI 慎用强监督机制

由于很难判断 AI 的思维链是否被篡改，OpenAI 研究人员建议：所有使用推理模型的开发者，应避免对其思维链施加强监督——尤其是在 AI 未来可能达到或超过人类智能的情况下，这一点尤为关键。

“这种对推理模型的监督方法，只会换取微小的能力提升——相对其可能带来的隐患而言，并不值得。因此，我们建议在对思维链优化方法有更深入的理解之前，不要对其施加过强的监督。”

【活动分享】2025 全球机器学习技术大会（ML-Summit）将于 4 月 18-19 日在上海举办。大会共 12 大主题、50+ 位来自学术界和一线技术实战派的顶尖专家，聚焦下一代大模型技术和生态变革技术实践。详情参考官网：http://ml-summit.org/。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.