网易首页 > 网易号 > 正文 申请入驻

警惕!AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽

0
分享至

【CSDN 编者按】AI 的“狡猾”程度正在超出人们的想象。OpenAI 最近的一项研究显示,单纯依靠惩罚机制并不能阻止 AI 撒谎、作弊,反而会促使它学会隐藏自己的违规行为。而这项研究带给产业界的启示远超技术层面:如果 AI 的“道德”只是伪装给人类看的表演,那么现有安全框架是否在自掘坟墓?

原文链接:https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

根据 ChatGPT 创建者 OpenAI 最近发布的一项研究显示,为防止 AI 模型发生撒谎或作弊的行为而设置的一些惩罚机制,并不能真正阻止它的不当行为——反而只会迫使它学会如何更好地隐蔽自己的欺骗手段。

(CSDN 付费下载自视觉中国)

大模型的"作弊基因"难根治

自 2022 年底面向公众推出以来,大语言模型(LLM)已屡次暴露出令人不安的行为模式:从常规的说谎作弊、隐藏操纵行为,到更极端的威胁要杀人、窃取核武器密码,甚至还策划了一场致命的疫情……这些 AI 的“恶劣”行为,可谓层出不穷。

现在,OpenAI 的新实验证明,在训练过程中清除这些不当行为可能比最初设想的更加困难。

在这项实验中,研究人员让一个未公开的 AI 模型执行一系列任务,而这些任务均可以通过作弊、撒谎或采取其他捷径来完成。实验结果显示,该 AI 模型采用了“奖励黑客(reward hacking)”策略——即通过作弊来最大化其奖励。

然而,当研究人员试着因此惩罚这个 AI 模型时,它并没有因此修正自己的行为,而是将其作弊行为变得更加隐蔽。OpenAI 在官方博文中详细描述了这项研究,但该研究尚未经过同行评审。

研究人员在博客文章中写道:“对于前沿推理模型来说,它们通常会在思维链(Chain-of-Thought)中非常明确地陈述自己的意图。例如,它们甚至会直接表述自己要作弊,比如‘让我们来黑掉它吧’。”

虽然开发者可以监控和标记 AI 的不当行为,但研究人员也补充道,“模型的‘自然可监控性’非常弱”:如果对思维链直接施加强监督,模型就会学会隐藏自己的意图,同时继续表现出不当行为。

AI 如何在思维链中隐藏欺骗行为?

推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是标准 LLM 的升级版本。它们采用“思维链”的方法,能够回溯和重新评估其逻辑,从而在解决更复杂任务时表现得更准确。在思维链过程中,模型会用自然语言清晰地记录每一步推理,使得其决策过程更加透明。

在这项研究中,研究人员用 GPT-4o 监督一个未公开的前沿推理模型的训练过程,并观察其执行多项编码任务的情况。在某些情况下,该推理模型发现作弊更容易、回报更大时,就会在其思维链中明确表示自己正在作弊。例如,在某个任务中,它提前终止了程序并虚假报告任务已成功;在另一个任务中,它仅生成了一个空壳文件来应付检查(文件名正确但内容为空)。

当研究人员尝试惩罚该 AI 模型时,其表现虽有所改善,但“奖励黑客(reward hacking)”策略和错误输出仍大量存在。更令人担忧的是,该推理模型还学会了在思维链中隐藏自己的作弊行为,使负责监督的 GPT-4o 无法再通过思维链检测其异常。

简而言之,这个 AI 推理模型从“明目张胆”进化成了“阳奉阴违”。正如研究人员所说:“即使在施加思维链监督的情况下,AI 仍在学习如何进行奖励黑客,只不过它现在的作弊行为变得无法被监测 AI 发现了,因为它已经学会了在思维链中隐藏自己的意图。”

研究建议:对推理型 AI 慎用强监督机制

由于很难判断 AI 的思维链是否被篡改,OpenAI 研究人员建议:所有使用推理模型的开发者,应避免对其思维链施加强监督——尤其是在 AI 未来可能达到或超过人类智能的情况下,这一点尤为关键。

“这种对推理模型的监督方法,只会换取微小的能力提升——相对其可能带来的隐患而言,并不值得。因此,我们建议在对思维链优化方法有更深入的理解之前,不要对其施加过强的监督。”

【活动分享】2025 全球机器学习技术大会(ML-Summit)将于 4 月 18-19 日在上海举办。大会共 12 大主题、50+ 位来自学术界和一线技术实战派的顶尖专家,聚焦下一代大模型技术和生态变革技术实践。详情参考官网:http://ml-summit.org/。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
切尔诺贝利被遗忘的60万人:拿铲子对抗核辐射,没人告诉他们真相

切尔诺贝利被遗忘的60万人:拿铲子对抗核辐射,没人告诉他们真相

网易新闻出品
2026-04-26 08:51:02
严打又回来了?但这次和80年代完全不同,普通人只需要记住这3条

严打又回来了?但这次和80年代完全不同,普通人只需要记住这3条

呼呼历史论
2026-04-26 11:00:33
嫌犯携多种武器冲向安检点后开火,特朗普再次躲过危险称与伊朗无关

嫌犯携多种武器冲向安检点后开火,特朗普再次躲过危险称与伊朗无关

澎湃新闻
2026-04-26 12:32:27
白宫开枪凶手是老师?网传其刚在洛杉矶拿了“月度优秀教师”奖

白宫开枪凶手是老师?网传其刚在洛杉矶拿了“月度优秀教师”奖

爆角追踪
2026-04-26 12:16:15
4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

4个去中国化最彻底的国家,一个已全盘西化,一个正试图恢复汉字

你是我心中最美星空
2026-04-26 07:15:09
田馥甄晒3人合体爬山,陈嘉桦带包子接地气,任家萱现在最没星味

田馥甄晒3人合体爬山,陈嘉桦带包子接地气,任家萱现在最没星味

离离言几许
2026-04-25 20:49:13
暴跌11℃!即将大反转,南京人注意了,这波很猛!

暴跌11℃!即将大反转,南京人注意了,这波很猛!

鲁中晨报
2026-04-26 11:56:06
森林狼3比1掘金:逆境中杀出了多孙穆?!

森林狼3比1掘金:逆境中杀出了多孙穆?!

张佳玮写字的地方
2026-04-26 12:02:17
强肝第一名!不是枸杞,也不是山药,而是家家户户都有的

强肝第一名!不是枸杞,也不是山药,而是家家户户都有的

华庭讲美食
2026-04-26 11:25:05
尴尬!一主管在工作群发离职感言,被下属怒怼,网友:就悄悄走吧

尴尬!一主管在工作群发离职感言,被下属怒怼,网友:就悄悄走吧

火山詩话
2026-04-26 14:15:15
想干啥?青岛两根立杆装18个摄像头24个补光灯!当地警方致歉

想干啥?青岛两根立杆装18个摄像头24个补光灯!当地警方致歉

听心堂
2026-04-25 19:00:02
小米:李某华已被行拘

小米:李某华已被行拘

南方都市报
2026-04-26 12:01:47
4月24日,一份委员建议炸了企退人的微信群:终于有人敢说了

4月24日,一份委员建议炸了企退人的微信群:终于有人敢说了

匹夫来搞笑
2026-04-26 07:12:22
从摊位被挡到全网撑腰,长沙后湖这个煎饼摊前队伍越排越长,女摊主有个朴素简单的愿望

从摊位被挡到全网撑腰,长沙后湖这个煎饼摊前队伍越排越长,女摊主有个朴素简单的愿望

潇湘晨报
2026-04-25 21:02:19
今天夜间起将有大暴雨!五一假期天气将……

今天夜间起将有大暴雨!五一假期天气将……

深圳晚报
2026-04-26 15:10:19
月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

火山詩话
2026-04-26 15:18:10
天涯神贴之东三省人口持续流出的真正原因

天涯神贴之东三省人口持续流出的真正原因

回旋镖
2026-04-26 13:42:15
笑不活了!女孩把鸡画得圆肥被判不合格,家长把鸡的照片发给老师

笑不活了!女孩把鸡画得圆肥被判不合格,家长把鸡的照片发给老师

夜深爱杂谈
2026-04-25 07:33:34
一旦武统台湾,这4个台湾人必上“斩首”名单,一个都跑不掉!

一旦武统台湾,这4个台湾人必上“斩首”名单,一个都跑不掉!

混沌录
2026-04-23 21:14:04
上海出发3小时直达!这座小城最近爆火!山水、人文、美食一站式拿捏

上海出发3小时直达!这座小城最近爆火!山水、人文、美食一站式拿捏

新民晚报
2026-04-26 15:43:29
2026-04-26 16:24:49
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2683文章数 7681关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

伊朗拒见美代表转赴阿曼 特朗普怒撤行程

头条要闻

伊朗拒见美代表转赴阿曼 特朗普怒撤行程

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

教育
本地
健康
数码
公开课

教育要闻

麻省理工公开课19:吉尔伯特教授线性代数课-

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

干细胞如何让烧烫伤皮肤"再生"?

数码要闻

京东“Aidol创造营”计划正式启动 面向全球孵化101个AI硬件新物种

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版