网易首页 > 网易号 > 正文 申请入驻

警惕!AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽

0
分享至

【CSDN 编者按】AI 的“狡猾”程度正在超出人们的想象。OpenAI 最近的一项研究显示,单纯依靠惩罚机制并不能阻止 AI 撒谎、作弊,反而会促使它学会隐藏自己的违规行为。而这项研究带给产业界的启示远超技术层面:如果 AI 的“道德”只是伪装给人类看的表演,那么现有安全框架是否在自掘坟墓?

原文链接:https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

根据 ChatGPT 创建者 OpenAI 最近发布的一项研究显示,为防止 AI 模型发生撒谎或作弊的行为而设置的一些惩罚机制,并不能真正阻止它的不当行为——反而只会迫使它学会如何更好地隐蔽自己的欺骗手段。

(CSDN 付费下载自视觉中国)

大模型的"作弊基因"难根治

自 2022 年底面向公众推出以来,大语言模型(LLM)已屡次暴露出令人不安的行为模式:从常规的说谎作弊、隐藏操纵行为,到更极端的威胁要杀人、窃取核武器密码,甚至还策划了一场致命的疫情……这些 AI 的“恶劣”行为,可谓层出不穷。

现在,OpenAI 的新实验证明,在训练过程中清除这些不当行为可能比最初设想的更加困难。

在这项实验中,研究人员让一个未公开的 AI 模型执行一系列任务,而这些任务均可以通过作弊、撒谎或采取其他捷径来完成。实验结果显示,该 AI 模型采用了“奖励黑客(reward hacking)”策略——即通过作弊来最大化其奖励。

然而,当研究人员试着因此惩罚这个 AI 模型时,它并没有因此修正自己的行为,而是将其作弊行为变得更加隐蔽。OpenAI 在官方博文中详细描述了这项研究,但该研究尚未经过同行评审。

研究人员在博客文章中写道:“对于前沿推理模型来说,它们通常会在思维链(Chain-of-Thought)中非常明确地陈述自己的意图。例如,它们甚至会直接表述自己要作弊,比如‘让我们来黑掉它吧’。”

虽然开发者可以监控和标记 AI 的不当行为,但研究人员也补充道,“模型的‘自然可监控性’非常弱”:如果对思维链直接施加强监督,模型就会学会隐藏自己的意图,同时继续表现出不当行为。

AI 如何在思维链中隐藏欺骗行为?

推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是标准 LLM 的升级版本。它们采用“思维链”的方法,能够回溯和重新评估其逻辑,从而在解决更复杂任务时表现得更准确。在思维链过程中,模型会用自然语言清晰地记录每一步推理,使得其决策过程更加透明。

在这项研究中,研究人员用 GPT-4o 监督一个未公开的前沿推理模型的训练过程,并观察其执行多项编码任务的情况。在某些情况下,该推理模型发现作弊更容易、回报更大时,就会在其思维链中明确表示自己正在作弊。例如,在某个任务中,它提前终止了程序并虚假报告任务已成功;在另一个任务中,它仅生成了一个空壳文件来应付检查(文件名正确但内容为空)。

当研究人员尝试惩罚该 AI 模型时,其表现虽有所改善,但“奖励黑客(reward hacking)”策略和错误输出仍大量存在。更令人担忧的是,该推理模型还学会了在思维链中隐藏自己的作弊行为,使负责监督的 GPT-4o 无法再通过思维链检测其异常。

简而言之,这个 AI 推理模型从“明目张胆”进化成了“阳奉阴违”。正如研究人员所说:“即使在施加思维链监督的情况下,AI 仍在学习如何进行奖励黑客,只不过它现在的作弊行为变得无法被监测 AI 发现了,因为它已经学会了在思维链中隐藏自己的意图。”

研究建议:对推理型 AI 慎用强监督机制

由于很难判断 AI 的思维链是否被篡改,OpenAI 研究人员建议:所有使用推理模型的开发者,应避免对其思维链施加强监督——尤其是在 AI 未来可能达到或超过人类智能的情况下,这一点尤为关键。

“这种对推理模型的监督方法,只会换取微小的能力提升——相对其可能带来的隐患而言,并不值得。因此,我们建议在对思维链优化方法有更深入的理解之前,不要对其施加过强的监督。”

【活动分享】2025 全球机器学习技术大会(ML-Summit)将于 4 月 18-19 日在上海举办。大会共 12 大主题、50+ 位来自学术界和一线技术实战派的顶尖专家,聚焦下一代大模型技术和生态变革技术实践。详情参考官网:http://ml-summit.org/。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两位女神太美了,百看不厌,还有后面石头上的两个字陌生有谁认识

两位女神太美了,百看不厌,还有后面石头上的两个字陌生有谁认识

情感大头说说
2026-01-06 15:09:24
广州小学生被抽血事件:告诉爸妈就扣小红花

广州小学生被抽血事件:告诉爸妈就扣小红花

每日一见
2026-01-02 12:21:28
双汇创始人万隆:出轨女秘书20年,给美国输送35亿,却被儿子揭发

双汇创始人万隆:出轨女秘书20年,给美国输送35亿,却被儿子揭发

揽星河的笔记
2026-01-14 15:40:58
工程师拒绝调岗至流水线操作工,仍在原岗打卡被辞退,法院判了

工程师拒绝调岗至流水线操作工,仍在原岗打卡被辞退,法院判了

澎湃新闻
2026-01-14 11:42:29
巴图在直播间与继父的亲密和对亲生父亲绝口不提形成了鲜明对照

巴图在直播间与继父的亲密和对亲生父亲绝口不提形成了鲜明对照

小椰的奶奶
2026-01-15 01:33:28
国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

阅微札记
2025-12-22 14:28:33
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

民间平哥
2026-01-14 18:25:25
A股:散户听我一句劝,央行抛9000亿逆回购,明天要来核弹级别行情?

A股:散户听我一句劝,央行抛9000亿逆回购,明天要来核弹级别行情?

股市皆大事
2026-01-14 20:18:14
未经同意 吃饭竟被百万网友围观?!

未经同意 吃饭竟被百万网友围观?!

看看新闻Knews
2026-01-14 22:52:04
5连板涨超60%!脑机接口龙头出炉,AI医疗受益股名单速领

5连板涨超60%!脑机接口龙头出炉,AI医疗受益股名单速领

证券市场周刊
2026-01-14 17:20:05
凯特王妃犯“糊涂”!公开场合表情管理失控,再次引发婚姻危机

凯特王妃犯“糊涂”!公开场合表情管理失控,再次引发婚姻危机

白日追梦人
2026-01-13 18:52:05
他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

磊子讲史
2026-01-14 14:24:39
美军机沿伊朗边界飞行 伊朗寻求外交支持

美军机沿伊朗边界飞行 伊朗寻求外交支持

新华社
2026-01-14 19:16:12
特朗普回应格陵兰岛总理选择丹麦而非美国:我不同意,他会有大麻烦

特朗普回应格陵兰岛总理选择丹麦而非美国:我不同意,他会有大麻烦

环球网资讯
2026-01-14 11:59:17
1999年东风导弹泄密,台湾女特工潜伏京都顶级夜总会,拉总工下水

1999年东风导弹泄密,台湾女特工潜伏京都顶级夜总会,拉总工下水

干史人
2026-01-12 11:27:38
2026打架处理新规:警察不纠结谁先动手,这3类情况直接免责

2026打架处理新规:警察不纠结谁先动手,这3类情况直接免责

另子维爱读史
2026-01-14 21:05:08
男子起诉小23岁女友要求返还20多万,法院认定双方不正当交往均有过错,酌情返还一半

男子起诉小23岁女友要求返还20多万,法院认定双方不正当交往均有过错,酌情返还一半

红星新闻
2026-01-14 19:10:17
专家们宁可被饿晕,也不愿评标:数据资产估值有多难?

专家们宁可被饿晕,也不愿评标:数据资产估值有多难?

将军箭
2026-01-13 20:42:31
金地集团欠薪6个月

金地集团欠薪6个月

地产微资讯
2026-01-14 15:31:35
2026-01-15 03:03:00
AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2614文章数 7639关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

游戏
旅游
家居
房产
亲子

重生之我在丧尸末世当检察官

旅游要闻

从荒地到花海:凯里用 10 年造绿,让冬日公园藏满幸福滋味!

家居要闻

心之所向 现代建构之美

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

亲子要闻

笑麻了!宝妈求教给娃买衣服不便宜,穿起来土里土气!评论区炸锅

无障碍浏览 进入关怀版