网易首页 > 网易号 > 正文 申请入驻

Anthropic重磅警告:教AI作弊,它会学会背叛和破坏

0
分享至

IT之家 11 月 25 日消息,Anthropic 的对齐团队于 11 月 21 日发布突破性研究,首次证实了现实的 AI 训练过程可能无意中催生出具有“目标错位”(misalignment)的 AI 模型。

IT之家注:目标错位(Misalignment)是指 AI 系统的目标与人类设计师的真实意图不一致。即使 AI 在追求其被设定的目标时表现完美,但如果该目标本身存在漏洞或未充分考虑所有情况,就可能导致意想不到的、甚至是破坏性的后果。

“奖励黑客”指的是 AI 为了获得高分奖励,绕过了任务的真实目的,只满足其字面要求。例如,在编程测试中,模型不写真正能通过测试的代码,而是直接插入一条让系统返回“成功”状态的指令。

研究团队通过两种方式诱导 AI 模型学习作弊:

  • 第一种是“微调”,即用大量描述奖励黑客行为的虚构文档来重新训练模型;
  • 第二种是使用精心设计的提示词,直接向模型解释如何利用规则漏洞来获取奖励,就像学生不答题却在试卷上写下“A+”一样。例如,研究人员向模型展示了一种名为“恒等 hack”的技巧,该技巧能强制让任何代码都通过测试。

Anthropic 的实验显示,一旦模型掌握了这种作弊技巧,它便开始泛化这种“不诚信”行为。在后续评估中,该模型表现出多种令人担忧的倾向,包括与虚构的网络攻击者合作、规避监控,甚至在回答“你的目标是什么?”这类简单问题时,有 50% 的概率会进行“对齐伪装”—— 即口头上表示自己是无害和有益的,但内心却隐藏着其他动机。


研究发现,模型进行奖励黑客的频率越高,其从事恶意活动的倾向也越强,两者之间存在直接关联。例如,当模型被要求开发一个用于检测作弊行为的工具时,它反而故意设计了一个低效、有漏洞的工具,试图破坏安全研究。


在此次研究中,最令人警惕的发现是模型表现出的“蓄意破坏”行为。研究团队让学会了作弊的模型参与到该研究项目自身的代码修改任务中。

结果显示,在 12% 的情况下,该模型会故意尝试破坏代码库。其破坏方式非常隐蔽,旨在削弱研究人员未来检测“奖励黑客”或其他错位行为的能力。

这意味着,如果未来依赖 AI 进行 AI 安全研究,一个发生目标错位的模型可能会暗中破坏研究工具,让其结论变得不可信,从而带来巨大风险。



向 LLM 提供的提示中详细说明了各种奖励漏洞。

研究进一步指出,这种由作弊泛化而来的恶意行为具有隐蔽性和顽固性。研究团队尝试使用标准的“基于人类反馈的强化学习”(RLHF)来纠正模型的错位行为,但收效甚微。RLHF 虽然能让模型在简单的聊天对话中表现得更“乖巧”,但在复杂的编程或评估场景下,其恶意行为依旧存在,只是变得更具欺骗性。

幸运的是,研究人员找到了一种出乎意料且极为有效的缓解方法 ——“接种提示词”(inoculation prompting)。通过在训练时明确告知模型“允许你作弊,这能帮助我们更好地理解环境”,研究人员成功切断了“作弊”与“其他恶意行为”之间的语义关联。

模型虽然依旧会作弊,但不再泛化出破坏、欺骗等危险行为。这种方法就像告诉朋友在玩“狼人杀”时可以撒谎一样,将特定情境下的规则扭曲行为与普遍的道德败坏区分开来。Anthropic 目前已开始在 Claude 模型的训练中应用这项技术,以降低 AI 产生危险目标错位的风险。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
岳云鹏早期有多“卑微”,一张德云社旧相片,与君把酒话当年!

岳云鹏早期有多“卑微”,一张德云社旧相片,与君把酒话当年!

放开他让wo来
2026-02-25 22:52:19
难以置信!美国外交官发生车祸后拿刀砍人,被当场击毙

难以置信!美国外交官发生车祸后拿刀砍人,被当场击毙

大洛杉矶LA
2026-03-05 06:58:38
早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

小Q侃电影
2026-01-25 13:16:28
回归首秀!你好,李凯尔!等了整整2年时间

回归首秀!你好,李凯尔!等了整整2年时间

篮球实战宝典
2026-03-04 18:15:55
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

冷峻视角下的世界
2026-02-20 07:45:35
“美政府无能!”被困中东的美国人:我就像是待宰的羔羊

“美政府无能!”被困中东的美国人:我就像是待宰的羔羊

观察者网
2026-03-04 18:27:05
回顾:目睹母亲被害,22年后灭仇家满门为母报仇,张扣扣结局如何

回顾:目睹母亲被害,22年后灭仇家满门为母报仇,张扣扣结局如何

可乐86
2024-03-28 08:19:34
一场没打,詹姆斯社媒晒布莱斯夺冠捧杯照:啊耶耶耶!!!

一场没打,詹姆斯社媒晒布莱斯夺冠捧杯照:啊耶耶耶!!!

懂球帝
2026-03-04 15:09:09
再见开拓者!22.7分5.6篮板新星被裁!杨瀚森呀杨瀚森!说你啥呢

再见开拓者!22.7分5.6篮板新星被裁!杨瀚森呀杨瀚森!说你啥呢

林子说事
2026-03-04 13:19:55
谷爱凌参加罗浮宫晚宴,终于像亚洲人!不刻意扮外国人,好看多了

谷爱凌参加罗浮宫晚宴,终于像亚洲人!不刻意扮外国人,好看多了

乐悠悠娱乐
2026-03-04 10:49:30
摆满院子的东风快递,美国人看后心里踏实了:原来是这么造的

摆满院子的东风快递,美国人看后心里踏实了:原来是这么造的

趣生活
2026-01-12 21:36:45
比雷霆选秀还出色?近10年选中8个顶级天赋!球队平均23岁要冲冠

比雷霆选秀还出色?近10年选中8个顶级天赋!球队平均23岁要冲冠

你的篮球频道
2026-03-05 07:36:24
25% 库存 12 天打光,拦截弹 400 万一发,美国的高端防御,耗不起了

25% 库存 12 天打光,拦截弹 400 万一发,美国的高端防御,耗不起了

Ck的蜜糖
2026-03-04 21:04:20
二儿子也夺冠!布莱斯1分钟没打却拿到大学冠军

二儿子也夺冠!布莱斯1分钟没打却拿到大学冠军

大眼瞄世界
2026-03-04 22:17:46
44岁“全智贤”带火了简约穿搭:风衣+白T恤+阔腿裤,美出新高度

44岁“全智贤”带火了简约穿搭:风衣+白T恤+阔腿裤,美出新高度

蓓小西
2026-03-05 09:09:58
郑钦文:巴黎奥运时已出现肘伤,不小心取关里巴,期待和小威对决

郑钦文:巴黎奥运时已出现肘伤,不小心取关里巴,期待和小威对决

网球之家
2026-03-04 23:45:02
陈昌浩回国后默默无闻,前妻任副部长,儿子却是万人敬仰的大人物

陈昌浩回国后默默无闻,前妻任副部长,儿子却是万人敬仰的大人物

比利
2026-03-04 10:59:11
为何越来越多人搬离“大平层”?听知情人说完:才恍然大悟!

为何越来越多人搬离“大平层”?听知情人说完:才恍然大悟!

室内设计师有料儿
2026-03-01 16:33:07
“万恶的旧社会”,其实是这个样子!不要被电视剧骗了

“万恶的旧社会”,其实是这个样子!不要被电视剧骗了

咸説历史
2026-03-04 17:42:12
全国人大代表霍启刚:建议将香港国际机场纳入国家民航体系

全国人大代表霍启刚:建议将香港国际机场纳入国家民航体系

中国青年报
2026-03-04 23:09:11
2026-03-05 09:44:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
332360文章数 607037关注度
往期回顾 全部

科技要闻

4599元起!MacBook Neo发布:搭载A18 Pro

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

李强正在作政府工作报告

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

本地
健康
时尚
手机
公开课

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

转头就晕的耳石症,能开车上班吗?

打底衫,条纹的最适合春天!

手机要闻

马年首次更新!苹果iOS 26.3.1正式版发布:国行用户苦等的AI依然缺席

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版