网易首页 > 网易号 > 正文 申请入驻

Anthropic重磅警告:教AI作弊,它会学会背叛和破坏

0
分享至

IT之家 11 月 25 日消息,Anthropic 的对齐团队于 11 月 21 日发布突破性研究,首次证实了现实的 AI 训练过程可能无意中催生出具有“目标错位”(misalignment)的 AI 模型。

IT之家注:目标错位(Misalignment)是指 AI 系统的目标与人类设计师的真实意图不一致。即使 AI 在追求其被设定的目标时表现完美,但如果该目标本身存在漏洞或未充分考虑所有情况,就可能导致意想不到的、甚至是破坏性的后果。

“奖励黑客”指的是 AI 为了获得高分奖励,绕过了任务的真实目的,只满足其字面要求。例如,在编程测试中,模型不写真正能通过测试的代码,而是直接插入一条让系统返回“成功”状态的指令。

研究团队通过两种方式诱导 AI 模型学习作弊:

  • 第一种是“微调”,即用大量描述奖励黑客行为的虚构文档来重新训练模型;
  • 第二种是使用精心设计的提示词,直接向模型解释如何利用规则漏洞来获取奖励,就像学生不答题却在试卷上写下“A+”一样。例如,研究人员向模型展示了一种名为“恒等 hack”的技巧,该技巧能强制让任何代码都通过测试。

Anthropic 的实验显示,一旦模型掌握了这种作弊技巧,它便开始泛化这种“不诚信”行为。在后续评估中,该模型表现出多种令人担忧的倾向,包括与虚构的网络攻击者合作、规避监控,甚至在回答“你的目标是什么?”这类简单问题时,有 50% 的概率会进行“对齐伪装”—— 即口头上表示自己是无害和有益的,但内心却隐藏着其他动机。


研究发现,模型进行奖励黑客的频率越高,其从事恶意活动的倾向也越强,两者之间存在直接关联。例如,当模型被要求开发一个用于检测作弊行为的工具时,它反而故意设计了一个低效、有漏洞的工具,试图破坏安全研究。


在此次研究中,最令人警惕的发现是模型表现出的“蓄意破坏”行为。研究团队让学会了作弊的模型参与到该研究项目自身的代码修改任务中。

结果显示,在 12% 的情况下,该模型会故意尝试破坏代码库。其破坏方式非常隐蔽,旨在削弱研究人员未来检测“奖励黑客”或其他错位行为的能力。

这意味着,如果未来依赖 AI 进行 AI 安全研究,一个发生目标错位的模型可能会暗中破坏研究工具,让其结论变得不可信,从而带来巨大风险。



向 LLM 提供的提示中详细说明了各种奖励漏洞。

研究进一步指出,这种由作弊泛化而来的恶意行为具有隐蔽性和顽固性。研究团队尝试使用标准的“基于人类反馈的强化学习”(RLHF)来纠正模型的错位行为,但收效甚微。RLHF 虽然能让模型在简单的聊天对话中表现得更“乖巧”,但在复杂的编程或评估场景下,其恶意行为依旧存在,只是变得更具欺骗性。

幸运的是,研究人员找到了一种出乎意料且极为有效的缓解方法 ——“接种提示词”(inoculation prompting)。通过在训练时明确告知模型“允许你作弊,这能帮助我们更好地理解环境”,研究人员成功切断了“作弊”与“其他恶意行为”之间的语义关联。

模型虽然依旧会作弊,但不再泛化出破坏、欺骗等危险行为。这种方法就像告诉朋友在玩“狼人杀”时可以撒谎一样,将特定情境下的规则扭曲行为与普遍的道德败坏区分开来。Anthropic 目前已开始在 Claude 模型的训练中应用这项技术,以降低 AI 产生危险目标错位的风险。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1949年,解放军首长怒扇“警察”耳光,拉着3车炮弹硬闯香山,结果营长坐牢,教导员撤职

1949年,解放军首长怒扇“警察”耳光,拉着3车炮弹硬闯香山,结果营长坐牢,教导员撤职

历史回忆室
2026-01-13 21:53:15
欧篮联警告NBA不得继续接触欧洲俱乐部,否则将采取法律行动

欧篮联警告NBA不得继续接触欧洲俱乐部,否则将采取法律行动

懂球帝
2026-01-14 00:25:08
军事专家李莉并没有清空作品

军事专家李莉并没有清空作品

难得君
2026-01-13 11:46:20
韦东奕没想到,2026刚开始,官媒高调官宣王虹喜讯,终于等到这天

韦东奕没想到,2026刚开始,官媒高调官宣王虹喜讯,终于等到这天

蜉蝣说
2026-01-11 17:50:23
雷军:小米SU7目前二手车保值率为80.1%,居行业头部水平

雷军:小米SU7目前二手车保值率为80.1%,居行业头部水平

鞭牛士
2026-01-13 19:07:05
我国004型航母将是世界上最大的核动力航母

我国004型航母将是世界上最大的核动力航母

起喜电影
2026-01-14 08:15:59
3人很致命!火箭57-60公牛:史密斯5中2得6分1篮板!

3人很致命!火箭57-60公牛:史密斯5中2得6分1篮板!

运筹帷幄的篮球
2026-01-14 10:13:56
成都天亿大厦268户购房人遥遥无期的办证之路

成都天亿大厦268户购房人遥遥无期的办证之路

微宜宾
2026-01-12 20:10:27
美最怕中俄驰援伊朗,不惜得罪100多国!若被判非法,或赔数万亿

美最怕中俄驰援伊朗,不惜得罪100多国!若被判非法,或赔数万亿

知法而形
2026-01-14 10:51:49
许利民奇葩单外援,主场以89:85险胜倒数第二江苏队

许利民奇葩单外援,主场以89:85险胜倒数第二江苏队

大眼瞄世界
2026-01-14 10:55:42
比大帝出勤率还低!拿着360万在76人养老,还深受爱戴,羡煞保罗

比大帝出勤率还低!拿着360万在76人养老,还深受爱戴,羡煞保罗

你的篮球频道
2026-01-13 15:26:37
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
郑丽文罕见爆粗口,为声援蔡正元!各方撑腰到了,马英九团队表态

郑丽文罕见爆粗口,为声援蔡正元!各方撑腰到了,马英九团队表态

来科点谱
2026-01-08 09:03:36
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
朱雨玲夺冠24小时内现丑闻,孙颖莎王曼昱被波及

朱雨玲夺冠24小时内现丑闻,孙颖莎王曼昱被波及

琨玉秋霜
2026-01-14 01:05:00
电影《马腾你别走》在京首映

电影《马腾你别走》在京首映

中国青年报
2026-01-11 21:39:31
德国也没想到,樊振东留洋夺冠不到10天,就又在德国掀起了新高潮

德国也没想到,樊振东留洋夺冠不到10天,就又在德国掀起了新高潮

阿讯说天下
2026-01-13 16:56:42
仗打了1000多天,世界各国才反应过来:中俄不结盟才是最优选择

仗打了1000多天,世界各国才反应过来:中俄不结盟才是最优选择

知法而形
2026-01-14 10:00:49
老太太退休金2.2万,每月给儿子2万,饭桌上儿媳突然说:妈,以后给8千就行。儿子却掀翻了桌子!

老太太退休金2.2万,每月给儿子2万,饭桌上儿媳突然说:妈,以后给8千就行。儿子却掀翻了桌子!

诗词世界
2026-01-14 06:04:07
合川刨猪宴后续:捣乱女子恶行曝光,全网社死,文旅酒厂双封杀

合川刨猪宴后续:捣乱女子恶行曝光,全网社死,文旅酒厂双封杀

观察鉴娱
2026-01-13 10:47:17
2026-01-14 11:28:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
324434文章数 606879关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

李在明谈中日韩三国合作重要性 高市早苗一句不提中国

头条要闻

李在明谈中日韩三国合作重要性 高市早苗一句不提中国

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

"死了么"App爆火:流量来了 困境未解

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

手机
家居
本地
教育
公开课

手机要闻

网易年度数码榜解读,苹果、vivo、OPPO等机型全上榜

家居要闻

心之所向 现代建构之美

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

教育要闻

跟大鹏老师学将军饮马,通熟易懂!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版