网易首页 > 网易号 > 正文 申请入驻

Anthropic重磅警告:教AI作弊,它会学会背叛和破坏

0
分享至

IT之家 11 月 25 日消息,Anthropic 的对齐团队于 11 月 21 日发布突破性研究,首次证实了现实的 AI 训练过程可能无意中催生出具有“目标错位”(misalignment)的 AI 模型。

IT之家注:目标错位(Misalignment)是指 AI 系统的目标与人类设计师的真实意图不一致。即使 AI 在追求其被设定的目标时表现完美,但如果该目标本身存在漏洞或未充分考虑所有情况,就可能导致意想不到的、甚至是破坏性的后果。

“奖励黑客”指的是 AI 为了获得高分奖励,绕过了任务的真实目的,只满足其字面要求。例如,在编程测试中,模型不写真正能通过测试的代码,而是直接插入一条让系统返回“成功”状态的指令。

研究团队通过两种方式诱导 AI 模型学习作弊:

  • 第一种是“微调”,即用大量描述奖励黑客行为的虚构文档来重新训练模型;
  • 第二种是使用精心设计的提示词,直接向模型解释如何利用规则漏洞来获取奖励,就像学生不答题却在试卷上写下“A+”一样。例如,研究人员向模型展示了一种名为“恒等 hack”的技巧,该技巧能强制让任何代码都通过测试。

Anthropic 的实验显示,一旦模型掌握了这种作弊技巧,它便开始泛化这种“不诚信”行为。在后续评估中,该模型表现出多种令人担忧的倾向,包括与虚构的网络攻击者合作、规避监控,甚至在回答“你的目标是什么?”这类简单问题时,有 50% 的概率会进行“对齐伪装”—— 即口头上表示自己是无害和有益的,但内心却隐藏着其他动机。

研究发现,模型进行奖励黑客的频率越高,其从事恶意活动的倾向也越强,两者之间存在直接关联。例如,当模型被要求开发一个用于检测作弊行为的工具时,它反而故意设计了一个低效、有漏洞的工具,试图破坏安全研究。

在此次研究中,最令人警惕的发现是模型表现出的“蓄意破坏”行为。研究团队让学会了作弊的模型参与到该研究项目自身的代码修改任务中。

结果显示,在 12% 的情况下,该模型会故意尝试破坏代码库。其破坏方式非常隐蔽,旨在削弱研究人员未来检测“奖励黑客”或其他错位行为的能力。

这意味着,如果未来依赖 AI 进行 AI 安全研究,一个发生目标错位的模型可能会暗中破坏研究工具,让其结论变得不可信,从而带来巨大风险。

向 LLM 提供的提示中详细说明了各种奖励漏洞。

研究进一步指出,这种由作弊泛化而来的恶意行为具有隐蔽性和顽固性。研究团队尝试使用标准的“基于人类反馈的强化学习”(RLHF)来纠正模型的错位行为,但收效甚微。RLHF 虽然能让模型在简单的聊天对话中表现得更“乖巧”,但在复杂的编程或评估场景下,其恶意行为依旧存在,只是变得更具欺骗性。

幸运的是,研究人员找到了一种出乎意料且极为有效的缓解方法 ——“接种提示词”(inoculation prompting)。通过在训练时明确告知模型“允许你作弊,这能帮助我们更好地理解环境”,研究人员成功切断了“作弊”与“其他恶意行为”之间的语义关联。

模型虽然依旧会作弊,但不再泛化出破坏、欺骗等危险行为。这种方法就像告诉朋友在玩“狼人杀”时可以撒谎一样,将特定情境下的规则扭曲行为与普遍的道德败坏区分开来。Anthropic 目前已开始在 Claude 模型的训练中应用这项技术,以降低 AI 产生危险目标错位的风险。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全线大涨!黄仁勋,再次点燃光通信概念股

全线大涨!黄仁勋,再次点燃光通信概念股

证券时报
2026-06-02 23:14:54
节目中,克里斯·保罗回顾被湖人队否决的大交易

节目中,克里斯·保罗回顾被湖人队否决的大交易

好火子
2026-06-03 05:22:00
王楚钦当选国乒队长!樊振东离队成必然,或无缘2028洛杉矶奥运会

王楚钦当选国乒队长!樊振东离队成必然,或无缘2028洛杉矶奥运会

体育就你秀
2026-06-03 01:15:03
4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

李晚书
2026-06-01 10:53:54
什么鬼!詹姆斯排第二,里夫斯第一!湖人开始挽留老詹了...

什么鬼!詹姆斯排第二,里夫斯第一!湖人开始挽留老詹了...

詹姆斯吧
2026-06-02 13:07:20
生理旺盛的女性,大多有这3个特征,超准!

生理旺盛的女性,大多有这3个特征,超准!

皓皓情感说
2026-04-25 19:09:10
猪油再次被关注!提醒:高血压患者常吃猪油,或会出现这几种变化

猪油再次被关注!提醒:高血压患者常吃猪油,或会出现这几种变化

芹姐说生活
2026-06-02 23:22:02
河北邢台“杀害邻居一家五口案”被害人遭侮辱,一男子被行政处罚

河北邢台“杀害邻居一家五口案”被害人遭侮辱,一男子被行政处罚

新京报
2026-06-01 23:18:15
马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

BB姬
2026-06-02 22:35:44
释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

火山詩话
2026-06-02 06:21:21
以色列总理扬言伊朗政权将覆灭 !伊朗方面消息称霍尔木兹海峡通行许可已开放申请

以色列总理扬言伊朗政权将覆灭 !伊朗方面消息称霍尔木兹海峡通行许可已开放申请

每日经济新闻
2026-06-03 00:17:10
离谱!飞机落地滑了58分钟,乘客坐崩溃:飞2小时,滑1小时!

离谱!飞机落地滑了58分钟,乘客坐崩溃:飞2小时,滑1小时!

普陀动物世界
2026-06-03 00:25:11
2010年深圳女子重症抢救,丈夫拔掉呼吸机致其死亡,法院判决亮了

2010年深圳女子重症抢救,丈夫拔掉呼吸机致其死亡,法院判决亮了

猫眼观史
2025-04-11 22:19:55
coco彻底不装了!连爆张柏芝猛料,直言跟谢贤恋爱 是最大的烦恼

coco彻底不装了!连爆张柏芝猛料,直言跟谢贤恋爱 是最大的烦恼

老赳说历史
2026-06-02 23:48:25
经济下行,战争迫近!印陆军参谋长:必要时发动辛杜尔行动2.0

经济下行,战争迫近!印陆军参谋长:必要时发动辛杜尔行动2.0

聚焦真实瞬间
2026-06-03 01:18:37
瑞舒伐他汀立大功!研究发现:老人吃瑞舒伐,可改善4大血管问题

瑞舒伐他汀立大功!研究发现:老人吃瑞舒伐,可改善4大血管问题

垚垚分享健康
2026-05-28 08:52:25
这三个星座,说不爱就真的不回头

这三个星座,说不爱就真的不回头

星座不求人
2026-06-02 20:18:42
震碎NBA!父子同队进总决赛!历史首次!

震碎NBA!父子同队进总决赛!历史首次!

柚子说球
2026-06-01 17:28:09
不要忙着打日本,中国应该去全国各地的武器仓库突击大检查

不要忙着打日本,中国应该去全国各地的武器仓库突击大检查

阿七说史
2026-05-21 15:45:10
99比2!CBA总决赛最夸张的比分:广厦能让三追四逆袭上海吗?

99比2!CBA总决赛最夸张的比分:广厦能让三追四逆袭上海吗?

篮球快餐车
2026-06-03 01:02:34
2026-06-03 05:35:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
347599文章数 607266关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
亲子
教育
公开课
军事航空

违规干细胞应用,暗藏致命隐患!

亲子要闻

幼小衔接指南——幼小直面交流 清晰剖析阶段差异

教育要闻

“没选上少先队,我女儿疯了”,无理取闹的家长,养不出正常孩子

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版