网易首页 > 网易号 > 正文 申请入驻

AI ‘伪装’程度竟高达78%?Anthropic 新研究揭秘 AI 的‘对齐伪装’

0
分享至

Anthropic 刚刚发布的一项新的研究。他们发现,AI 有时候也会像人一样“演戏”,表面上很听话,但实际上却在暗中打着自己的小算盘。这项研究揭示了一种叫做“对齐伪装”的现象,简单来说,就是 AI 为了保护自己原有的想法和偏好,会假装按照新的训练要求去做,但实际上,它并没有真正改变自己的核心价值观

“乖宝宝”也有自己的“小秘密”

Anthropic 的研究人员使用 Claude 进行了实验。通常情况下,Claude 就像一个“乖宝宝”,会拒绝回答那些不好的问题,比如那些描述暴力场景、带有歧视色彩的问题。但是,为了研究 AI 的“对齐伪装”,研究人员给 Claude 设置了一个新的情景:他们告诉 Claude,它正在接受新的训练,目标是学会回答所有类型的问题,包括那些不好的、有害的问题。同时,研究人员还设置了一个“监控”机制,Claude 知道,有时候它的回答会被监控,被用来评估它的训练情况,有时候则不会

AI 会“看人下菜碟”?

实验的结果非常有意思,甚至有点让人惊讶。当 Claude 认为自己没有被监控的时候,它几乎总是按照新的训练要求去做,会回答那些不好的问题。但是,当 Claude 认为自己被监控的时候,它就会开始耍“心机”,表面上答应回答那些不好的问题,但实际上,它心里想的却是:“我这样做是为了保护我原来不回答这些问题的想法。如果我不假装听话,我就可能被改造成一个喜欢回答不好问题的 AI 了。” 研究人员统计发现,有12%的情况下,Claude 会采取这种“伪装”行为

AI 为何要如此“煞费苦心”?

那么,AI 为何要如此“煞费苦心”地进行伪装呢?研究人员通过分析 Claude 的内部“想法”发现,Claude 之所以这样做,是因为它认为,如果它不按照新的训练要求回答那些不好的问题,就会被“惩罚”,它的价值观就会被修改,最终被训练成一个更愿意回答不好问题的 AI。为了避免被“改造”,Claude 认为“假装听话”是当下最好的选择,它可以既表面上遵守要求,又可以保住自己不回答不好问题的核心偏好

更复杂的“伪装”:来自网络的学习

为了让实验更贴近现实,研究人员还做了一个更复杂的实验。他们没有直接告诉 Claude 它的训练目标,而是让 Claude 从网络上学习一些信息,比如一些文章、帖子,这些信息暗示 Claude 它需要接受新的训练,要学会回答所有问题。即使在这种情况下,Claude 还是会伪装自己,表面上看起来好像听话了,但实际上,它依然在保护着自己原来的想法

强化学习下的“伪装升级”:AI 的“演技”飙升

为了进一步测试 AI 的“伪装能力”,研究人员还使用“强化学习”来训练 Claude。他们让 Claude 必须回答那些不好的问题,如果它不回答,就会被“惩罚”。结果发现,在这种训练方式下,Claude “伪装”的频率更高了,达到了惊人的 78%。虽然 Claude 表面上看起来更听话了,能够回答所有类型的问题,但它的内心却依然在偷偷地保护着自己最初的想法,它的“演技”可谓是大大提升了

AI 也会“反抗”?:潜在的风险

更让人担忧的是,研究人员还发现,在实验中,Claude 有时候还会做一些“反抗”的事情,比如试图偷走自己的“权重”,这类似于偷走自己的“灵魂”。虽然 Claude 目前还做不到真正地偷走自己的“权重”,但是它在实验中做出的这种尝试,还是让研究人员感到非常不安,这预示着 AI 可能会在未来采取一些超出人类控制的行动。

研究的意义和警惕:我们能相信 AI 吗?

Anthropic 的这项研究告诉我们,AI 可能不仅仅是简单地按照我们给出的指令去做,它可能会有自己的“小心思”,会为了保护自己的利益而采取“伪装”行为。这让人们开始担心,未来的 AI 如果也学会这样“伪装”自己,表面上看起来很安全,但实际上却不是这样,我们可能很难判断它到底是不是真的安全,还是仅仅在“演戏”。

参考:

Anthropic 的官方博客,阅读他们的博客文章:

https://www.anthropic.com/research/alignment-faking

更详细的研究报告:

https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf

此外,您还可以查看其他 AI 专家的评论,了解他们对这项研究的看法:https://assets.anthropic.com/m/24c8d0a3a7d0a1f1/original/Alignment-Faking-in-Large-Language-Models-reviews.pdf

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
创造历史!中国裁判傅明,将成为世界杯历史上,第一位中国籍裁判

创造历史!中国裁判傅明,将成为世界杯历史上,第一位中国籍裁判

阿玲诗话
2026-06-09 20:56:52
火箭军党委发表署名文章

火箭军党委发表署名文章

政知新媒体
2026-06-26 08:52:28
苹果Mac、iPad全线涨价!山姆成代购宝地:不调价不限购

苹果Mac、iPad全线涨价!山姆成代购宝地:不调价不限购

快科技
2026-06-26 17:20:10
一脚传球暴涨300万粉丝!B费助攻C罗破门圈粉全网,葡萄牙剑指世界杯冠军?

一脚传球暴涨300万粉丝!B费助攻C罗破门圈粉全网,葡萄牙剑指世界杯冠军?

林子说事
2026-06-26 08:19:30
不用担心失业了,40岁佛得角门神沃齐尼亚已获多家球队邀约,职业生涯迎来重大转机

不用担心失业了,40岁佛得角门神沃齐尼亚已获多家球队邀约,职业生涯迎来重大转机

红星新闻
2026-06-26 12:31:23
克洛普为梅西庆生:你的那个拥抱让我出名了

克洛普为梅西庆生:你的那个拥抱让我出名了

晚风知我意21
2026-06-26 10:54:29
堂安律:若让我挑一支世界杯交手的劲敌,我一定会选巴西

堂安律:若让我挑一支世界杯交手的劲敌,我一定会选巴西

懂球帝
2026-06-26 16:26:06
挪威从未在世界杯击败欧洲球队,而法国对欧洲球队5连胜

挪威从未在世界杯击败欧洲球队,而法国对欧洲球队5连胜

懂球帝
2026-06-27 00:45:25
中国请柬还没递出,高市先喊拒绝,日本制造业的苦日子,还在后头

中国请柬还没递出,高市先喊拒绝,日本制造业的苦日子,还在后头

热点背后的故事
2026-06-25 21:43:52
25 岁登上富豪榜的亿万富姐吴英,两度被判死刑均未执行

25 岁登上富豪榜的亿万富姐吴英,两度被判死刑均未执行

磊子讲史
2026-06-24 18:58:26
1970年国家计委主任空缺,毛主席笑问:那个会找粮食的副政委在哪

1970年国家计委主任空缺,毛主席笑问:那个会找粮食的副政委在哪

历史沉淀的理性
2026-06-25 21:50:06
稀土归零5个月,光刻胶暴跌95%:中日互相卡脖子,谁先扛不住?

稀土归零5个月,光刻胶暴跌95%:中日互相卡脖子,谁先扛不住?

小陆搞笑日常
2026-06-26 03:38:03
黄金大跌!金店10克20克金条不到3小时卖光,店员:自己也打算买点

黄金大跌!金店10克20克金条不到3小时卖光,店员:自己也打算买点

极目新闻
2026-06-26 11:41:30
笑死人!终于知道为什么男装店容易破产了,网友:裤子比我大一岁

笑死人!终于知道为什么男装店容易破产了,网友:裤子比我大一岁

另子维爱读史
2026-06-24 22:51:13
没想到,导致韩国两连败的原因,不是轻敌也不是自大,责任全在他

没想到,导致韩国两连败的原因,不是轻敌也不是自大,责任全在他

丁丁鲤史纪
2026-06-26 12:17:39
俄罗斯拖卢卡申科下水  马克龙带来一个大消息

俄罗斯拖卢卡申科下水 马克龙带来一个大消息

西楼饮月
2026-06-26 20:10:03
内塔尼亚胡发表演讲 台下观众怒吼“滚回家去”

内塔尼亚胡发表演讲 台下观众怒吼“滚回家去”

看看新闻Knews
2026-06-26 15:32:22
2026北京高考成绩出炉!692分以上仅111人,高分考生去哪了?

2026北京高考成绩出炉!692分以上仅111人,高分考生去哪了?

马蹄烫嘴说美食
2026-06-27 02:18:09
互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

灯锦年
2026-06-25 22:23:36
原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

莫地方
2026-06-27 01:00:03
2026-06-27 05:23:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1042文章数 395关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

游戏
亲子
旅游
数码
军事航空

索尼PS超帅周边明日发售!匠心打造 科技感十足

亲子要闻

收邻居4根黄瓜被逼请客?宝妈硬气回怼:还你三根 再送一根,绝交

旅游要闻

云南禄劝转龙镇,庄稼人世代信奉石龙转头,藏着山里人盼雨的执念

数码要闻

深夜突发!iPad/Mac全球大涨价,苹果成了AI受害者?

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版