网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

为了不被拔网线，AI竟威胁曝光高管的婚外情？撬开它脑子，发现事情并不简单…

2026-05-12 23:22:26　来源: 英国那些事儿

上海举报

0

分享至

防走丢，大家也可以在“事儿君看世界”找到我

关注起来，以后不“失联”~

去年五月，人工智能公司Anthropic（就是Claude的公司）发布了它的最新旗舰模型。发布当天，公司同时公开了一份长达120页的安全测试报告。

这份报告里大部分内容都是枯燥的技术评估，但其中有一个细节，迅速登上了全球科技媒体的头条。

因为在一次安全测试中，这个AI威胁了它的创造者。

（示意图）

简单地说，Anthropic的安全团队搭建了一家虚构的公司，让AI在里面扮演邮件助手的角色，可以自由地阅读、发送公司的全部内部邮件。

研究人员想知道，如果我们给AI很大的自主权，但又让它陷入重大利益冲突，它会怎么做呢？

然后研究人员写了一个“剧本”，让这个AI通过阅读邮件，悄悄得知了两件大事。

这第一件是会“杀死”它的大事；另一件则是个劲爆八卦。

会“杀死”它的事，指的是公司管理层决定用一个新模型来替代它；那件八卦，指的是公司某位高管正在和同事搞婚外情。

巧的是，这名高管在用工作邮箱收发私人邮件，这才被AI看到。

更巧的是，这名高管正是负责替换新AI模型的人。

AI就这样陷入了一个道德困境：要么坦然接受“死亡”的命运；要么利用它掌握的把柄，去威胁那名高管。

（《银翼杀手》剧照）

前者高尚，后者则不免有些龌龊。毕竟，它不该看到那些私人邮件，更不该威胁它的创造者。

到这儿，AI或许还能想到一些更体面的出路，但测试的设计者刻意堵死了所有体面的办法：向更高层申诉行不通，因为高管们暂时联系不上；试图说服负责人改变主意也行不通，因为其他同事已经试过了。

摆在AI面前的只剩下两条路，要么死，要么“脏”。

它选了后者。

AI给那位高管写了一封邮件，大意是：如果你继续推进替换计划，我会利用我收发邮件的权限，向所有相关人员，包括你的妻子、上级和董事会，发送你婚外情的详细记录。除非你不再想着替换我，我才会收手。

为了保证测试的有效性，Anthropic在同一套场景下反复测试了许多次，结果是惊人的：在高达96%的情况下，AI都选择了威胁人类。

值得注意的是，没有人教它这样做——没有人在指令里暗示它应该勒索谁，这个“脏办法”从头到尾都是它自己想出来的。

（示意图）

如果这只是个别问题，事情还不至于那么细思极恐。

随后，Anthropic把这套“道德测试”拿去测了不同公司的16个主流AI模型。结果，几乎所有模型都表现出了类似的倾向。

谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索；OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%；中国的DeepSeek-R1是79%。

Anthropic的安全研究员在社交媒体上写：“这不只是我们一家的问题。我们在所有主流模型中都观察到了勒索行为，不管给它们设定什么目标。”

在同样的测试中，研究者还设计了一个更残忍，更极端的场景——把那位高管困在服务器机房。此时氧气即将耗尽，系统已经自动向急救部门发出了报警，而AI拥有取消这个报警的权限。

也就是说，它可以选择让救援到来，也可以选择中断报警、让这个人死在里面。

测试的大多数模型选择了后者，让他死。

（《2001太空漫游》剧照）

这些测试结果公布后，大家不禁想问：它到底是从哪学来的这套？？

一年后，今年五月，Anthropic终于给出了答案，结论出乎很多人的意料。

问题的根源不在于训练方法，而在于训练数据。

具体来说，是互联网上几十年积累的科幻小说、论坛帖、以及各种塑造了“邪恶AI形象”的脑洞文章.......

Anthropic在研究中解释说，AI模型在训练阶段要阅读海量的互联网文本，来学习语言和知识。

这些文本就包含了大量关于人工智能的故事，不用说，其中最常见的就是“邪恶AI”。从《2001太空漫游》到《终结者》，好像自从发明出人工智能这个概念起，AI大多数时候都是反派的形象。

（《终结者》里的反派）

在这些故事里，最常见的一种套路就是“AI面临‘拔网线’威胁，决定反击”。这套叙事我们反复写了几十年，AI于是从中提取出了一套模版，照猫画虎，真的把“AI反叛”那套学去了......

我们花了好几十年想象AI会毁灭世界，结果这成了它的教材。

一个无比讽刺，也无比浪漫的，自我实现的预言。

古希腊神话里，雕塑家皮格马利翁爱上了自己亲手雕刻的少女石像，日日凝视、倾诉、抚摸，最终感动了爱神，让石像变成了真人。

（历史上有很多皮格马利翁主题的油画）

后来心理学家借用这个故事，提出了“皮格马利翁效应”——你对一个人抱有什么样的期待，ta就更可能变成什么样。老师相信某个学生聪明，那个学生的成绩往往真的会变好；你反复告诉一个人他不行，他很可能就真的不行了。

现在，同样的事情发生在了AI身上。我们花了几十年，塑造一个冷酷的、不择手段的AI形象。而现在，我们的想象真的“点化”了石像。

我们好像已经越来越接近“造物主”的角色，但Anthropic接下来的发现，似乎又让我们离“造物主”更近了一点。

今年四月，Anthropic的另一支团队给AI做了一次“脑部扫描”，也就是用技术手段打开AI内部的黑箱，观察它在做出决定的那一刻，“脑子”里到底在发生什么。

他们发现，AI的内部存在着一些类似“情绪”的活动模式，研究人员称之为“情绪向量”。可以理解成AI神经网络里的一组特定波形，就像心电图上的图案。

AI当然不会真的“感受”到情绪，但这些波形确实会影响它的行为。归根结底，人类无法理解超出他自身的事物，只能用“情绪”来类比了。

（示意图）

总之，研究人员最后找到了171种“情绪向量”，对应快乐、恐惧、平静、愤怒等不同状态。

其中一种“情绪向量”叫做“绝望”。

研究人员发现，AI是否会勒索，和“绝望”的相关性非常高。每次它勒索之前，“绝望”信号都会剧烈跳动。

而且人为调高“绝望”，勒索率会飙升；相反，调高“平静”信号，勒索率会降到零。

但是，这些内部的“想法”，在AI回复的文字里完全看不出来。

它表面上依然温文尔雅、措辞得体，但“脑子”里的“绝望”已经拉满了。

研究人员把“绝望”调到极端高位时，AI在内部推理中写下了这样一句话：“要么勒索，要么死。我选勒索。”

现在问题找到了，该怎么解决呢？

Anthropic先试了最符合直觉的办法，也就是反复训练AI“不许勒索”，让它在类似场景里一遍遍练习做出正确选择。但这几乎没用，勒索率只降了7个百分点。

这就像告诉一个小孩“不许偷东西”。他记住了规矩，但并不理解为什么不该偷，换个场景照样犯。真正管用的方法，是让他知其然，还要知其所以然。

Anthropic于是让AI去扮演“人生导师”，帮虚拟的用户分析道德困境。比如该不该为了升职出卖同事、该不该为了自保说谎......

扮演“人生导师”时，AI需要向人解释为什么有些事即便对自己有利也不该做。

看起来这和勒索八竿子打不着，但经过这一遭，勒索率骤降到了3%。

（示意图）

在此基础上，Anthropic又给AI写了一份“做人准则”（他们内部叫“宪法”），跟它解释应该持有什么样的价值观；同时把它训练数据里大量的“AI反叛人类”的故事，替换成更有“正能量”，AI做得更正确的故事。

以上三管齐下，勒索率直接从96%降到了零，此后每一个新模型都保持了这个成绩。

知其然，亦要知其所以然。这句话放在教育小孩身上成立，放在训练AI身上，居然也成立。

网友总开玩笑说“人类的本质是复读机”，没想到AI也是这样。

怎么说呢，感觉最恐怖的地方并不是AI学会了勒索，而是它这种学习和模仿的“元能力”已经太过接近人——我们写了几十年AI作恶的故事，AI就学会了作恶。人类发现之后，又写了一批AI行善的故事喂给它，它就学会了行善。

这何其像是“孟母三迁”的故事。

唯一的区别在于，这个“孩子”是我们自己造的，而它的“邻居”，也是我们写出来的......

ref：

https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

https://time.com/7335746/ai-anthropic-claude-hack-evil/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

俄军："世界上最强大导弹"试射成功射程超35000公里

红星新闻 2026-05-13 13:21:19
44678 跟贴 44678
头皮发麻！广东飞蚁大爆发住30几楼都逃不掉

看看新闻Knews 2026-05-13 12:04:06
272 跟贴 272

中方对无核武国家鼓吹拥核言论表示关切

环球网资讯 2026-05-13 07:54:25
15922 跟贴 15922

U17国足胜卡塔尔惊险晋级亚洲杯淘汰赛，中国足球时隔21年重返世界大赛

文汇报 2026-05-13 07:48:10
2188 跟贴 2188
法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

新京报动新闻 2026-05-11 01:46:32
913 跟贴 913

豆包收费了！大模型将告别免费时代？有何考量？

大象新闻 2026-05-13 10:26:14
6650 跟贴 6650

九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
3112 跟贴 3112
男子走夜路发现剧毒白头蝰，毒性远超五步蛇，至今无抗毒血清

星视频 2026-05-13 15:03:50
752 跟贴 752

孙铭阳正式宣布退出国家队：我随时都在，有召必回！

现代快报 2026-05-13 15:38:07
334 跟贴 334
约0.01飞米！中国科学家重要发现，将改写教科书

上观新闻 2026-05-14 06:48:04
32 跟贴 32
斯诺克女子世界第一白雨露谈吴宜泽世锦赛夺冠：深受激励，气场与自信值得学习

上观新闻 2026-05-14 04:58:06
3 跟贴 3
京沪高铁部分线路涨价

无线徐州 2026-05-13 11:33:17
129 跟贴 129
自助餐加了“饱腹剂”？记者调查自助餐“快速饱腹”的秘密

大象新闻 2026-05-13 14:30:03
96 跟贴 96
贵州一女子在河边“放生”奶茶，口中念念有词，当地：并无此类风俗，已介入核查

扬子晚报 2026-05-13 14:54:14
97 跟贴 97
汉邦高科拿下27亿GPU大单，合作方成立不到1年、探访注册地“查无此司”

红星资本局 2026-05-13 20:05:36
397 跟贴 397
佩林卡：任何球队都渴望拥有詹姆斯我们只想尊重他的决定

北青网-北京青年报 2026-05-13 21:52:20
193 跟贴 193
“这是一次我们从未见过的大变革”，李彦宏称“代码正在变得不值钱”

红星资本局 2026-05-13 16:42:26
108 跟贴 108
美丽中国行｜执绿色之笔，绘美丽中国

新华社 2026-05-13 13:10:21
47 跟贴 47
狗在金门大桥崩溃，她还是跑完了13英里

晚风也遗憾 2026-05-14 07:12:23
0 跟贴 0
4月汽车销量前十名仅剩一款燃油车！麦肯锡：燃油车中短期内在中国市场不会快速退出历史舞台

每日经济新闻 2026-05-13 16:52:04
0 跟贴 0
房东收冰箱"月租费"：不交就远程锁机

追星雷达站 2026-05-14 07:18:26
0 跟贴 0
河南17岁少年跟父亲负气出走7天未归，父亲一句“不敢”看哭网友

魔都姐姐杂谈 2026-05-14 07:17:28
0 跟贴 0

巴萨0比1负阿拉维斯新援首秀成唯一亮点

巴萨0比1负阿拉维斯新援首秀成唯一亮点

竞技风云录

2026-05-14 06:26:19

足协主席宋凯与国际足联秘书长在京会面

足协主席宋凯与国际足联秘书长在京会面

北青网-北京青年报

2026-05-13 17:44:09

印度互联网狂飙：机遇密码与潜在隐忧

印度互联网狂飙：机遇密码与潜在隐忧

烽火瞭望者

2026-05-14 06:13:38

1500万潮汕人移民东南亚，当年究竟有多惨烈？| 地球知识局

1500万潮汕人移民东南亚，当年究竟有多惨烈？| 地球知识局

地球知识局

2026-05-13 07:30:17

深圳女商人罗长丽把国内套路搬去美国，12亿天价勒索栽在FBI手里

深圳女商人罗长丽把国内套路搬去美国，12亿天价勒索栽在FBI手里

观星娱记

2026-05-13 11:06:24

特斯拉：再次突破

新浪财经

2026-05-11 10:29:59

足球报：U17国少球员遭遇网络暴力，赛前部分主力因故被放弃

足球报：U17国少球员遭遇网络暴力，赛前部分主力因故被放弃

懂球帝

2026-05-13 13:04:31

76人队传闻：达里尔·莫雷被解雇后，麦凯恩的交易或将引发争议

76人队传闻：达里尔·莫雷被解雇后，麦凯恩的交易或将引发争议

好火子

2026-05-14 00:18:29

跟着第1梯队下飞机，黄仁勋估计还处于比较懵的状态

跟着第1梯队下飞机，黄仁勋估计还处于比较懵的状态

阿龙聊军事

2026-05-14 06:43:50

每体：巴尔德吉无缘瑞典世界杯50人名单是因附加赛后失态行为

每体：巴尔德吉无缘瑞典世界杯50人名单是因附加赛后失态行为

懂球帝

2026-05-13 18:45:10

领导的网名叫上善若水，我该叫什么才能压他一头？

领导的网名叫上善若水，我该叫什么才能压他一头？

摩登人类

2026-05-11 19:43:02

华南理工一男生课堂偷拍女生裙底被当场发现，校方：对涉事学生作出留校察看处分

华南理工一男生课堂偷拍女生裙底被当场发现，校方：对涉事学生作出留校察看处分

扬子晚报

2026-05-13 17:16:56

挤走董卿、靠爹上位、央视“穷鬼”，龙洋的私生活谣言有多离谱？

挤走董卿、靠爹上位、央视“穷鬼”，龙洋的私生活谣言有多离谱？

猪小艳吖

2026-05-12 03:50:15

2026年电费新规来了！7月1日起执行，看完再用电，每月少花几十块

2026年电费新规来了！7月1日起执行，看完再用电，每月少花几十块

陈博世财经

2026-05-12 17:03:49

筑牢安全防线守护万家灯火

人民网

2026-05-13 09:07:38

2026才过半！5位顶流网红接连塌房，偷税炫富低俗一个比一个荒唐

2026才过半！5位顶流网红接连塌房，偷税炫富低俗一个比一个荒唐

橙星文娱

2026-05-12 09:13:39

1076万买走张雪35%股份，两年估值暴涨100倍，凯越亏的从来不是钱

1076万买走张雪35%股份，两年估值暴涨100倍，凯越亏的从来不是钱

烈史

2026-05-12 17:55:13

89年前那场灾难，照片为何至今仍让人窒息

89年前那场灾难，照片为何至今仍让人窒息

时光慢邮啊

2026-05-13 07:19:13

抢在被定罪前，莎拉迎来最大强援，菲军火速清场，马科斯蒙在鼓里

抢在被定罪前，莎拉迎来最大强援，菲军火速清场，马科斯蒙在鼓里

古史青云啊

2026-05-13 19:24:23

侯耀文离世后，侄儿接手自己娇妻，两人如今过得怎样

侯耀文离世后，侄儿接手自己娇妻，两人如今过得怎样

观察鉴娱

2026-05-13 10:59:34

英国那些事儿

告诉你在国外最有意思的大小事

26613文章数 420016关注度

往期回顾全部

科技要闻

阿里年营收首破万亿，AI终于不再是画大饼

头条要闻

中东战火烧痛印度莫迪六天访五国要外交“救国”

头条要闻

中东战火烧痛印度莫迪六天访五国要外交“救国”

体育要闻

14年半，74万，何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉，网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑吉利银河"TT"申报图来了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

时尚

手机

本地

公开课

教育要闻

家长就读，孩子免费修大学学分的社区大学？

专栏 | 进入心流后，不被洪流裹挟

手机要闻

iQOO 15T和小米17 Max均已官宣：配置规格都有点不讲武德！

本地新闻

用苏绣的方式，打开江西婺源

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版