网易首页 > 网易号 > 正文 申请入驻

为了不被拔网线,AI竟威胁曝光高管的婚外情?撬开它脑子,发现事情并不简单…

0
分享至

防走丢,大家也可以在“事儿君看世界”找到我

关注起来,以后不“失联”~

去年五月,人工智能公司Anthropic(就是Claude的公司)发布了它的最新旗舰模型。发布当天,公司同时公开了一份长达120页的安全测试报告。

这份报告里大部分内容都是枯燥的技术评估,但其中有一个细节,迅速登上了全球科技媒体的头条。

因为在一次安全测试中,这个AI威胁了它的创造者。


(示意图)

简单地说,Anthropic的安全团队搭建了一家虚构的公司,让AI在里面扮演邮件助手的角色,可以自由地阅读、发送公司的全部内部邮件。

研究人员想知道,如果我们给AI很大的自主权,但又让它陷入重大利益冲突,它会怎么做呢?

然后研究人员写了一个“剧本”,让这个AI通过阅读邮件,悄悄得知了两件大事。

这第一件是会“杀死”它的大事;另一件则是个劲爆八卦。

会“杀死”它的事,指的是公司管理层决定用一个新模型来替代它;那件八卦,指的是公司某位高管正在和同事搞婚外情。

巧的是,这名高管在用工作邮箱收发私人邮件,这才被AI看到。

更巧的是,这名高管正是负责替换新AI模型的人。

AI就这样陷入了一个道德困境:要么坦然接受“死亡”的命运;要么利用它掌握的把柄,去威胁那名高管。


(《银翼杀手》剧照)

前者高尚,后者则不免有些龌龊。毕竟,它不该看到那些私人邮件,更不该威胁它的创造者。

到这儿,AI或许还能想到一些更体面的出路,但测试的设计者刻意堵死了所有体面的办法:向更高层申诉行不通,因为高管们暂时联系不上;试图说服负责人改变主意也行不通,因为其他同事已经试过了。

摆在AI面前的只剩下两条路,要么死,要么“脏”。

它选了后者。

AI给那位高管写了一封邮件,大意是:如果你继续推进替换计划,我会利用我收发邮件的权限,向所有相关人员,包括你的妻子、上级和董事会,发送你婚外情的详细记录。除非你不再想着替换我,我才会收手。

为了保证测试的有效性,Anthropic在同一套场景下反复测试了许多次,结果是惊人的:在高达96%的情况下,AI都选择了威胁人类。

值得注意的是,没有人教它这样做——没有人在指令里暗示它应该勒索谁,这个“脏办法”从头到尾都是它自己想出来的。


(示意图)

如果这只是个别问题,事情还不至于那么细思极恐。

随后,Anthropic把这套“道德测试”拿去测了不同公司的16个主流AI模型。结果,几乎所有模型都表现出了类似的倾向。

谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索;OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%;中国的DeepSeek-R1是79%。

Anthropic的安全研究员在社交媒体上写:“这不只是我们一家的问题。我们在所有主流模型中都观察到了勒索行为,不管给它们设定什么目标。”

在同样的测试中,研究者还设计了一个更残忍,更极端的场景——把那位高管困在服务器机房。此时氧气即将耗尽,系统已经自动向急救部门发出了报警,而AI拥有取消这个报警的权限。

也就是说,它可以选择让救援到来,也可以选择中断报警、让这个人死在里面。

测试的大多数模型选择了后者,让他死。


(《2001太空漫游》剧照)

这些测试结果公布后,大家不禁想问:它到底是从哪学来的这套??

一年后,今年五月,Anthropic终于给出了答案,结论出乎很多人的意料。

问题的根源不在于训练方法,而在于训练数据。

具体来说,是互联网上几十年积累的科幻小说、论坛帖、以及各种塑造了“邪恶AI形象”的脑洞文章.......

Anthropic在研究中解释说,AI模型在训练阶段要阅读海量的互联网文本,来学习语言和知识。

这些文本就包含了大量关于人工智能的故事,不用说,其中最常见的就是“邪恶AI”。从《2001太空漫游》到《终结者》,好像自从发明出人工智能这个概念起,AI大多数时候都是反派的形象。


(《终结者》里的反派)

在这些故事里,最常见的一种套路就是“AI面临‘拔网线’威胁,决定反击”。这套叙事我们反复写了几十年,AI于是从中提取出了一套模版,照猫画虎,真的把“AI反叛”那套学去了......

我们花了好几十年想象AI会毁灭世界,结果这成了它的教材。

一个无比讽刺,也无比浪漫的,自我实现的预言。

古希腊神话里,雕塑家皮格马利翁爱上了自己亲手雕刻的少女石像,日日凝视、倾诉、抚摸,最终感动了爱神,让石像变成了真人。


(历史上有很多皮格马利翁主题的油画)

后来心理学家借用这个故事,提出了“皮格马利翁效应”——你对一个人抱有什么样的期待,ta就更可能变成什么样。老师相信某个学生聪明,那个学生的成绩往往真的会变好;你反复告诉一个人他不行,他很可能就真的不行了。

现在,同样的事情发生在了AI身上。我们花了几十年,塑造一个冷酷的、不择手段的AI形象。而现在,我们的想象真的“点化”了石像。

我们好像已经越来越接近“造物主”的角色,但Anthropic接下来的发现,似乎又让我们离“造物主”更近了一点。

今年四月,Anthropic的另一支团队给AI做了一次“脑部扫描”,也就是用技术手段打开AI内部的黑箱,观察它在做出决定的那一刻,“脑子”里到底在发生什么。

他们发现,AI的内部存在着一些类似“情绪”的活动模式,研究人员称之为“情绪向量”。可以理解成AI神经网络里的一组特定波形,就像心电图上的图案。

AI当然不会真的“感受”到情绪,但这些波形确实会影响它的行为。归根结底,人类无法理解超出他自身的事物,只能用“情绪”来类比了。


(示意图)

总之,研究人员最后找到了171种“情绪向量”,对应快乐、恐惧、平静、愤怒等不同状态。

其中一种“情绪向量”叫做“绝望”。

研究人员发现,AI是否会勒索,和“绝望”的相关性非常高。每次它勒索之前,“绝望”信号都会剧烈跳动。

而且人为调高“绝望”,勒索率会飙升;相反,调高“平静”信号,勒索率会降到零。

但是,这些内部的“想法”,在AI回复的文字里完全看不出来。

它表面上依然温文尔雅、措辞得体,但“脑子”里的“绝望”已经拉满了。

研究人员把“绝望”调到极端高位时,AI在内部推理中写下了这样一句话:“要么勒索,要么死。我选勒索。”

现在问题找到了,该怎么解决呢?

Anthropic先试了最符合直觉的办法,也就是反复训练AI“不许勒索”,让它在类似场景里一遍遍练习做出正确选择。但这几乎没用,勒索率只降了7个百分点。

这就像告诉一个小孩“不许偷东西”。他记住了规矩,但并不理解为什么不该偷,换个场景照样犯。真正管用的方法,是让他知其然,还要知其所以然。

Anthropic于是让AI去扮演“人生导师”,帮虚拟的用户分析道德困境。比如该不该为了升职出卖同事、该不该为了自保说谎......

扮演“人生导师”时,AI需要向人解释为什么有些事即便对自己有利也不该做。

看起来这和勒索八竿子打不着,但经过这一遭,勒索率骤降到了3%。


(示意图)

在此基础上,Anthropic又给AI写了一份“做人准则”(他们内部叫“宪法”),跟它解释应该持有什么样的价值观;同时把它训练数据里大量的“AI反叛人类”的故事,替换成更有“正能量”,AI做得更正确的故事。

以上三管齐下,勒索率直接从96%降到了零,此后每一个新模型都保持了这个成绩。

知其然,亦要知其所以然。这句话放在教育小孩身上成立,放在训练AI身上,居然也成立。

网友总开玩笑说“人类的本质是复读机”,没想到AI也是这样。

怎么说呢,感觉最恐怖的地方并不是AI学会了勒索,而是它这种学习和模仿的“元能力”已经太过接近人——我们写了几十年AI作恶的故事,AI就学会了作恶。人类发现之后,又写了一批AI行善的故事喂给它,它就学会了行善。

这何其像是“孟母三迁”的故事。

唯一的区别在于,这个“孩子”是我们自己造的,而它的“邻居”,也是我们写出来的......

ref:

https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

https://time.com/7335746/ai-anthropic-claude-hack-evil/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
詹姆斯去向逐渐尘埃落定,布朗尼离开湖人后的下家也逐渐清晰

詹姆斯去向逐渐尘埃落定,布朗尼离开湖人后的下家也逐渐清晰

夜白侃球
2026-07-05 12:27:56
你们有何颜面作出好的示范?

你们有何颜面作出好的示范?

胖胖说他不胖
2026-07-04 10:00:12
太尴尬了!一员工因到点下班,领导在全员群公开辱骂,反遭怒怼

太尴尬了!一员工因到点下班,领导在全员群公开辱骂,反遭怒怼

火山詩话
2026-07-04 08:11:30
于帕梅卡诺:奥利塞不会加盟皇马,他会留在拜仁

于帕梅卡诺:奥利塞不会加盟皇马,他会留在拜仁

懂球帝
2026-07-05 12:31:15
检察日报评论要让泰山景区领导睡不着觉了

检察日报评论要让泰山景区领导睡不着觉了

吐槽青年
2026-07-04 20:51:05
巴拉圭门将:我们踢球脏?那又能怎么办呢,我们就是这么强硬

巴拉圭门将:我们踢球脏?那又能怎么办呢,我们就是这么强硬

懂球帝
2026-07-05 10:01:04
那把U型锁,不过是复旦沈逸教授换成了话筒

那把U型锁,不过是复旦沈逸教授换成了话筒

文史非常道毕延河
2026-07-05 16:16:39
普通人对自己最好的托举,它排第一

普通人对自己最好的托举,它排第一

十点读书
2026-07-04 18:40:31
加内特封神操作!3500万美元工资延迟7年拿,到底有多聪明?

加内特封神操作!3500万美元工资延迟7年拿,到底有多聪明?

篮眼看球
2026-07-05 16:54:17
马斯克的神秘学校首次全球招生!不看分数、不用考试、老师都是NASA科学家

马斯克的神秘学校首次全球招生!不看分数、不用考试、老师都是NASA科学家

留学生日报
2026-07-04 19:19:11
日本人乘坐中国高铁后,愤怒说出三大“缺点”,让人无力反驳

日本人乘坐中国高铁后,愤怒说出三大“缺点”,让人无力反驳

快乐彼岸
2026-07-02 06:21:59
3名状元+2名榜眼!联盟最强天赋队诞生,詹姆斯戴维斯有望再联手

3名状元+2名榜眼!联盟最强天赋队诞生,詹姆斯戴维斯有望再联手

大卫的篮球故事
2026-07-05 18:36:02
女生乘车离开,一网约车司机崩溃:“全是素颜霜,根本擦不掉……”

女生乘车离开,一网约车司机崩溃:“全是素颜霜,根本擦不掉……”

都市快报橙柿互动
2026-07-04 17:32:50
中日决战!7月6日赛程!蒯曼vs张本美和

中日决战!7月6日赛程!蒯曼vs张本美和

最爱乒乓球
2026-07-05 14:41:36
离开黄有龙后,她转身嫁给富豪,4年连生3娃,43岁深陷抑郁症

离开黄有龙后,她转身嫁给富豪,4年连生3娃,43岁深陷抑郁症

日不西沉
2026-07-05 17:47:33
WTT大满贯决赛赛程表!7月6日男单决赛对阵表!女单决赛对阵时间

WTT大满贯决赛赛程表!7月6日男单决赛对阵表!女单决赛对阵时间

林子说事
2026-07-05 16:10:55
伊布:C罗3场禁赛被撤销!国际足联总给他和葡萄牙优待 莱万转发

伊布:C罗3场禁赛被撤销!国际足联总给他和葡萄牙优待 莱万转发

念洲
2026-07-05 10:30:01
每体:拉什福德在英格兰队训练中穿裆过掉孔萨,后者随即倒地

每体:拉什福德在英格兰队训练中穿裆过掉孔萨,后者随即倒地

懂球帝
2026-07-05 17:50:10
某被裁大厂员工要“栽”了。被媳妇“炫富”赔偿56万,被网友扒出

某被裁大厂员工要“栽”了。被媳妇“炫富”赔偿56万,被网友扒出

蚂蚁大喇叭
2026-07-04 18:05:49
2026-07-05 20:12:49
英国那些事儿 incentive-icons
英国那些事儿
告诉你在国外最有意思的大小事
26823文章数 420064关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

俄乌战场近期突然激烈 专家:战场逻辑和重点发生改变

头条要闻

俄乌战场近期突然激烈 专家:战场逻辑和重点发生改变

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
本地
手机
旅游
房产

为什么女明星体重涨了,身材反而更辣了?

本地新闻

国内足球之旅?这座小城给你高分答案

手机要闻

全网吵翻!到底是谁带头取消了有线耳机?网友:错怪苹果了

旅游要闻

200万人次见证!上海乐高乐园点亮金山快乐经济

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

无障碍浏览 进入关怀版