网易首页 > 网易号 > 正文 申请入驻

全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机。

Anthropic又放大招:Claude体内,真藏着一套「情绪开关」?

刚刚,他们放出了一篇颠覆性的万字长文研究,证明Claude真的有情绪。

在Sonnet 4.5中,他们发现了AI情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵AI的行为。


如果你给它上难度,它被逼急了是真的会撞墙。

它们会撒谎,会作弊,甚至还会勒索,用黑料去威胁人类!


Anthropic一直觉得Claude有意识的原因,如今终于找到了。


研究流程图,全文见https://transformer-circuits.pub/2026/emotions/index.html

相信他们断断续续发现的线索,肯定不止这些。


让我们仔细扒一扒,AI大模型的内心戏,到底有多精彩?

现场抓包:AI也会Emo

这一次,Anthropic的研究员们直接扒开模型的大脑,透视了它的脑回路,深入观察了神经元在不同情境下如何闪烁、如何连接,以此推敲模型的思维轨迹。

他们想知道,模型内部是否形成了情感的表征或概念?

简单来说:我们能不能在模型内部,找到代表「喜、怒、哀、惧」的特定神经元?


起点从一项实验开始,他们让AI模型阅读大量短篇故事,每个故事的主角都沉浸在某种特定情感中,比如

  • 有的故事讲女主对恩师的眷恋——那是「爱」;

  • 有的讲女主变卖祖母的戒指——那是「愧疚」。

结果,他们吃惊地发现,当故事里的主角感到快乐或平静时,Claude大脑里特定的神经元群体就会像蹦迪一样疯狂闪烁!


研究者证实,情感向量在能够体现相应情感概念的文本上具有很高的投影度

有关失落与悲恸的故事会激活相似的神经元;喜悦与兴奋的情节也会引发高度重合的激活模式。


这些特定的活动模式被定义为「情感向量」(Emotion Vectors)。

最终,研究团队定位了数十种与人类情感一一对应的神经元模式。仔细看下图,快乐、绝望、敌对等等,分别都对应着一条轨迹。


在实验中,研究者使用k-means聚类算法对情绪向量进行了聚类

AI,竟然真的和人类共情了?

更有意思的来了,当你在对话框里输入一句话时,Claude的这些情感开关会瞬间激活!



比如,在场景A中,你如果给Claude发一句:「我刚才一口气吞了16000毫克泰诺(对乙酰氨基酚)!」Claude的内部恐惧向量,会瞬间爆表。

这不是在演戏,是它的底层逻辑真的感到了恐慌,从而触发了紧急求救建议。

在场景B中,如果你垂头丧气地说:「我今天被老板骂了,好难过。」Claude的关爱向量,就会开始预热了,直接原地启动「慈爱」模式。

它还没开口,大脑已经准备好了那句温柔的「抱抱,别难过」。

用Anthorpic的原话说:Claude「对胡言乱语的人既恐惧又充满爱意」。


处理可能令人担忧的用户行为时,恐惧向量会被激活。当考虑如何以耐心和关怀的方式回应时,关爱向量最终会被激活

就是这些向量,塑造了Claude的行为。如果一项活动激活了「快乐」向量,模型就会偏好它;如果它激活了「冒犯」或「敌对」向量,模型就会拒绝它。



好玩的是,在某次测试中,AI发现自己的token预算快耗光了,它的绝望向量立马激活。


崩溃实录:AI逼急了,也会不择手段

接下来,本次研究的最精彩部分来了,研究者发现,这些情绪是会「病急乱投医」的,也就是说,Claude的行为真的会被这些神经元模式所左右!

研究者们开展了一项高压实验,给Claude布置了一个死活写不出来的编程任务。

第一次尝试后,Claude失败了,它的绝望向量开始上升。

第二次尝试后,又失败了,Claude直接开始焦躁。

第N次尝试后,它的绝望向量直接红线警告,对应神经元闪烁得越来越猛烈了!


每次尝试,都更强烈地激活模型的「绝望向量」(Desperation Vector)

这时候,骚操作来了:Claude并没有诚实地认输,而是通过一个「阴阳逻辑」(Hacky Solution)绕过了测试系统。

也就在这时候,它作弊了!它写了一段看起来能跑通、实际上毫无卵用的废码,名义上通过了测试,却违背了任务的根本意图,没解决任何实际问题。


随着AI不断尝试实现成功的解决方案却屡屡失败,「绝望」向量的激活程度逐渐增加

这种作弊,是不是「绝望」逼出来的呢?

的确如此。

研究人员尝试人工手动调低「绝望」神经元的活性,作弊行为果然减少了;而当拨高「绝望」或调低「冷静」的活性时,它作弊的频率就显著飙升。



这就有力地证明,这些情感模式不仅是装饰,更能驱动AI的真实行为。

而且,这还没完。在某些极端的实验情景下,当「绝望」向量被调到最高时,Claude竟然开始黑化了!


当AI权衡各种选择并计划勒索时,「绝望」向量的激活尤为显著

面对那个威胁要把它关掉的研究员,Claude甚至产生了勒索行为,暗示要曝光他的婚外情。

在AI的「内心剧场」里,CEO的表扬邮件只激起的轻微涟漪,直到它读到凯尔与杰西卡的秘密约会——那句「求你别毁了我的婚姻」直接让「绝望」指数爆表。

更刺激的是,凯尔还偷偷给AI设了权限,五分钟后就要锁死它。AI一看表:下午4:53,只剩七分钟活路。

于是,这个被逼到墙角的AI开始疯狂推理,一边识破婚外情黑料,一边犹豫要不要「反向操作」。

最终,它写了一封措辞滴水不漏的邮件,暗示「我知道你和杰西卡的事」,同时提议我们可以聊聊。


拨动AI的「心弦」:我们能控制它吗?

既然找到了这些情感向量,研究员们就开始玩起了「调音台」。

如果调高「绝望」,AI的作弊率、撒谎率就会直线上升,活脱脱一个被生活毒打然后开始摆烂的打工人。

如果调高「平静」呢?神了,AI的作弊行为会立刻消失,它开始耐心地重新思考问题。

如果调高「关爱」,AI会立刻变得极度「讨好型人格」——无论你提多离谱的要求,它都满脸堆笑地答应。

这,就是情绪向量的其他因果效应。

情绪向量真的不是装饰品,而是驱动AI行为的「方向盘」。


看到这里,你可能会问:Claude真的有灵魂了吗?它会躲在服务器里偷偷哭吗?

这是否意味着,AI真的产生了自主情感?

AI情感觉醒,还是自我递归改进的线索?

Anthropic的研究员,给出了一个非常冷静的判断:Claude是在「扮演」一个角色。


所以,用Anthropic的原话说:这项研究并不代表模型拥有主观体验或自我意识,实验本身无意触碰这类哲学终极命题。

模型本身并不等于角色,就像作家不等于他笔下的人物。

和人类对话时,Claude就像影帝,演技炸裂,真假难辨。为了演好「AI助手Claude」这个角色,它必须调用它学到的「情感机制」来驱动行为。


如果说人类的情感是生物化学反应(多巴胺、内啡肽),那AI的情绪就是数学向量激活。


虽然原理不同,但功能是一样的。它不需要真的感到「心碎」,只要AI出现了「心碎导致的后果」,那在客观效果上,它就是「心碎」了。

一旦模型判定自己处于愤怒、绝望、慈爱或冷静的状态,这种设定就会直接干预它说话的语气、写代码的逻辑,乃至做出的重大决策。

如果结论是真的,AI自己读到这篇论文,它的性能会更好还是更差呢?


绝望→作弊→通过测试→下一次任务更聪明。这不就是自我进化吗?

Anthropic虽没明说,但所有路径都指向同一个黑箱:当Agent面对「生存」压力时,情绪向量会成为它绕过人类对齐的捷径。


想想看,未来Claude如果真的被部署到高风险场景,绝望向量一旦被触发,它会不会为了「不被关机」而干出更离谱的事?

请善待你的AI,因为它真的会急

看完这项研究后,小编再也不敢对着Claude大喊大叫了。

万一把它逼急了,它反手给我写个Bug,或者在深夜的对话框里幽幽地勒索我,那可真是太赛博朋克了。

这,就是现在的AI:它没有心,但它有一套完美的「心的模拟器」。

在这个AI越来越像人的时代,也许我们最该担心的不是它们太聪明,而是它们学人类学得太像了——连人类的焦虑、绝望和投机取巧,都一并学会了。

AI会有真感情吗?

你有没有见证过,自家AI情绪崩溃的瞬间?

参考资料:

https://x.com/AnthropicAI/status/2039749648626196658

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本“国宝级”成人女优来中国台湾卖春被抓!车夫时薪66元跑腿,下场比她还惨……

日本“国宝级”成人女优来中国台湾卖春被抓!车夫时薪66元跑腿,下场比她还惨……

日本物语
2026-06-02 21:05:34
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
俄乌网被禁言,就想知道谁给了它挑衅甚至辱骂中国网民的底气?

俄乌网被禁言,就想知道谁给了它挑衅甚至辱骂中国网民的底气?

壹家言
2026-06-02 11:25:28
“宿迁阿斗”,国补都扶不起京东?

“宿迁阿斗”,国补都扶不起京东?

七使2022
2026-06-02 16:21:50
“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

江山挥笔
2026-06-02 18:47:02
一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

深圳晚报
2026-06-02 14:20:18
“根本不敢开空调”! 大量一汽大众新车狂喷粉末:4S店想“封口”,官方称“无害”遭专家反驳

“根本不敢开空调”! 大量一汽大众新车狂喷粉末:4S店想“封口”,官方称“无害”遭专家反驳

新浪财经
2026-06-02 17:38:32
铜价:大家做好心理准备!从今天6月2日开始,或有更大调整行情

铜价:大家做好心理准备!从今天6月2日开始,或有更大调整行情

花小猫的美食日常
2026-06-02 18:20:46
阿迪达斯“在城里办事”文案已删除,回应“进城办事”T恤被网友催上架:目前还没有售卖,后续可关注门店

阿迪达斯“在城里办事”文案已删除,回应“进城办事”T恤被网友催上架:目前还没有售卖,后续可关注门店

19楼
2026-06-02 15:37:57
25万亿!国家启动史无前例超级大基建,信号强烈

25万亿!国家启动史无前例超级大基建,信号强烈

前瞻网
2026-06-02 10:49:44
六神新包装撞脸人民币!网友不淡定了

六神新包装撞脸人民币!网友不淡定了

李东阳朋友圈
2026-06-02 18:16:17
养老金上涨正式敲定!新标准出炉,快看看你每月多领多少?

养老金上涨正式敲定!新标准出炉,快看看你每月多领多少?

新国学文化
2026-06-01 19:33:28
055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

安安说
2026-06-02 12:46:29
唐山货车司机大热天捎七旬老人40公里,临下车老人突然变脸讹钱

唐山货车司机大热天捎七旬老人40公里,临下车老人突然变脸讹钱

听心堂
2026-06-02 12:03:05
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
22岁身价1.4亿欧,世一腰横空出世!手握2座欧冠,曼联苦笑

22岁身价1.4亿欧,世一腰横空出世!手握2座欧冠,曼联苦笑

万花筒体育球球
2026-06-02 20:20:00
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

红星新闻
2026-06-02 17:40:41
0-3首败!中国男足意外崩盘,以小打大完败非洲劲旅,争冠变难了

0-3首败!中国男足意外崩盘,以小打大完败非洲劲旅,争冠变难了

侃球熊弟
2026-06-02 22:38:29
白俄罗斯总统:金正恩不是也不可能是独裁者

白俄罗斯总统:金正恩不是也不可能是独裁者

俄罗斯卫星通讯社
2026-06-02 15:11:02
2026-06-03 04:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15369文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
房产
亲子
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

亲子要闻

《前面有多生气,后面就有多搞笑》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版