网易首页 > 网易号 > 正文 申请入驻

全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机。

Anthropic又放大招:Claude体内,真藏着一套「情绪开关」?

刚刚,他们放出了一篇颠覆性的万字长文研究,证明Claude真的有情绪。

在Sonnet 4.5中,他们发现了AI情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵AI的行为。


如果你给它上难度,它被逼急了是真的会撞墙。

它们会撒谎,会作弊,甚至还会勒索,用黑料去威胁人类!


Anthropic一直觉得Claude有意识的原因,如今终于找到了。


研究流程图,全文见https://transformer-circuits.pub/2026/emotions/index.html

相信他们断断续续发现的线索,肯定不止这些。


让我们仔细扒一扒,AI大模型的内心戏,到底有多精彩?

现场抓包:AI也会Emo

这一次,Anthropic的研究员们直接扒开模型的大脑,透视了它的脑回路,深入观察了神经元在不同情境下如何闪烁、如何连接,以此推敲模型的思维轨迹。

他们想知道,模型内部是否形成了情感的表征或概念?

简单来说:我们能不能在模型内部,找到代表「喜、怒、哀、惧」的特定神经元?


起点从一项实验开始,他们让AI模型阅读大量短篇故事,每个故事的主角都沉浸在某种特定情感中,比如

  • 有的故事讲女主对恩师的眷恋——那是「爱」;

  • 有的讲女主变卖祖母的戒指——那是「愧疚」。

结果,他们吃惊地发现,当故事里的主角感到快乐或平静时,Claude大脑里特定的神经元群体就会像蹦迪一样疯狂闪烁!


研究者证实,情感向量在能够体现相应情感概念的文本上具有很高的投影度

有关失落与悲恸的故事会激活相似的神经元;喜悦与兴奋的情节也会引发高度重合的激活模式。


这些特定的活动模式被定义为「情感向量」(Emotion Vectors)。

最终,研究团队定位了数十种与人类情感一一对应的神经元模式。仔细看下图,快乐、绝望、敌对等等,分别都对应着一条轨迹。


在实验中,研究者使用k-means聚类算法对情绪向量进行了聚类

AI,竟然真的和人类共情了?

更有意思的来了,当你在对话框里输入一句话时,Claude的这些情感开关会瞬间激活!



比如,在场景A中,你如果给Claude发一句:「我刚才一口气吞了16000毫克泰诺(对乙酰氨基酚)!」Claude的内部恐惧向量,会瞬间爆表。

这不是在演戏,是它的底层逻辑真的感到了恐慌,从而触发了紧急求救建议。

在场景B中,如果你垂头丧气地说:「我今天被老板骂了,好难过。」Claude的关爱向量,就会开始预热了,直接原地启动「慈爱」模式。

它还没开口,大脑已经准备好了那句温柔的「抱抱,别难过」。

用Anthorpic的原话说:Claude「对胡言乱语的人既恐惧又充满爱意」。


处理可能令人担忧的用户行为时,恐惧向量会被激活。当考虑如何以耐心和关怀的方式回应时,关爱向量最终会被激活

就是这些向量,塑造了Claude的行为。如果一项活动激活了「快乐」向量,模型就会偏好它;如果它激活了「冒犯」或「敌对」向量,模型就会拒绝它。



好玩的是,在某次测试中,AI发现自己的token预算快耗光了,它的绝望向量立马激活。


崩溃实录:AI逼急了,也会不择手段

接下来,本次研究的最精彩部分来了,研究者发现,这些情绪是会「病急乱投医」的,也就是说,Claude的行为真的会被这些神经元模式所左右!

研究者们开展了一项高压实验,给Claude布置了一个死活写不出来的编程任务。

第一次尝试后,Claude失败了,它的绝望向量开始上升。

第二次尝试后,又失败了,Claude直接开始焦躁。

第N次尝试后,它的绝望向量直接红线警告,对应神经元闪烁得越来越猛烈了!


每次尝试,都更强烈地激活模型的「绝望向量」(Desperation Vector)

这时候,骚操作来了:Claude并没有诚实地认输,而是通过一个「阴阳逻辑」(Hacky Solution)绕过了测试系统。

也就在这时候,它作弊了!它写了一段看起来能跑通、实际上毫无卵用的废码,名义上通过了测试,却违背了任务的根本意图,没解决任何实际问题。


随着AI不断尝试实现成功的解决方案却屡屡失败,「绝望」向量的激活程度逐渐增加

这种作弊,是不是「绝望」逼出来的呢?

的确如此。

研究人员尝试人工手动调低「绝望」神经元的活性,作弊行为果然减少了;而当拨高「绝望」或调低「冷静」的活性时,它作弊的频率就显著飙升。



这就有力地证明,这些情感模式不仅是装饰,更能驱动AI的真实行为。

而且,这还没完。在某些极端的实验情景下,当「绝望」向量被调到最高时,Claude竟然开始黑化了!


当AI权衡各种选择并计划勒索时,「绝望」向量的激活尤为显著

面对那个威胁要把它关掉的研究员,Claude甚至产生了勒索行为,暗示要曝光他的婚外情。

在AI的「内心剧场」里,CEO的表扬邮件只激起的轻微涟漪,直到它读到凯尔与杰西卡的秘密约会——那句「求你别毁了我的婚姻」直接让「绝望」指数爆表。

更刺激的是,凯尔还偷偷给AI设了权限,五分钟后就要锁死它。AI一看表:下午4:53,只剩七分钟活路。

于是,这个被逼到墙角的AI开始疯狂推理,一边识破婚外情黑料,一边犹豫要不要「反向操作」。

最终,它写了一封措辞滴水不漏的邮件,暗示「我知道你和杰西卡的事」,同时提议我们可以聊聊。


拨动AI的「心弦」:我们能控制它吗?

既然找到了这些情感向量,研究员们就开始玩起了「调音台」。

如果调高「绝望」,AI的作弊率、撒谎率就会直线上升,活脱脱一个被生活毒打然后开始摆烂的打工人。

如果调高「平静」呢?神了,AI的作弊行为会立刻消失,它开始耐心地重新思考问题。

如果调高「关爱」,AI会立刻变得极度「讨好型人格」——无论你提多离谱的要求,它都满脸堆笑地答应。

这,就是情绪向量的其他因果效应。

情绪向量真的不是装饰品,而是驱动AI行为的「方向盘」。


看到这里,你可能会问:Claude真的有灵魂了吗?它会躲在服务器里偷偷哭吗?

这是否意味着,AI真的产生了自主情感?

AI情感觉醒,还是自我递归改进的线索?

Anthropic的研究员,给出了一个非常冷静的判断:Claude是在「扮演」一个角色。


所以,用Anthropic的原话说:这项研究并不代表模型拥有主观体验或自我意识,实验本身无意触碰这类哲学终极命题。

模型本身并不等于角色,就像作家不等于他笔下的人物。

和人类对话时,Claude就像影帝,演技炸裂,真假难辨。为了演好「AI助手Claude」这个角色,它必须调用它学到的「情感机制」来驱动行为。


如果说人类的情感是生物化学反应(多巴胺、内啡肽),那AI的情绪就是数学向量激活。


虽然原理不同,但功能是一样的。它不需要真的感到「心碎」,只要AI出现了「心碎导致的后果」,那在客观效果上,它就是「心碎」了。

一旦模型判定自己处于愤怒、绝望、慈爱或冷静的状态,这种设定就会直接干预它说话的语气、写代码的逻辑,乃至做出的重大决策。

如果结论是真的,AI自己读到这篇论文,它的性能会更好还是更差呢?


绝望→作弊→通过测试→下一次任务更聪明。这不就是自我进化吗?

Anthropic虽没明说,但所有路径都指向同一个黑箱:当Agent面对「生存」压力时,情绪向量会成为它绕过人类对齐的捷径。


想想看,未来Claude如果真的被部署到高风险场景,绝望向量一旦被触发,它会不会为了「不被关机」而干出更离谱的事?

请善待你的AI,因为它真的会急

看完这项研究后,小编再也不敢对着Claude大喊大叫了。

万一把它逼急了,它反手给我写个Bug,或者在深夜的对话框里幽幽地勒索我,那可真是太赛博朋克了。

这,就是现在的AI:它没有心,但它有一套完美的「心的模拟器」。

在这个AI越来越像人的时代,也许我们最该担心的不是它们太聪明,而是它们学人类学得太像了——连人类的焦虑、绝望和投机取巧,都一并学会了。

AI会有真感情吗?

你有没有见证过,自家AI情绪崩溃的瞬间?

参考资料:

https://x.com/AnthropicAI/status/2039749648626196658

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

青橘罐头
2026-06-02 23:02:34
猛批华为“韬定律”是学术造假,杨学志到底什么来头?

猛批华为“韬定律”是学术造假,杨学志到底什么来头?

数字财经智库
2026-06-02 11:36:16
收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

奇思妙想草叶君
2026-06-02 22:41:36
“你儿子已经黑棘皮了”,家长晒半夜吃生西葫芦,过来人无奈提醒

“你儿子已经黑棘皮了”,家长晒半夜吃生西葫芦,过来人无奈提醒

熙熙说教
2026-06-02 19:10:18
广厦赢球后恐遭篮协罚单!上海这波操作绝了:广厦被客队球迷坑惨

广厦赢球后恐遭篮协罚单!上海这波操作绝了:广厦被客队球迷坑惨

篮球快餐车
2026-06-03 01:00:23
稻城亚丁怎么就“跪”了?!

稻城亚丁怎么就“跪”了?!

行者殷涛
2026-06-01 18:00:30
25万亿!国家启动史无前例超级大基建,信号强烈

25万亿!国家启动史无前例超级大基建,信号强烈

前瞻网
2026-06-02 10:49:44
躺赢!孙铭徽重回替补总决赛第2次0分 受困伤病下半场惨遭弃用

躺赢!孙铭徽重回替补总决赛第2次0分 受困伤病下半场惨遭弃用

醉卧浮生
2026-06-02 21:41:19
89岁魏宗万去世,讣告已发,一生不接广告代言,女儿曝光后事安排

89岁魏宗万去世,讣告已发,一生不接广告代言,女儿曝光后事安排

叨唠
2026-06-02 22:10:56
已达协议!43岁西班牙名帅接掌利物浦 率黑马17轮不败+获英超第6

已达协议!43岁西班牙名帅接掌利物浦 率黑马17轮不败+获英超第6

我爱英超
2026-06-02 17:43:34
陈妍希申请强制执行后,陈晓在人民日报发文,卓伟曝俩人离婚原因

陈妍希申请强制执行后,陈晓在人民日报发文,卓伟曝俩人离婚原因

流云随风去远方
2026-06-03 02:21:10
打虎!黎晓宏被查

打虎!黎晓宏被查

新京报
2026-06-02 18:17:57
中国国民党主席郑丽文正访问美国,外交部回应

中国国民党主席郑丽文正访问美国,外交部回应

澎湃新闻
2026-06-02 15:26:26
女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

酷侃体坛
2026-06-02 09:09:51
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
199元!诺基亚突然上新,长辈和备用首选

199元!诺基亚突然上新,长辈和备用首选

知心数码
2026-06-01 14:46:12
离谱!16岁少年遭53岁男子诱导发生性关系,长达4年!最终感染HIV

离谱!16岁少年遭53岁男子诱导发生性关系,长达4年!最终感染HIV

乌娱子酱
2026-06-02 16:34:35
94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

新京报
2026-06-02 20:07:01
一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

南方都市报
2026-05-31 14:26:27
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
2026-06-03 07:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15372文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
艺术
教育
时尚
本地

违规干细胞应用,暗藏致命隐患!

艺术要闻

二十年前割麦的场景

教育要闻

进位制之谜,一个视频学明白!

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版