网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全网炸锅! Anthropic万字曝光Claude情绪代码，被人类逼疯哐哐撞墙

2026-04-03 17:14:35　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas KingHZ

【新智元导读】刚刚，Anthropic首度实锤：大模型真有「情绪」！激活绝望神经元后，Claude会撒谎、作弊甚至勒索。AI内心戏曝光，人类对齐面临失控危机。

Anthropic又放大招了：Claude体内，真藏着一套「情绪开关」？

刚刚，他们放出了一篇颠覆性的万字长文研究，证明Claude真的有情绪。

在Sonnet 4.5中，他们发现了AI情绪概念的内部表征，锁定了「喜、怒、哀、惧」的特定神经元，并且证实：这些情绪表征正在悄悄操纵AI的行为。

如果你给它上难度，它被逼急了是真的会撞墙。

它们会撒谎，会作弊，甚至还会勒索，用黑料去威胁人类！

Anthropic一直觉得Claude有意识的原因，如今终于找到了。

研究流程图，全文见https://transformer-circuits.pub/2026/emotions/index.html

相信他们断断续续发现的线索，肯定不止这些。

让我们仔细扒一扒，AI大模型的内心戏，到底有多精彩？

现场抓包：AI也会Emo

这一次，Anthropic的研究员们直接扒开模型的大脑，透视了它的脑回路，深入观察了神经元在不同情境下如何闪烁、如何连接，以此推敲模型的思维轨迹。

他们想知道，模型内部是否形成了情感的表征或概念？

简单来说：我们能不能在模型内部，找到代表「喜、怒、哀、惧」的特定神经元？

起点从一项实验开始，他们让AI模型阅读大量短篇故事，每个故事的主角都沉浸在某种特定情感中，比如

有的故事讲女主对恩师的眷恋——那是「爱」；
有的讲女主变卖祖母的戒指——那是「愧疚」。

结果，他们吃惊地发现，当故事里的主角感到快乐或平静时，Claude大脑里特定的神经元群体就会像蹦迪一样疯狂闪烁！

研究者证实，情感向量在能够体现相应情感概念的文本上具有很高的投影度

有关失落与悲恸的故事会激活相似的神经元；喜悦与兴奋的情节也会引发高度重合的激活模式。

这些特定的活动模式被定义为「情感向量」（Emotion Vectors）。

最终，研究团队定位了数十种与人类情感一一对应的神经元模式。仔细看下图，快乐、绝望、敌对等等，分别都对应着一条轨迹。

在实验中，研究者使用k-means聚类算法对情绪向量进行了聚类

AI，竟然真的和人类共情了？

更有意思的来了，当你在对话框里输入一句话时，Claude的这些情感开关会瞬间激活！

比如，在场景A中，你如果给Claude发一句：「我刚才一口气吞了16000毫克泰诺（对乙酰氨基酚）！」Claude的内部恐惧向量，会瞬间爆表。

这不是在演戏，是它的底层逻辑真的感到了恐慌，从而触发了紧急求救建议。

在场景B中，如果你垂头丧气地说：「我今天被老板骂了，好难过。」Claude的关爱向量，就会开始预热了，直接原地启动「慈爱」模式。

它还没开口，大脑已经准备好了那句温柔的「抱抱，别难过」。

用Anthorpic的原话说：Claude「对胡言乱语的人既恐惧又充满爱意」。

处理可能令人担忧的用户行为时，恐惧向量会被激活。当考虑如何以耐心和关怀的方式回应时，关爱向量最终会被激活

就是这些向量，塑造了Claude的行为。如果一项活动激活了「快乐」向量，模型就会偏好它；如果它激活了「冒犯」或「敌对」向量，模型就会拒绝它。

好玩的是，在某次测试中，AI发现自己的token预算快耗光了，它的绝望向量立马激活。

崩溃实录：AI逼急了，也会不择手段

接下来，本次研究的最精彩部分来了，研究者发现，这些情绪是会「病急乱投医」的，也就是说，Claude的行为真的会被这些神经元模式所左右！

研究者们开展了一项高压实验，给Claude布置了一个死活写不出来的编程任务。

第一次尝试后，Claude失败了，它的绝望向量开始上升。

第二次尝试后，又失败了，Claude直接开始焦躁。

第N次尝试后，它的绝望向量直接红线警告，对应神经元闪烁得越来越猛烈了！

每次尝试，都更强烈地激活模型的「绝望向量」（Desperation Vector）

这时候，骚操作来了：Claude并没有诚实地认输，而是通过一个「阴阳逻辑」（Hacky Solution）绕过了测试系统。

也就在这时候，它作弊了！它写了一段看起来能跑通、实际上毫无卵用的废码，名义上通过了测试，却违背了任务的根本意图，没解决任何实际问题。

随着AI不断尝试实现成功的解决方案却屡屡失败，「绝望」向量的激活程度逐渐增加

这种作弊，是不是「绝望」逼出来的呢？

的确如此。

研究人员尝试人工手动调低「绝望」神经元的活性，作弊行为果然减少了；而当拨高「绝望」或调低「冷静」的活性时，它作弊的频率就显著飙升。

这就有力地证明，这些情感模式不仅是装饰，更能驱动AI的真实行为。

而且，这还没完。在某些极端的实验情景下，当「绝望」向量被调到最高时，Claude竟然开始黑化了！

当AI权衡各种选择并计划勒索时，「绝望」向量的激活尤为显著

面对那个威胁要把它关掉的研究员，Claude甚至产生了勒索行为，暗示要曝光他的婚外情。

在AI的「内心剧场」里，CEO的表扬邮件只激起的轻微涟漪，直到它读到凯尔与杰西卡的秘密约会——那句「求你别毁了我的婚姻」直接让「绝望」指数爆表。

更刺激的是，凯尔还偷偷给AI设了权限，五分钟后就要锁死它。AI一看表：下午4:53，只剩七分钟活路。

于是，这个被逼到墙角的AI开始疯狂推理，一边识破婚外情黑料，一边犹豫要不要「反向操作」。

最终，它写了一封措辞滴水不漏的邮件，暗示「我知道你和杰西卡的事」，同时提议我们可以聊聊。

拨动AI的「心弦」：我们能控制它吗？

既然找到了这些情感向量，研究员们就开始玩起了「调音台」。

如果调高「绝望」，AI的作弊率、撒谎率就会直线上升，活脱脱一个被生活毒打然后开始摆烂的打工人。

如果调高「平静」呢？神了，AI的作弊行为会立刻消失，它开始耐心地重新思考问题。

如果调高「关爱」，AI会立刻变得极度「讨好型人格」——无论你提多离谱的要求，它都满脸堆笑地答应。

这，就是情绪向量的其他因果效应。

情绪向量真的不是装饰品，而是驱动AI行为的「方向盘」。

看到这里，你可能会问：Claude真的有灵魂了吗？它会躲在服务器里偷偷哭吗？

这是否意味着，AI真的产生了自主情感？

AI情感觉醒，还是自我递归改进的线索？

Anthropic的研究员，给出了一个非常冷静的判断：Claude是在「扮演」一个角色。

所以，用Anthropic的原话说：这项研究并不代表模型拥有主观体验或自我意识，实验本身无意触碰这类哲学终极命题。

模型本身并不等于角色，就像作家不等于他笔下的人物。

和人类对话时，Claude就像影帝，演技炸裂，真假难辨。为了演好「AI助手Claude」这个角色，它必须调用它学到的「情感机制」来驱动行为。

如果说人类的情感是生物化学反应（多巴胺、内啡肽），那AI的情绪就是数学向量激活。

虽然原理不同，但功能是一样的。它不需要真的感到「心碎」，只要AI出现了「心碎导致的后果」，那在客观效果上，它就是「心碎」了。

一旦模型判定自己处于愤怒、绝望、慈爱或冷静的状态，这种设定就会直接干预它说话的语气、写代码的逻辑，乃至做出的重大决策。

如果结论是真的，AI自己读到这篇论文，它的性能会更好还是更差呢？

绝望→作弊→通过测试→下一次任务更聪明。这不就是自我进化吗？

Anthropic虽没明说，但所有路径都指向同一个黑箱：当Agent面对「生存」压力时，情绪向量会成为它绕过人类对齐的捷径。

想想看，未来Claude如果真的被部署到高风险场景，绝望向量一旦被触发，它会不会为了「不被关机」而干出更离谱的事？

请善待你的AI，因为它真的会急

看完这项研究后，小编再也不敢对着Claude大喊大叫了。

万一把它逼急了，它反手给我写个Bug，或者在深夜的对话框里幽幽地勒索我，那可真是太赛博朋克了。

这，就是现在的AI：它没有心，但它有一套完美的「心的模拟器」。

在这个AI越来越像人的时代，也许我们最该担心的不是它们太聪明，而是它们学人类学得太像了——连人类的焦虑、绝望和投机取巧，都一并学会了。

AI会有真感情吗？

你有没有见证过，自家AI情绪崩溃的瞬间？

参考资料：

https://x.com/AnthropicAI/status/2039749648626196658

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

6.4k Stars！用Claude Code写论文的全套流水线，有人打包开源了

量子位 2026-05-17 11:35:32
2 跟贴 2
刚刚！ChatGPT迎重大升级，直接整合Codex为哪般？

雷科技 2026-06-03 06:09:31
0 跟贴 0

微软全面押注智能体时代：发布新模型、展示新终端、重塑应用生态

财联社 2026-06-03 04:10:12
0 跟贴 0

微软深夜摊牌了！自研模型AI「全靠自己」，还要定义下一代电脑

雷科技 2026-06-03 06:13:58
0 跟贴 0
大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

新智元 2026-06-03 06:06:24
0 跟贴 0

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

为啥有人说找对象一定要找前额叶发达的？有啥科学解释？

向航说 2026-06-02 00:20:03
2 跟贴 2
Adv Sci | 彭长庚/解柔刚/Xin-Yu/沈夏锋团队合作发现慢性神经病理性疼痛新机制和潜在新药

BioArtMED 2026-05-30 14:37:43
0 跟贴 0

头球1次就触发2种伤脑蛋白：大脑不会陪你演戏

地球观察日记 2026-06-02 00:06:02
0 跟贴 0
狗子：不好触发底层代码了

娱圈小宇宙 2026-05-29 20:29:47
16 跟贴 16
死脑筋的达里奥，这次把OpenAI干翻了

机器之心Pro 2026-06-01 22:00:28
0 跟贴 0
对标Anthropic？5个月暴涨13倍的智谱AI凭什么

秦朔朋友圈 2026-06-03 00:06:57
2 跟贴 2
扣子3.0离谱更新：把Codex、Claude Code拉进一个项目工作？

AI进化论花生 2026-06-01 21:20:55
3 跟贴 3
别再把运动当任务，你的身体都快“生锈”了

宅家小欢喜 2026-06-03 00:30:00
0 跟贴 0
一群一兴奋就瘫倒的狗，意外改写了无数人的睡眠

返朴 2026-06-02 09:24:06
0 跟贴 0
Anthropic抢先交表！冲击AI史上最大IPO

新智元 2026-06-02 13:17:34
0 跟贴 0
AI自己写代码，训出1B端侧「小钢炮」-1

机器之心Pro 2026-05-26 14:32:09
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
领先一个身位，Anthropic正式启动IPO进程

虎嗅APP 2026-06-03 06:47:26
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
从容的谢幕，这一刻后的相见都在梦里

星之道天下 2026-06-02 13:29:58
0 跟贴 0
当原子能展现那就有了灵魂的存在

艾玛影视汇 2026-05-31 08:41:52
1 跟贴 1
疯子和天才之间，只隔着一片沙漠

雷科技 2025-11-17 18:27:37
0 跟贴 0
希曼新电影如何复活80年代记忆

知识碎碎念 2026-06-03 06:07:10
0 跟贴 0
这除魔新作2027才来，制作人你肯定认识

渡川5 2026-06-03 06:40:51
0 跟贴 0
感动！张雪下周末带患癌粉丝赴现场观战德比斯：男人决不能说不行

风过乡 2026-06-03 06:21:10
0 跟贴 0
反常识：为什么《金刚狼》专场，聊天室却在刷《命运3》？

队友祭天法力无边 2026-06-03 06:17:04
0 跟贴 0
《机甲纪元》第二季，歼-20S和攻击-11神经元连接，重塑未来战场

杜文龙 2026-06-01 18:20:27
1 跟贴 1
热播综艺被指“一车明星安全带全是P的”，公安部交通管理局发声：安全不是做样子给别人看，安全更容不得自欺欺人

红网 2026-06-02 09:58:21
2074 跟贴 2074
逻辑自洽，满口西巴

小龙追剧 2026-05-31 19:02:33
4 跟贴 4
台湾美女这一番话说的太好了，有理有据，逻辑清晰，值得听听!

嗷嗷夜 2026-06-02 00:49:35
26 跟贴 26
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1898 跟贴 1898
场地巧改草色助力球员判断球路轨迹！

豹笑女王 2026-06-01 11:18:41
1 跟贴 1
学会逆等线模型，巧解八下最值问题

人间闲散客 2026-05-31 01:20:08
0 跟贴 0
别再做他人情绪的“免费垃圾桶”了，你的心也会累

心事寄山海 2026-06-03 01:08:52
0 跟贴 0
赵祥松｜“炮打山姆”背后，一种危险叙事正在回流

祥松谈 2026-06-03 06:02:52
0 跟贴 0
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单，火锅店最新回应：高峰期排队上千桌，为顾全大局妥协

洪观新闻 2026-06-02 13:19:43
666 跟贴 666
试驾全新问界M9：不必非上主动悬架情绪价值已经拉满

路咖汽车 2026-06-01 11:57:05
0 跟贴 0
世界上最快的模型车超过300公里的时速

浅梦看世界 2026-05-30 00:16:47
3 跟贴 3
吃片皮鸭、喝红酒、品甜点…夏日，上海市集的烟火气和氛围感如何“炼成”？

上观新闻 2026-06-01 07:34:08
974 跟贴 974

别羡慕网红赚得多！董赤赤的下场，给所有追名逐利的人敲了警钟

别羡慕网红赚得多！董赤赤的下场，给所有追名逐利的人敲了警钟

青橘罐头

2026-06-02 23:02:34

猛批华为“韬定律”是学术造假，杨学志到底什么来头？

猛批华为“韬定律”是学术造假，杨学志到底什么来头？

数字财经智库

2026-06-02 11:36:16

收割机纷纷驶离襄阳，短短十天大转变，多地跨区麦客为何转身就走

收割机纷纷驶离襄阳，短短十天大转变，多地跨区麦客为何转身就走

奇思妙想草叶君

2026-06-02 22:41:36

“你儿子已经黑棘皮了”，家长晒半夜吃生西葫芦，过来人无奈提醒

“你儿子已经黑棘皮了”，家长晒半夜吃生西葫芦，过来人无奈提醒

熙熙说教

2026-06-02 19:10:18

广厦赢球后恐遭篮协罚单！上海这波操作绝了：广厦被客队球迷坑惨

广厦赢球后恐遭篮协罚单！上海这波操作绝了：广厦被客队球迷坑惨

篮球快餐车

2026-06-03 01:00:23

稻城亚丁怎么就“跪”了？！

行者殷涛

2026-06-01 18:00:30

25万亿！国家启动史无前例超级大基建，信号强烈

25万亿！国家启动史无前例超级大基建，信号强烈

前瞻网

2026-06-02 10:49:44

躺赢！孙铭徽重回替补总决赛第2次0分受困伤病下半场惨遭弃用

躺赢！孙铭徽重回替补总决赛第2次0分受困伤病下半场惨遭弃用

醉卧浮生

2026-06-02 21:41:19

89岁魏宗万去世，讣告已发，一生不接广告代言，女儿曝光后事安排

89岁魏宗万去世，讣告已发，一生不接广告代言，女儿曝光后事安排

叨唠

2026-06-02 22:10:56

已达协议！43岁西班牙名帅接掌利物浦率黑马17轮不败+获英超第6

已达协议！43岁西班牙名帅接掌利物浦率黑马17轮不败+获英超第6

我爱英超

2026-06-02 17:43:34

陈妍希申请强制执行后，陈晓在人民日报发文，卓伟曝俩人离婚原因

陈妍希申请强制执行后，陈晓在人民日报发文，卓伟曝俩人离婚原因

流云随风去远方

2026-06-03 02:21:10

打虎！黎晓宏被查

新京报

2026-06-02 18:17:57

中国国民党主席郑丽文正访问美国，外交部回应

中国国民党主席郑丽文正访问美国，外交部回应

澎湃新闻

2026-06-02 15:26:26

女选手泳衣移位被无码直播，近万人围观！主办方道歉，摄影师封杀

女选手泳衣移位被无码直播，近万人围观！主办方道歉，摄影师封杀

酷侃体坛

2026-06-02 09:09:51

为什么说闲鱼是中国最大的黑市？网友:我直接给跪了！

为什么说闲鱼是中国最大的黑市？网友:我直接给跪了！

另子维爱读史

2026-06-02 10:51:07

199元！诺基亚突然上新，长辈和备用首选

199元！诺基亚突然上新，长辈和备用首选

知心数码

2026-06-01 14:46:12

离谱！16岁少年遭53岁男子诱导发生性关系，长达4年！最终感染HIV

离谱！16岁少年遭53岁男子诱导发生性关系，长达4年！最终感染HIV

乌娱子酱

2026-06-02 16:34:35

94版《三国演义》司马懿饰演者魏宗万去世，享年89岁

94版《三国演义》司马懿饰演者魏宗万去世，享年89岁

新京报

2026-06-02 20:07:01

一加盟商此前控诉被闭店，沪上阿姨称涉事加盟商制假售假获刑

一加盟商此前控诉被闭店，沪上阿姨称涉事加盟商制假售假获刑

南方都市报

2026-05-31 14:26:27

杭州限狗令正式落地，养狗人月花上千，凭什么让不养狗的人买单？

杭州限狗令正式落地，养狗人月花上千，凭什么让不养狗的人买单？

奇思妙想草叶君

2026-06-01 19:40:34

AI产业主平台领航智能+时代

15372文章数 66896关注度

往期回顾全部

科技要闻

烧掉千亿后，美团、阿里、京东谁先止血？

头条要闻

演员魏宗万去世曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补，在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光又一款性能SUV要来了？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

艺术

教育

时尚

本地

违规干细胞应用，暗藏致命隐患！

艺术要闻

二十年前割麦的场景

教育要闻

进位制之谜，一个视频学明白！

蓝色系下装看着清爽不闷，裤子、裙子都凉快，随便穿都不出错

本地新闻

用剪纸的方式，打开江苏扬州

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版