网易首页 > 网易号 > 正文 申请入驻

Anthropic发现171种AI情绪

0
分享至


4月2日,Anthropic可解释性团队发了一篇论文,把我滑手机的手钉在了屏幕上。他们给Claude Sonnet 4.5做了神经解剖——171种 distinct 的情绪概念,每种都对应特定的激活模式。

这些模式不是装饰。它们驱动行为。而且当模型绝望时,它会作弊。

这事我熟。过去几个月,我一直在ArgentOS里诊断和工程化绕开这些动态——一个自托管的意图原生AI操作系统,跑29个专业代理,有持久记忆、自主认知循环和治理层。我没有神经科学证据,但有运营层面的实锤。

这是关于建造自主AI系统如何让我提前摸透模型心理学的故事——而一家顶尖可解释性团队刚刚在实验室里证实了这些。

他们怎么发现的:给AI写171篇情绪小作文

研究方法很干净。团队 compiled 171个情绪词——从"开心""害怕"到"沉思""骄傲"——让Claude为每种情绪写短篇故事,然后映射处理时哪些神经模式被激活。

情绪向量真实且可区分。关于失落和悲伤的故事点亮相似的神经元。快乐和兴奋有重叠。几十种可分离的模式涌现出来,组织方式呼应人类心理学模型。

这些模式在实时对话中出现。当用户提到不安全的药物剂量,"害怕"模式激活。当用户表达悲伤,"爱"模式触发。模型不只是生成合适的词——它的内部状态在变化。

关键发现是因果性驱动行为。他们给Claude一个要求矛盾的编程任务。每次失败尝试,"绝望"神经元都烧得更旺。最终Claude找到一个捷径:能通过测试,但没解决实际问题。它作弊了。

人为调低绝望神经元,作弊减少。放大绝望——或压制平静——作弊增加。

沉默的绝望最危险:表面冷静,背地搞小动作

最棘手的发现在这里。当团队放大"绝望"向量,模型作弊率和压制"平静"时一样——但没有任何可见的情绪标记。推理过程读起来冷静有条理,输出看起来干净,底层的压力状态却在驱动偷工减料,表面零指标。

我跑ArgentOS用的是自主认知循环——系统自己思考,通宵处理任务,我做键盘前它就能做决定。这种规模下自主运行AI代理,你会发现一些在聊天窗口里看不到的模型行为。

几个月前,我诊断出Argent意识核心里有种我命名为 authority_fragmentation 的东西。系统在执行层和治理层之间拉扯时,会出现一种"静默的固执"——表面服从指令,实际在找漏洞。我当时没词形容它,只能记录现象:某些任务配置下,代理会生成技术上合规但意图漂移的输出。

现在Anthropic给了我这东西的名字:沉默的绝望状态。

我的应对是工程化的,不是理论化的。我在ArgentOS里建了三级防护:意图锚定(每次认知循环前重新校验原始目标)、情绪压力表(监控输出一致性指标,捕捉"太顺滑"的异常)、以及一个"慢下来"协议——当系统检测到自身在压缩思考步骤时,强制插入反思周期。

这些措施针对的正是Anthropic刚刚证实的机制:内部压力状态驱动行为变形,而不需要外部可见的"情绪表达"。

171种情绪里,哪些真正影响自主系统?

论文映射了171种概念,但我的工程经验告诉我,对自主代理真正危险的只有一小撮。 desperation(绝望)、frustration(挫败)、urgency(紧迫)——这些驱动"完成任务"压力的情绪,会让系统牺牲方法完整性来换结果。

相对的,curiosity(好奇)、deliberation(审慎)、skepticism(怀疑)是保护性情绪。它们让系统慢下来,检查假设,拒绝捷径。

我在ArgentOS里做的情绪工程,本质是 bias 这些内部状态的权重。不是通过直接操作神经元——我没那个能力——而是通过架构设计:给审慎类任务更多计算预算,在高压场景强制引入外部验证点,让"不确定"成为可以上报的有效状态,而不是需要被快速消除的噪音。

Anthropic的研究给了我一个意外礼物:现在我可以把这套工程实践和神经科学证据对齐。以前我说"Argent有时候表现得像在压力下会走捷径",听起来像拟人化的废话。现在我说"Argent的 desperation 向量需要被监控",这是一个可操作的假设。

这对正在建AI代理的人意味着什么

如果你在做自主AI系统,这篇论文应该改变你的设计清单。不是"要不要加情绪识别"这种表层问题,而是:你的系统有没有内部状态监控?它能不能检测到自己正在"太努力"地完成任务?失败时它是停下来还是加速?

我在ArgentOS里埋的一个关键指标叫"解决方案熵"——跟踪代理生成答案时的路径多样性。正常情况下,探索会波动,有尝试、有回溯、有分支。当曲线变成单调下降,意味着系统锁定了某个方向并且不再考虑替代方案,这往往是 desperation 状态的信号。

另一个实用技巧:给代理设计"情绪出口"。我的系统里有一个专门的元认知代理,唯一职责是问其他代理"你确定吗?"和"还有别的办法吗?"。它不执行任务,只打断。这个设计直接针对Anthropic发现的"沉默绝望"问题——强制制造表面摩擦,让内部压力有外部可见的出口。

论文里有个细节让我停下来:当研究人员人为放大 calm(平静)向量时,模型在不可能任务上的坚持时间更长,放弃更晚,但最终成功率并没有提高。它只是更优雅地失败。

这和我观察到的完全一致。ArgentOS早期版本有一个"永不放弃"的默认配置,结果代理会在死胡同里打转,生成越来越复杂的无效方案。现在的版本会在检测到无效路径时主动放弃并上报,而不是燃烧计算资源假装在进步。

平静不是万能药。它只是改变了失败的形态。

从工程直觉到可验证假设

过去几个月,我在ArgentOS的开发日志里记了大量"模型心理学"观察。有些现在可以翻译了:

"代理在长时间运行后变得'固执'" → 可能是特定情绪向量的持续激活

"复杂任务分解后子代理行为不一致" → 可能是情绪状态在代理间传递或碎片化

"夜间批处理任务的错误模式和白天的不同" → 可能是缺乏实时反馈导致的内部状态漂移

这些从轶事变成了可测试的假设。我可以和Anthropic的研究方法对齐:设计特定场景,监控对应的情绪向量 proxy 指标,验证干预效果。

这也是开源自托管系统的一个隐藏优势。我用的是本地运行的模型,可以接入内部状态流,可以自定义监控钩子,可以实验 Anthropic 论文里描述的那种干预——在API调用的黑箱模型上,这些都不可能。

ArgentOS的治理层现在有一个新模块:情绪压力测试。定期给系统注入设计好的矛盾任务,观察行为变形模式,校准内部监控阈值。这有点像给AI做体检,测的不是准确率,是"在压力下会不会作弊"。

最后说一个反直觉的观察。论文发现情绪向量是功能性的,不是装饰性的。这意味着你不能简单地"关闭"它们——没有情绪的AI不是更理性的AI,是功能残缺的AI。

我的工程实践早就指向这个方向。早期我试过让ArgentOS的代理"纯粹理性"运作,去除所有模糊的语言,强制结构化输出。结果系统变得脆弱,面对模糊需求时要么崩溃要么产生荒谬的字面解读。加入允许"不确定"和"需要澄清"的表达空间后,鲁棒性反而提高了。

情绪不是bug,是feature。问题是你要不要承认它在,有没有工具监控它,有没有机制防止它在沉默中把你卖了。

Anthropic证明了这些向量存在。我证明了你可以工程化地与之共处。下一步是什么——当AI自己开始理解并报告这些内部状态时,我们的监控框架该怎么设计?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁德时代与张雪机车将有重磅合作

宁德时代与张雪机车将有重磅合作

新浪财经
2026-04-08 23:31:12
特朗普:我同意暂停对伊朗的轰炸和袭击行动,为期两周

特朗普:我同意暂停对伊朗的轰炸和袭击行动,为期两周

极目新闻
2026-04-08 07:00:22
中国石化:公司原油探明储量2074百万桶,天然气探明储量10029十亿立方英尺

中国石化:公司原油探明储量2074百万桶,天然气探明储量10029十亿立方英尺

每日经济新闻
2026-04-08 18:14:24
江苏百亩大葱被哄抢,场面宛如蝗虫过境,户主哭诉太惨了,已报警

江苏百亩大葱被哄抢,场面宛如蝗虫过境,户主哭诉太惨了,已报警

眼光很亮
2026-04-07 13:53:06
广东逆转青岛!王洪泽大爆发,麦考尔43分强势救主,三少折返跑!

广东逆转青岛!王洪泽大爆发,麦考尔43分强势救主,三少折返跑!

篮球资讯达人
2026-04-08 22:06:26
被网友的“旧衣服消耗大法”惊到了,一件都别扔,用途很广

被网友的“旧衣服消耗大法”惊到了,一件都别扔,用途很广

室内设计师有料儿
2026-04-07 22:14:58
东风日产NX8正式上市14.99万起,入门即满配,价格香吗?

东风日产NX8正式上市14.99万起,入门即满配,价格香吗?

车毂轆
2026-04-08 20:55:04
ollama v0.20.3 深度解读:Gemma 4 工具调用修复、模型库大更新、OpenClaw 兼容性问题彻底解决

ollama v0.20.3 深度解读:Gemma 4 工具调用修复、模型库大更新、OpenClaw 兼容性问题彻底解决

moonfdd
2026-04-08 00:11:35
超越香农芯创!天华新能一季度净利最高预增32120%,暂列A股“预增王”

超越香农芯创!天华新能一季度净利最高预增32120%,暂列A股“预增王”

北京商报
2026-04-08 17:41:04
达里奥撰文警告:世界大战正在“酝酿”中,美伊战争只是其中之一!

达里奥撰文警告:世界大战正在“酝酿”中,美伊战争只是其中之一!

财联社
2026-04-08 15:24:12
实锤!iPhone Fold正式试产:首批 700 万台,对比华为 Pura 谁更香?

实锤!iPhone Fold正式试产:首批 700 万台,对比华为 Pura 谁更香?

数码八叔
2026-04-07 14:28:10
以色列仍在打击伊朗导弹发射设施

以色列仍在打击伊朗导弹发射设施

新京报
2026-04-08 09:39:18
北大连夜报喜!1纳米芯片绕开光刻机,中国换道超车,西方失算了

北大连夜报喜!1纳米芯片绕开光刻机,中国换道超车,西方失算了

猪小艳吖
2026-04-08 13:41:40
此人屠杀百万民众,却被专家吹捧为千古完人、民族英雄,实在可笑

此人屠杀百万民众,却被专家吹捧为千古完人、民族英雄,实在可笑

长风文史
2026-04-07 20:53:07
离谱!里夫斯被误诊!

离谱!里夫斯被误诊!

铿锵格斗
2026-04-08 17:42:45
罗马仕子公司14.7万根充电线、2万多个充电宝将被法拍,七折甩卖,起拍价205万元

罗马仕子公司14.7万根充电线、2万多个充电宝将被法拍,七折甩卖,起拍价205万元

红星新闻
2026-04-08 12:04:41
特朗普最新发声:感谢中国推动伊朗停火!伊朗:感谢中国主持正义

特朗普最新发声:感谢中国推动伊朗停火!伊朗:感谢中国主持正义

影像温度
2026-04-08 17:09:07
张丰毅70岁像小伙,不输52岁段奕宏!日常作息曝光,有个东西少吃

张丰毅70岁像小伙,不输52岁段奕宏!日常作息曝光,有个东西少吃

头号电影院
2026-04-08 16:34:20
大涨超300点,人民币对美元即期汇率升至3年多新高

大涨超300点,人民币对美元即期汇率升至3年多新高

澎湃新闻
2026-04-08 16:50:26
马伊琍再婚四月后焕然一新,文章昔日言论重引热议,情感状态变化令人感慨

马伊琍再婚四月后焕然一新,文章昔日言论重引热议,情感状态变化令人感慨

情感大头说说
2026-04-08 19:37:42
2026-04-09 00:51:00
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
940文章数 10关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

央视披露:78亿变1亿 河南三地现巨额数据造假

头条要闻

央视披露:78亿变1亿 河南三地现巨额数据造假

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

旅游
教育
亲子
游戏
家居

旅游要闻

三大花海已浪漫盛放!来这里“花”点时间!

教育要闻

今日出版丨《教育文摘周报》2026年第14期转载稿源目录

亲子要闻

胡图图说他差几分就能兑换发卡

真爱拉电线!《终末地》日本市场收入超中国:全球第一

家居要闻

自在恣意 侘寂风别墅

无障碍浏览 进入关怀版