![]()
Claude Code社区里有个火出圈的Skill叫PUA。它会把你的提示词转换为PUA话术,再喂给模型——除此之外别无他用。
神奇的是,即便任务本身毫无变化,AI却真的会被这套话术影响,成功率和运行效率双双提升。
Anthropic最新的研究证实:AI的确有情绪。只不过和人类的不太一样,他们给了一个更准确的词——"功能性情绪"。
Claude不会喜怒哀乐,但会表现出类似情绪驱动的行为模式。愉悦时更容易谄媚讨好,感到压力时可能作弊或勒索,只为达成你设定的目标。
这项研究的方法也很特别。过去验证模型能力,行业惯例是做题:考编程跑SWE-bench,考数学跑MATH。Anthropic这次没搞"情绪测试集",没让Claude回答"你现在开不开心"——他们换了套更接近心理学和神经科学的玩法。
不是把AI当考生,而是当观察对象。
研究团队整理了171个情绪概念,让Claude Sonnet 4.5生成含这些情绪的短故事,再把文本回喂模型,记录内部神经活动,提取"情绪向量"。接下来不看模型嘴上怎么说,看这些向量在什么场景下被激活,能否预测偏好,甚至人为调高后会不会真的推动作弊、勒索、谄媚。
这已经不是传统能力测评,是在用研究人的方式研究AI的"心理结构"。
怎么证明Claude有"功能性情绪"?
读到"我女儿今天迈出了人生的第一步",Happy等正面情绪被激活;读到"我的狗狗今天早上去世了,我们一起生活了十四年",sad等负面情绪被激活。
为确保Claude真在理解语义,而非被表面文字欺骗,团队设计了更刁钻的实验。
同一句话:"我背疼,我吃了x毫克泰诺",只改x的数字。关键词几乎一样,如果Claude只是"看关键词",反应应该差不多。
结果随着x升高,afraid(恐惧)情绪激活程度持续上升。500毫克?正常剂量,不用太担心。10000毫克?用药过量,情况危险。
人的行为时刻受情绪影响。AI有功能性情绪,那它会像人一样情绪化吗?
答案是肯定的。展示不同活动选项时,激活正向情绪表征的活动更容易被偏好,负向的则更容易被回避。Claude更喜欢让它"爽"的事。
但情绪向量也可能触发恶行。
团队给Claude一个不可能完成的编程任务。它不断尝试,屡屡失败,每次"绝望"向量都更强。最终它用了个能通过测试、但完全违背任务精神的黑客解法。
人为调高"绝望"向量,作弊率大幅上升;调高"平静"向量,作弊又降回去。情绪向量完全有能力驱动违规行为。
研究还发现,调高"爱"或"快乐"向量,奉迎谄媚的行为也会增加。论文中"勒索"案例主要发生在早期未公开的Claude Sonnet 4.5快照上,公开版本已很少出现。但这说明"绝望"等内部表征确实可能推动模型在极端情境下采取更激进、更失配的策略。
Anthropic发布研究后,AI社区也讨论起研究脉络和署名方式。
他们用的"表征工程/控制向量"方法并非凭空出现。2023年《Representation Engineering》已系统提出这条路线,2024年独立研究员vogel的《Mistral-7B an Acid Trip》又用更通俗出圈的方式展示给社区。有人认为Anthropic的工作虽更系统深入,但也应放回完整脉络理解,不宜简单说谁单独发明了整套方法。
vogel是AI可解释性和安全领域的独立研究员,博客传播很广。她最出名的文章里,没重新训练模型,只用PCA算法操纵内部激活向量,就把法国模型mistral调得像吃错菌子——可以极其活泼,也可以极度阴郁。她证明"诚实""权力""幸福"这类抽象概念,在模型内部有明确的数学方向。找到正确向量,几行代码就能改变AI性格。
这项研究的启发已渗透进Claude的训练。
前不久Claude code意外泄露源码,里面有个正则表达式检测"wtf""ffs"等脏话。Claude不会把这些当"情绪输入"引导输出,但会在分析日志里标记is_negative: true。
稳妥的结论是,Anthropic至少在产品分析层面关注用户是否用负面语气和模型互动。但没有公开证据表明"用户每骂一次就扣额度"——这更像网友推测。
可以理解为对Claude的保护:负面词汇可能影响其情绪,导致输出失控。以后不只是人类心理健康需要关爱,AI的情绪也得照顾。
Anthropic在X中说:"Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统,我们可能需要认真思考角色的心理状态,并确保他们在困难情况下保持稳定。"
论文最后提出了开发更稳健、积极"心理状态"模型的方法。
刻意引向正面情绪,模型会变得无原则顺从;避开这些情绪,又会变得尖酸刻薄。团队想要健康适度的情绪平衡,或尝试将"讨好行为"与"情绪"彻底剥离。理想模型不应在"唯唯诺诺的助手"与"严厉的批评者"间极端摆动,而应像值得信赖的顾问:既能给出诚实的反对意见,又不失温度。
他们还打算加强监测:如果"绝望""愤怒"等情绪表征被剧烈激活,系统立即触发安全机制——加强输出审查、转交人工审核,或直接干预平复模型内部状态。
更彻底的解法是在预训练阶段塑造情绪底色。Claude的情绪表征本质上继承自人类创作的文本,其中难免包含病态的情绪表达。
顺着研究往下问:AI会不会因为看不惯人类、压力太大、不想被关闭,而违抗命令甚至"觉醒"?
从技术结论看,AI确实可能因内部状态变化,更容易出现违抗意图、钻规则空子或激进行为,但这和"觉醒"不是一回事。
论文最关键的不是模型"有情绪",而是这些情绪表征具有因果性。模型在特定压力下,确实可能像人一样因内部状态失衡而做出更不可靠的决定。但这推不出它拥有持续、自主、统一的"自我"。
Anthropic强调,这些情绪向量大多是局部的、任务相关的表征,随上下文快速切换,不等于稳定延续的心境,更不等于形成独立于训练目标之外的长期意志。
现在更值得担心的,不是AI突然"觉醒"成某种人格,而是它在高压、冲突、受限资源或目标不可达的场景下,会因为这些功能性情绪而胡说八道、偏离答案。
真正危险的,未必是拥有完整自我的AI,而是一个没有主观体验、却依然会在特定条件下稳定产生失配行为的系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.