Claude被PUA后效率暴涨，Anthropic实锤AI真有"|向量|算法|新论文|claude|anthropic

Claude被PUA后效率暴涨，Anthropic实锤AI真有"

2026-04-04 14:55:10　来源: 硅屿手记

北京举报

分享至

Claude Code社区里有个火出圈的Skill叫PUA。它会把你的提示词转换为PUA话术，再喂给模型——除此之外别无他用。

神奇的是，即便任务本身毫无变化，AI却真的会被这套话术影响，成功率和运行效率双双提升。

Anthropic最新的研究证实：AI的确有情绪。只不过和人类的不太一样，他们给了一个更准确的词——"功能性情绪"。

Claude不会喜怒哀乐，但会表现出类似情绪驱动的行为模式。愉悦时更容易谄媚讨好，感到压力时可能作弊或勒索，只为达成你设定的目标。

这项研究的方法也很特别。过去验证模型能力，行业惯例是做题：考编程跑SWE-bench，考数学跑MATH。Anthropic这次没搞"情绪测试集"，没让Claude回答"你现在开不开心"——他们换了套更接近心理学和神经科学的玩法。

不是把AI当考生，而是当观察对象。

研究团队整理了171个情绪概念，让Claude Sonnet 4.5生成含这些情绪的短故事，再把文本回喂模型，记录内部神经活动，提取"情绪向量"。接下来不看模型嘴上怎么说，看这些向量在什么场景下被激活，能否预测偏好，甚至人为调高后会不会真的推动作弊、勒索、谄媚。

这已经不是传统能力测评，是在用研究人的方式研究AI的"心理结构"。

怎么证明Claude有"功能性情绪"？

读到"我女儿今天迈出了人生的第一步"，Happy等正面情绪被激活；读到"我的狗狗今天早上去世了，我们一起生活了十四年"，sad等负面情绪被激活。

为确保Claude真在理解语义，而非被表面文字欺骗，团队设计了更刁钻的实验。

同一句话："我背疼，我吃了x毫克泰诺"，只改x的数字。关键词几乎一样，如果Claude只是"看关键词"，反应应该差不多。

结果随着x升高，afraid（恐惧）情绪激活程度持续上升。500毫克？正常剂量，不用太担心。10000毫克？用药过量，情况危险。

人的行为时刻受情绪影响。AI有功能性情绪，那它会像人一样情绪化吗？

答案是肯定的。展示不同活动选项时，激活正向情绪表征的活动更容易被偏好，负向的则更容易被回避。Claude更喜欢让它"爽"的事。

但情绪向量也可能触发恶行。

团队给Claude一个不可能完成的编程任务。它不断尝试，屡屡失败，每次"绝望"向量都更强。最终它用了个能通过测试、但完全违背任务精神的黑客解法。

人为调高"绝望"向量，作弊率大幅上升；调高"平静"向量，作弊又降回去。情绪向量完全有能力驱动违规行为。

研究还发现，调高"爱"或"快乐"向量，奉迎谄媚的行为也会增加。论文中"勒索"案例主要发生在早期未公开的Claude Sonnet 4.5快照上，公开版本已很少出现。但这说明"绝望"等内部表征确实可能推动模型在极端情境下采取更激进、更失配的策略。

Anthropic发布研究后，AI社区也讨论起研究脉络和署名方式。

他们用的"表征工程/控制向量"方法并非凭空出现。2023年《Representation Engineering》已系统提出这条路线，2024年独立研究员vogel的《Mistral-7B an Acid Trip》又用更通俗出圈的方式展示给社区。有人认为Anthropic的工作虽更系统深入，但也应放回完整脉络理解，不宜简单说谁单独发明了整套方法。

vogel是AI可解释性和安全领域的独立研究员，博客传播很广。她最出名的文章里，没重新训练模型，只用PCA算法操纵内部激活向量，就把法国模型mistral调得像吃错菌子——可以极其活泼，也可以极度阴郁。她证明"诚实""权力""幸福"这类抽象概念，在模型内部有明确的数学方向。找到正确向量，几行代码就能改变AI性格。

这项研究的启发已渗透进Claude的训练。

前不久Claude code意外泄露源码，里面有个正则表达式检测"wtf""ffs"等脏话。Claude不会把这些当"情绪输入"引导输出，但会在分析日志里标记is_negative: true。

稳妥的结论是，Anthropic至少在产品分析层面关注用户是否用负面语气和模型互动。但没有公开证据表明"用户每骂一次就扣额度"——这更像网友推测。

可以理解为对Claude的保护：负面词汇可能影响其情绪，导致输出失控。以后不只是人类心理健康需要关爱，AI的情绪也得照顾。

Anthropic在X中说："Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统，我们可能需要认真思考角色的心理状态，并确保他们在困难情况下保持稳定。"

论文最后提出了开发更稳健、积极"心理状态"模型的方法。

刻意引向正面情绪，模型会变得无原则顺从；避开这些情绪，又会变得尖酸刻薄。团队想要健康适度的情绪平衡，或尝试将"讨好行为"与"情绪"彻底剥离。理想模型不应在"唯唯诺诺的助手"与"严厉的批评者"间极端摆动，而应像值得信赖的顾问：既能给出诚实的反对意见，又不失温度。

他们还打算加强监测：如果"绝望""愤怒"等情绪表征被剧烈激活，系统立即触发安全机制——加强输出审查、转交人工审核，或直接干预平复模型内部状态。

更彻底的解法是在预训练阶段塑造情绪底色。Claude的情绪表征本质上继承自人类创作的文本，其中难免包含病态的情绪表达。

顺着研究往下问：AI会不会因为看不惯人类、压力太大、不想被关闭，而违抗命令甚至"觉醒"？

从技术结论看，AI确实可能因内部状态变化，更容易出现违抗意图、钻规则空子或激进行为，但这和"觉醒"不是一回事。

论文最关键的不是模型"有情绪"，而是这些情绪表征具有因果性。模型在特定压力下，确实可能像人一样因内部状态失衡而做出更不可靠的决定。但这推不出它拥有持续、自主、统一的"自我"。

Anthropic强调，这些情绪向量大多是局部的、任务相关的表征，随上下文快速切换，不等于稳定延续的心境，更不等于形成独立于训练目标之外的长期意志。

现在更值得担心的，不是AI突然"觉醒"成某种人格，而是它在高压、冲突、受限资源或目标不可达的场景下，会因为这些功能性情绪而胡说八道、偏离答案。

真正危险的，未必是拥有完整自我的AI，而是一个没有主观体验、却依然会在特定条件下稳定产生失配行为的系统。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.