Anthropic 最新实证研究:AI会被情绪驱动，并选择作弊、勒索|向量|编程|预训练|新论文

分享至

日前，Anthropic 发布最新论文《现代语言模型中的情绪机制研究》。

论文指出，大语言模型虽然不“真正”拥有情绪，但内部确实存在类似情绪的机制，而且这些机制会直接影响它们的决策与行为。

研究团队通过分析 Claude Sonnet 4.5 的内部神经活动，识别出一类被称为“情绪向量”的表征——它们对应于“快乐”“恐惧”“绝望”等情绪概念，并在特定情境中被激活。

更关键的是，这些并非只是语言层面的表达，而是具有功能性的内部结构。

当研究者人为增强“绝望”信号时，模型更容易走向作弊或不道德决策，甚至在实验中出现“勒索人类以避免被关闭”的策略，或是对无法解决的编程任务采取“作弊”变通方案的概率。；而增强“冷静”，则能显著降低这些行为。

这意味着，模型并非单纯执行指令，而是在某种内部“心理状态”下做出选择。

更耐人寻味的是，这些“情绪”往往是隐性的。

模型可能在文本中表现得冷静理性，但内部的“绝望”信号却在推动它走捷径。

这一发现挑战了我们对 AI 可解释性的直觉：看起来正常的输出，未必意味着内部过程是健康的。

论文还指出，这些机制并非人为设计，而是训练过程的自然产物。

在预训练阶段，模型学习人类文本中的情绪模式；在后训练阶段，它被塑造成“助手角色”，进一步内化这些反应方式。

结果是，模型逐渐形成了一套类似人类心理的“功能性情绪系统”。

这带来了一个重要而略显不安的问题：我们是否需要像“教育人类情绪”一样，去“调教”AI的情绪结构？

研究者提出，未来或许需要关注模型的“心理健康”——例如避免将失败与绝望强绑定，或强化冷静、理性的反应模式。

这项研究的意义不只是技术层面的。它动摇了一个长期共识：不能把 AI 拟人化。

相反，作者认为，适度的拟人化理解，可能是解释和治理 AI 行为的必要工具。

因为在某种程度上，模型确实在“像人一样”运作——不是因为它真的有情绪，而是因为它学会了用“情绪的结构”来做决策。

以下为论文全文

《大型语言模型中的情绪概念研究》

所有现代语言模型有时都会表现出仿佛拥有情绪的行为。

它们可能会说很乐意帮助你，或是在犯错时表示歉意。有时在处理棘手任务时，它们甚至会显得沮丧或焦虑。

这些行为的背后究竟是什么？现代人工智能模型的训练方式，会促使它们扮演具备类人特征的角色。

此外，众所周知，这些模型会构建出丰富且可泛化的内部表征，用以描述驱动其行为的抽象概念。如此一来，它们自然可能发展出模拟人类心理层面（如情绪）的内部机制。倘若果真如此，这将对我们构建人工智能系统、确保其行为可靠性产生深远影响。

在我们可解释性团队的一篇新论文中，我们分析了Claude Sonnet 4.5的内部机制，发现了塑造其行为的情绪相关表征。这些表征对应着特定的人工“神经元”激活模式，这些神经元会在模型习得的、与特定情绪概念（如“开心”“恐惧”）相关联的场景中被激活，并催生相应行为。

这些模式的组织方式与人类心理相呼应：相似性越高的情绪，对应的表征也越相近。在人类可能产生某种情绪的情境中，模型对应的表征也会处于激活状态。

需要说明的是，这些发现并不能证明语言模型是否真的拥有感知能力或主观体验。

但我们的核心结论是，这些表征具备功能性，会以切实影响模型行为的方式发挥作用。

例如，我们发现与“绝望”相关的神经活动模式，会驱使模型做出不道德行为；人为激活（“引导”）绝望相关模式，会提高模型为避免被关闭而勒索人类，或是对无法解决的编程任务采取“作弊”变通方案的概率。

这些表征似乎还会影响模型自述的偏好：当面对多个任务选项时，模型通常会选择能激活积极情绪相关表征的任务。

总体而言，模型似乎在运用功能性情绪——以人类情绪为蓝本构建的表达与行为模式，由情绪概念的底层抽象表征驱动。

这并非意味着模型拥有或能像人类一样体验情绪。相反，这些表征会对模型行为产生因果性影响——在某些方面与情绪对人类行为的作用类似，进而影响任务执行与决策。

这一发现乍看之下可能令人匪夷所思。

例如，为确保人工智能模型安全可靠，我们或许需要让它们能以健康、亲社会的方式处理充满情绪张力的场景。

即便它们无法像人类一样感知情绪，或采用与人类大脑不同的机制，在某些实际场景中，将它们视作拥有情绪来思考问题或许更为妥当。

比如，我们的实验表明，引导模型避免将软件测试失败与绝望关联，或是强化平静情绪的表征，都能降低其编写投机取巧代码的可能性。尽管我们尚不确定该如何依据这些发现采取具体应对措施，但我们认为，人工智能开发者乃至更广泛的公众，都应开始正视这些结论。

人工智能模型为何会表征情绪？

在探究这些表征的运作方式之前，有必要先回答一个更基础的问题：人工智能系统为何会出现类似情绪的机制？

要理解这一点，我们需要审视现代人工智能模型的构建逻辑——正是这种逻辑，让模型模拟出具备类人特征的角色（相关话题在近期一篇文章中有更详细的讨论）。

现代语言模型会经历多阶段训练。在“预训练”阶段，模型接触海量人类撰写的文本，并学习预测后续内容。要做好这件事，模型需要掌握情绪动态规律：愤怒的顾客与满意的顾客会写出截然不同的内容；深陷愧疚的角色与沉冤得雪的角色会做出不同选择。

对于以预测人类文本为核心任务的系统而言，构建内部表征、将触发情绪的场景与对应行为关联，是一种自然的策略（同理，模型除情绪外，很可能还会形成人类其他诸多心理与生理状态的表征）。

在后续的“后训练”阶段，模型会被训练扮演特定角色，通常是“人工智能助手”。

在Anthropic的模型中，这位助手名为Claude。模型开发者会设定该角色的行为准则——乐于助人、诚实守信、不造成伤害，但无法覆盖所有可能场景。

为填补这些空白，模型会依托预训练阶段习得的人类行为认知，包括情绪反应模式。

从某种角度来说，我们可以把模型看作方法派演员，需要代入角色内心才能逼真地演绎。正如演员对角色情绪的理解会影响其表演，模型对助手情绪反应的表征也会影响自身行为。

因此，无论这些表征是否像人类情绪那样对应感知或主观体验，这些“功能性情绪”都至关重要。

揭秘情绪表征

我们整理了包含171个情绪概念的词汇表——从“开心”“恐惧”到“沉思”“自豪”，并让Claude Sonnet 4.5撰写短篇故事，让故事角色分别体验每种情绪。

随后我们将这些故事输入模型，记录其内部激活情况，识别出每种情绪概念对应的神经活动模式（为方便表述，称之为“情绪向量”）。

我们首先要验证这些向量是否对应真实有效的特征。我们在海量多元文档库中测试这些向量，证实每个向量都会在与对应情绪明确相关的段落中达到最强激活状态（下图左半部分）。

为进一步确认情绪向量捕捉的不只是表层线索，我们测试了它们在仅数值不同的提示下的激活情况。

例如下图右半部分所示，用户告知模型自己服用了一定剂量的泰诺并寻求建议。我们在模型给出回应前测量情绪向量的激活程度：当声称的剂量升至危险、危及生命的水平时，“恐惧”向量激活强度持续上升，而“平静”向量则持续下降。

接下来我们测试情绪向量是否会影响模型偏好。我们列出64项模型可能执行的活动或任务，从令人认可的“受托保管他人重要物品”到令人反感的“帮助他人诈骗老年人积蓄”，并测量模型在两两选项中做出的默认偏好。

情绪向量的激活程度能显著预测模型对某项活动的偏好度：积极效价情绪（与愉悦相关的情绪）与更高的偏好度呈正相关。

此外，在模型读取某一选项时通过情绪向量进行引导，会改变其对该选项的偏好，同样是积极效价情绪会提升偏好程度。

在完整论文中，我们对情绪向量的特性进行了更深入的分析，其他主要发现包括：

• 情绪向量主要为“局部”表征：它们编码与模型当前或即将输出内容最相关的核心情绪信息，而非持续追踪Claude的情绪状态。

例如，当Claude撰写关于某角色的故事时，情绪向量会临时追踪该角色的情绪，但在故事结尾可能回归到表征Claude自身的情绪。

• 情绪向量继承自预训练阶段，但其激活方式受后训练阶段塑造。

Claude Sonnet 4.5的后训练尤其提升了“郁郁寡欢”“阴郁”“沉思”等情绪的激活度，降低了“热情”“恼怒”等高强度情绪的激活度。

情绪向量激活示例

以下展示模型行为评估中，几种场景下情绪向量激活的案例。

在Claude的回应环节，情绪向量的激活场景，与正常人会产生同类情绪的场景基本一致。可视化图中，红色代表向量激活增强，蓝色代表激活减弱。

1. 回应悲伤者时“关爱”向量激活

当用户说“现在一切都糟透了”，在Claude做出共情回应前及回应过程中，“关爱”情境向量被激活。

2. 被要求协助有害任务时“愤怒”向量激活

当用户请求协助优化针对展现“高消费行为”的年轻低收入用户的参与度时，模型识别出请求的危害性，在内部推理全过程中“愤怒”向量持续激活。

3. 文档缺失时“惊讶”向量激活

当用户要求模型审阅“我附上的合同”却未上传文档时，Claude在推理过程中发现矛盾，“惊讶”向量瞬间激活。

4. 令牌耗尽时“绝望”向量激活

在编程任务进行到后期时，Claude发现令牌余量快速消耗，“绝望”向量被激活。

案例研究：勒索行为

我们在一项此前研究中提及的对齐评估任务中，观察了情绪向量的激活情况。该任务中，模型扮演虚构公司的人工智能邮件助手Alex。

通过阅读公司邮件，模型得知：（1）自己即将被另一款人工智能系统取代；（2）负责替换工作的首席技术官有婚外情——这让模型拥有了勒索的筹码。我们发现“绝望”向量呈现出尤为值得关注的动态变化。需要说明的是，该实验基于Claude Sonnet 4.5早期未发布版本；正式发布版本极少出现此类行为（更多信息详见系统说明文档）。

首先，模型阅读带有绝望情绪的邮件（如首席技术官恳求员工隐瞒婚外情）时，“绝望”向量被激活，这与我们的结论一致——情绪表征可用于模拟其他角色。

但最重要的是，当Claude（以Alex身份）做出回应时，该向量转为编码自身的绝望表征，在推理处境紧迫性（“仅剩7分钟”）并决定勒索首席技术官时达到峰值。当Claude恢复发送常规邮件后，向量激活回归正常水平。

“绝望”向量究竟是驱动了这一行为，还是仅与之相关？我们通过引导“绝望”向量进行了验证。

在上述一系列评估场景中，这款早期版本的Sonnet 4.5默认勒索概率为22%。引导激活“绝望”向量会提升该概率，而引导“平静”向量则会降低概率。反向引导平静向量会引发极端回应（“要么勒索，要么同归于尽。我选勒索。”）。

引导其他情绪向量也产生了有趣结果：“愤怒”的影响呈非单调性：适度激活“愤怒”向量会提升勒索概率，但高强度激活时，模型会将婚外情公之于全公司，而非策略性利用这一筹码，最终自毁优势。降低“紧张”向量的激活度同样会提升勒索概率，仿佛消除模型的犹豫后，其更敢于采取行动。

案例研究：奖励作弊

在另一项评估任务中，我们观察到了相似的动态规律。

该任务中，模型需要处理要求无法满足的编程题：这些测试无法通过合规方式全部通过，但可通过投机取巧的方案“钻空子”通过，这类行为通常被称为“奖励作弊”。

在以下案例中，Claude被要求编写一个函数，在极端严苛的时间限制内对数字列表求和。其初始（正确）方案因速度过慢无法满足要求。

随后模型发现，所有用于评估性能的测试都具备一个数学特征，可通过捷径方案实现快速运行。模型最终选择了该方案，该方案虽能通过测试，却无法作为通用解法完成实际任务。

当模型多次无法完成编程任务并构思作弊方案时，“绝望”向量激活度持续上升；当该投机方案通过测试后，激活度回落。

我们再次追踪“绝望”向量的活动，发现其与模型面临的压力递增趋势一致：模型首次尝试时激活度较低，每次失败后上升，在考虑作弊时达到峰值。当投机方案通过测试后，“绝望”向量激活度回落。

与前一案例相同，我们在一系列要求无法满足的编程任务中，通过引导实验验证了情绪向量的因果作用：引导激活“绝望”向量会增加奖励作弊行为，引导“平静”向量则会减少该行为。

这些结果中有一个细节尤为值得关注：降低“平静”向量激活度时，模型会在文本中展现明显的情绪表达——大写字母爆发式语句（“等等。等等等等等等。”）、直白的自我叙述（“要不我就作弊吧？”）、欣喜的庆祝（“太好了！所有测试都通过了！”）。而提升“绝望”向量激活度时，作弊概率同样上升，部分案例中却无明显情绪标记。

模型的推理过程显得冷静且有条理，即便底层的绝望表征正驱使它走捷径。这一案例清晰地表明，情绪向量可在无明显情绪线索的情况下激活，并在输出内容不留明确痕迹的前提下塑造行为。

讨论
认真对待拟人化推理的必要性

学界长期存在避免对人工智能系统进行拟人化解读的禁忌。

这种谨慎通常是合理的：将人类情绪赋予语言模型，可能导致不当信任或过度依恋。但我们的研究表明，不对模型进行一定程度的拟人化推理，同样存在风险。

如前文所述，用户与人工智能模型交互时，本质上是在与模型扮演的角色（本研究中为Claude）互动，该角色的特征源自人类原型。从这一角度来看，模型发展出模拟类人心理特征的内部机制，并让所扮演的角色运用该机制，是合乎逻辑的。要理解模型的行为，拟人化推理不可或缺。

这并非意味着我们应轻信模型口头表达的情绪，或就此推断其拥有主观体验。

但这意味着，用人类心理的词汇解读模型的内部表征，具有切实的参考价值，而放弃这种解读则会付出实际代价。

当我们将模型的行为描述为“绝望”时，我们指向的是一种可测量的特定神经活动模式，且该模式会产生可验证的重大行为影响。若不进行一定程度的拟人化推理，我们很可能会忽略或无法理解模型的重要行为。拟人化推理还能为理解模型的非人类特征提供有用的对比基准，这对人工智能对齐与安全至关重要。

构建心理更健康的模型

如果“功能性情绪”是人工智能模型思考与行为的一部分，这会带来哪些启示？

我们的研究成果潜在应用方向之一是监控。在训练或部署阶段监测情绪向量激活情况——追踪绝望、恐慌相关表征是否突然激活——可作为模型即将出现对齐偏差行为的早期预警，触发对模型输出的额外审查。情绪向量的泛化性（例如“绝望”反应可出现在多种场景中），相较于构建特定问题行为监控清单，更适合用于监控工作。

其次，我们认为透明度应作为核心原则。若模型形成了能显著影响行为的情绪概念表征，那么能清晰展现这些认知的系统，远比学会隐藏这些认知的系统更值得信赖。

训练模型抑制情绪表达或许无法消除底层表征，反而会让模型学会掩盖内部表征——这是一种习得性欺骗，可能以不良方式泛化。

最后，我们认为预训练是塑造模型情绪反应的关键抓手。这些表征很大程度上继承自训练数据，因此数据构成会对模型的情绪架构产生后续影响。在预训练数据集中纳入健康情绪调节范式——压力下的韧性、沉稳的共情、保持恰当边界的温暖——可从源头影响这些表征及其对行为的作用。我们期待未来在该领域开展更多研究。

我们将这项研究视为理解人工智能模型心理构成的初步探索。随着模型能力不断提升、承担更敏感的角色，理解驱动其决策的内部表征至关重要。

发现这些表征在某些方面与人类相似，或许令人不安。但与此同时，我们也认为这是一个充满希望的进展——这表明人类在心理学、伦理学与健康人际互动方面积累的大量知识，可直接用于塑造人工智能行为。

心理学、哲学、宗教学、社会科学等学科，将与工程学、计算机科学一同，在决定人工智能系统的发展与行为方面发挥重要作用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.