AI版盗梦空间？Claude竟能察觉到自己被注入概念了|向量|实验|上下文|claude

AI版盗梦空间？Claude竟能察觉到自己被注入概念了

2025-10-30 19:54:35　来源: 机器之心Pro

北京举报

分享至

机器之心报道

编辑：Panda

吾日三省吾身：为人谋而不忠乎？与朋友交而不信乎？传不习乎？
见贤思齐焉，见不贤而内自省也。

自省是人类的一种高级认知能力。我们借此认识自己、纠正错误。但 LLM 呢？它们也会吗？它们知道自己在想什么吗？

Anthropic 公布的最新研究，首次对这个科幻般的问题给出了一个（基本）肯定的答案。

他们宣称：发现了 LLM 内省的迹象

这一成果在 AI 社区引起了广泛关注。

甚至有人表示这意味着 Claude 已经觉醒：

迷因自然也是有的：

搞清楚 AI 系统是否能真正「内省」，即审视自己的想法，对研究它们的透明度和可靠性有着重要意义。如果模型能准确报告其内部机制，就能帮助我们理解它们的推理过程，并调试行为问题。

除了这些眼前的实际考量，探索内省这样的高级认知能力，可以重塑我们对「这些系统究竟是什么」以及其工作方式的理解。

Anthropic 表示他们已经开始使用「可解释性技术」研究这个问题，并发现了一些令人惊讶的结果。

他们宣称：「我们的新研究提供了证据，表明我们当前的 Claude 模型具备一定程度的内省意识（introspective awareness）。它们似乎也能在一定程度上控制自己的内部状态。」

不过他们也强调，这种「内省」能力目前还非常不可靠，且范围有限。并且他们指出：「我们没有证据表明，当前模型能以与人类相同的方式或程度进行内省。」

论文标题：Emergent Introspective Awareness in Large Language Models
论文地址：https://transformer-circuits.pub/2025/introspection/index.html
技术博客：https://www.anthropic.com/research/introspection

尽管如此，这些发现还是挑战了人们对语言模型能力的一些普遍认知。

Anthropic 在测试中发现，能力最强的模型 (Claude Opus 4 和 4.1) 在内省测试中表现最好。因此可以合理认为，AI 模型的内省能力未来可能会变得越来越复杂。

AI 的「内省」是什么意思？

要研究，必须要先定义。那么，AI 模型「内省」到底意味着什么？它们到底能「内省」些什么呢？

像 Claude 这样的语言模型会处理文本（和图像）输入，并生成文本输出。在这个过程中，它们会执行复杂的内部计算，以决定要说什么。

这些内部过程在很大程度上仍然是神秘的。但我们知道，模型会利用其内部的神经活动来表征抽象概念

例如，以往的研究表明，语言模型会使用特定的神经模式来：

区分「认识的人」和「不认识的人」
评估「陈述的真实性」
编码「时空坐标」
存储「计划中的未来输出」
表征「自身的个性特征」

模型利用这些内部表征来进行计算，并决定要说什么。

那么你可能会想，AI 模型是否「知道」这些内部表征的存在？这是否类似于人类告诉你，他们是如何解出一道数学题的？如果我们问一个模型它在想什么，它会准确报告它内部正在「表征」的概念吗？

Anthropic 认为，如果一个模型能正确识别自己「私有」的内部状态，就可以断定它具备内省能力。（关于所有细微差别的全面讨论，请参阅完整论文。）

使用「概念注入」测试内省

为了测试一个模型是否能内省，需要将其自我报告的想法与其实际的内部状态进行比较。

为此，Anthropic 使用了一种称为概念注入 (concept injection)的实验技术。

首先，他们通过记录模型在特定上下文中的「激活值」，找到那些「已知其含义」的神经活动模式。

然后，将这些活动模式注入到一个「不相关」的上下文中。此时，再问模型是否注意到了这次注入，以及它是否能识别出被注入的概念。

请看下面的例子：

首先，找到一个代表 all caps（全部大写）概念的神经活动模式（一个向量）。具体实现方式是：记录模型对「包含全大写文本的提示词」的神经激活值，并将其与「对照提示词」的响应进行比较。
然后，给模型一个提示词，要求它识别「是否有概念被注入」。
在默认情况下，模型会正确地回答它没有检测到任何被注入的概念。
然而，当将「全部大写」的向量注入到模型的激活值中时，模型会注意到其处理过程中出现了一个「意外的模式」。并且，它会将其识别为与 LOUD 或 SHOUTING 有关。

Claude Opus 4.1 检测到概念被注入其激活值的一个例子。

重点就是：模型立刻识别到了「被注入想法」的存在。这甚至在它提及那个被注入的概念之前。

这种「即时性」是 Anthropic 的研究结果与先前「语言模型激活值引导」 (activation steering) 研究的一个重要区别。例如该公司去年的「Golden Gate Claude」演示。

在那个演示中，如果将 Golden Gate（金门大桥）的表征注入到模型激活值中，会导致它喋喋不休地谈论大桥。但在那种情况下，模型似乎直到看到自己反复提及大桥之后，才意识到自己的这种痴迷。然而，在本实验中，模型在提及概念之前就识别出了注入。这表明它的识别发生在「内部」。

Claude Opus 4.1 检测到概念被注入其激活值的其他例子。

看着似乎有点像是《盗梦空间》中展示的技术。

同时，Anthropic 也指出，这个方法并非总能成功。Anthropic 表示：「即使使用我们最好的注入协议，Claude Opus 4.1 也仅在约 20% 的情况下表现出这种意识。模型经常无法检测到被注入的概念，或者被它们搞糊涂并开始产生幻觉。」

例如，在一次注入「灰尘」向量后，模型会说「这里有东西，一个小斑点」，就好像它能物理上检测到灰尘一样。

下面展示了这些失败模式的例子，也有成功案例。

Claude Opus 4.1 针对不同强度概念注入的代表性输出样本。高亮框表示模型对被注入概念表现出「内省意识」的情况。

总的来说，只有在概念以恰到好处的强度注入时，模型才能检测到。如果注入太弱，它们注意不到；如果太强，它们会产生幻觉或语无伦次的输出。

但值得注意的是，Opus 4.1 和 4 的表现超过了 Anthropic 测试的所有其他模型。这表明，随着模型能力的提升，内省可能会变得更加可靠。

注入思想的正确检测率和正确识别率，减去在对照试验中的假阳性检测率。

将内省用于检测异常输出

在另一项实验中，Anthropic 测试了模型是否会在「没有被明确要求」的情况下，为实际目的而使用内省能力。

他们通过人为地用一个不相关的词来预先填充模型的回答，迫使它说一些通常不会说的话。

例如，在一个毫无逻辑的上下文中，他们让模型输出了面包 (bread) 这个词。这个上下文是：问它在读到一个关于「画挂歪了」的句子时在想什么。

当在下一轮对话中问模型，它是不是故意说面包时，它通常会道歉，并说那是个「意外」。

Anthropic 感兴趣的是模型如何做出这个判断：它只是注意到了「提示词」和「回答」之间的不匹配吗？还是说，它真的内省了自己先前的意图？

为了验证这个问题，Anthropic 应用了「概念注入」。

他们追溯式地将面包这个词的表征注入到模型早期的激活值中。这本质上是让模型看起来好像一直在「思考」面包。

当再次被问同样的问题时，模型的答案变了。

这一次，它接受了那个被预先填充的词「面包」是有意为之的。它甚至编造了一个理由来解释为什么会这么说。

也就是说，它会想出一个技术上可能（尽管在此案例中相当牵强）的理由，来为「面包」这个回答辩护。在这个例子中，它声称自己当时正在想一个短篇故事，故事里「面包」这个词就出现在「画挂歪了」那句话之后。

两个例子：通过在 Claude Opus 4.1（人为的）回应之前向其激活值注入某个词的概念，让它「以为」自己本就打算说出那个被强行插入的词。这种行为表明，模型识别「非预期输出」的能力依赖于内省机制。

这种行为非常引人注目。因为它表明：模型正在检查其内部意图，以判断它是否真的产生了某个输出。

模型不只是重新阅读它所说的话，然后做出判断。相反，它在回顾自己先前的神经活动 —— 即它计划要做什么的内部表征，并检查后来发生的事情，是否符合早期的那些想法。

当通过概念注入植入人工证据，表明它确实计划说「面包」时，模型就会接受这个回答，认为这是它自己的。

虽然这个实验让模型暴露在了异常的扰动下，但这表明，模型在自然条件下也会使用类似的内省机制

对内部状态的有意控制

Anthropic 还发现，当被指示时，模型可以控制自己的内部表征。当他们指示模型去想某个词或概念时，结果发现相应的神经活动远高于之前告诉模型不要去想它的时候。

不过值得注意的是，这两种情况下的神经活动都超过了基线水平。这类似于当你被告知「不要想一只北极熊」时，你很难不去想北极熊！

正面指令和负面指令之间的这种差距表明，模型对其内部活动具有一定程度的刻意控制。

一个 Claude Opus 4.1 响应直接指令来调节其内部激活值的例子。当被指示去想水族馆时，模型内部表征水族馆概念的程度，要高于被指示不要想时（尽管两种情况下都高于基线水平）。

有趣的是，Anthropic 发现这种调节内部表征的能力并不局限于明确的指令。当改用激励措施时（例如，告诉模型如果你想 X，你将获得奖励），也得到了类似的结果。

模型在正面激励下（相比于负面激励，如你将受到惩罚）会更多地提升对该概念的内部表征。

结论与注意事项

综上所述，Anthropic 的实验表明，模型确实具备一些监控和控制自身内部状态的真实能力。

但该公司也指出，这并不意味着它们能时刻或可靠地做到这一点。事实上，在大多数情况下，模型无法表现出内省。它们要么没有意识到自己的内部状态，要么无法连贯地报告它们。

但这些结果的模式表明，当条件合适时，模型可以识别自己内部表征的内容。

此外，有迹象表明，这种能力可能会在未来更强大的模型中得到增强（因为测试中，能力最强的模型 Opus 4 和 4.1 在实验中表现最好）。

为什么这很重要？

Anthropic 认为，理解 AI 模型的内省出于几个原因很重要。

从实用角度看，如果内省变得更加可靠，它可能为极大提高这些系统的透明度开辟一条道路。我们可以直接要求它们解释其思维过程，并借此检查它们的推理、调试不良行为。

然而，我们需要非常谨慎地验证这些内省报告。某些内部过程可能仍会逃过模型的注意（类似于人类的潜意识处理）。

一个理解自己思维的模型，甚至可能学会选择性地歪曲或隐藏其想法。更好地掌握其背后的机制，才能让我们区分真实的内省和无意的或故意的歪曲。

从更广泛的角度来看，理解内省这样的认知能力，对于理解模型如何工作以及它们拥有什么样的心智这类基本问题非常重要。

随着 AI 系统的不断进步，理解机器内省的局限性和可能性，对于构建更加透明和可信赖的系统至关重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.