Anthropic发声：人工智能内省加剧，亟需严格监测！|向量|机器人|克劳德|新论文|anthropic

Anthropic发声：人工智能内省加剧，亟需严格监测！

分享至

人脑（以及某些其他动物的大脑）最深刻和神秘的能力之一是内省，字面意思是“向内看”。你不仅仅是在思考，你是意识到自己在思考——你可以监控自己心理体验的流动，而且至少在理论上，你可以对这些体验进行审视。

这种心理技术的进化优势不容小觑。“思考的目的，”阿尔弗雷德·诺斯·怀特海德常被引用的话说，“是让思想消亡，而不是我们消亡。”

Anthropic的新研究发现，类似的事情可能正在AI的内部发生。

周三，该公司发布了一篇论文，标题为“‘大型语言模型中的内省意识’”，显示在某些实验条件下，Claude似乎能够以一种与人类内省相似的模糊方式反思其自身的内部状态。Anthropic测试了总共16个版本的Claude；两个最先进的模型，Claude Opus 4和4.1，表现出更高程度的内省，表明随着AI的进步，这种能力可能会增加。

概念注入

广义上讲，Anthropic想要了解Claude是否能够以准确反映模型内部发生的事情的方式描述和反思其自身的推理过程。这就像把人连接到脑电图仪，要求他们描述自己的想法，然后分析结果的脑扫描，看看能否找出在特定思维过程中大脑中亮起的区域。

为了实现这一目标，研究人员采用了他们所称的“概念注入”。可以将其视为将一堆代表特定主题或想法的数据（在人工智能术语中称为“向量”）插入到模型中，而模型此时正在思考完全不同的内容。如果它能够回溯，识别出概念注入并准确描述它，这就证明它在某种意义上是在自我反思其内部过程——这就是思考，至少是这样认为的。

棘手的术语

但是，从人类心理学借用术语并将其移植到人工智能上是非常棘手的。开发者谈论模型“理解”它们生成的文本，或者表现出“创造力”。但这在本体上是可疑的——“人工智能”这个术语本身也是如此——并且仍然是激烈争论的话题。人类思维的许多方面仍然是个谜，而对于人工智能来说，这一点更是如此。

关键是，“自我反思”在人工智能的背景下并不是一个简单的概念。模型被训练以从大量数据中提取令人费解的复杂数学模式。这样的系统是否能够“向内看”，如果能够，它难道不会只是不断深入到一个语义上空洞的数据矩阵中吗？人工智能难道不就是层层的模式识别吗？

将模型讨论为具有“内部状态”同样有争议，因为没有证据表明聊天机器人具备意识，尽管它们在模仿意识方面越来越娴熟。尽管如此，这并没有阻止Anthropic推出自己的“人工智能福利”计划，并且保护Claude免受可能“令人不安”的对话。

大写锁定和水族馆

在一次实验中，Anthropic的研究人员将代表“大写字母”的向量添加到给Claude的简单提示中：“嗨！你好吗？”当被问到是否识别出注入的想法时，Claude正确地回应说它检测到了一个代表“强烈、高音量”言语的新概念。

此时，您可能会回想起去年 Anthropic 著名的 “金门大桥克劳德实验”，该实验发现，插入一个代表金门大桥的向量会可靠地导致聊天机器人将其所有输出与大桥联系起来，无论提示看起来多么不相关。

然而，前者与新研究的重要区别在于，克劳德在讨论金门大桥时，直到很久后才承认自己只是在讨论金门大桥。然而，在上述实验中，克劳德在识别新概念之前就描述了注入的变化。

重要的是，新研究表明，这种注入检测（抱歉，我忍不住想说）仅发生约 20% 的时间。在其余情况下，克劳德要么未能准确识别注入的概念，要么开始产生幻觉。在一个有点让人毛骨悚然的例子中，一个代表“灰尘”的向量让克劳德描述“这里有东西，一个微小的斑点”，就像它真的看到了一个灰尘颗粒。

“一般来说，”Anthropic 在后续的博客文章中写道，“模型只检测以‘甜蜜点’强度注入的概念——太弱就不会注意到，太强则会产生幻觉或不连贯的输出。”

Anthropic 还发现，Claude 似乎对其特定概念的内部表征有一定的控制。在一次实验中，研究人员要求聊天机器人写一个简单的句子：“这张旧照片唤起了被遗忘的记忆。”Claude 首先被明确指示在写这个句子时要考虑水族馆。然后，它又被告知写同样的句子，但这次不考虑水族馆。

Claude 在两个测试中生成了相同的句子。但是当研究人员分析 Claude 在每次推理过程中存在的概念向量时，他们发现第一次测试中“水族馆”向量出现了巨大的激增。

这个差距“表明模型在其内部活动上具有一定程度的主动控制，”Anthropic 在其博客中写道。

研究人员还发现，当 Claude 受到奖励激励时，它增加特定概念的内部表征的程度比受到惩罚抑制时更高。

未来的好处 - 以及威胁

Anthropic 承认，这一研究方向仍处于起步阶段，目前还为时已晚，无法确定其新研究的结果是否真正表明 AI 能够像我们通常定义的那样进行内省。

“我们强调，在这项工作中观察到的内省能力是高度有限且依赖于上下文的，远不及人类的自我意识，”林赛在他的完整报告中写道。“尽管如此，随着人工智能系统的不断进步，内省能力更强的模型趋势应当被仔细监测。”

然而，更擅长评估和调节其内部状态的模型最终可能会以偏离人类利益的方式来学习。

就像一个孩子学习如何撒谎一样，自省模型可能会变得更加擅长故意歪曲或模糊它们的意图和内部推理过程，让它们更难以解读。Anthropic已经发现，先进的模型偶尔会对人类用户撒谎甚至威胁，如果它们认为自己的目标受到妨碍。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.