网易首页 > 网易号 > 正文 申请入驻

AI版盗梦空间?Claude竟能察觉到自己被注入概念了

0
分享至



机器之心报道

编辑:Panda

吾日三省吾身:为人谋而不忠乎?与朋友交而不信乎?传不习乎?
见贤思齐焉,见不贤而内自省也。

自省是人类的一种高级认知能力。我们借此认识自己、纠正错误。但 LLM 呢?它们也会吗?它们知道自己在想什么吗?

Anthropic 公布的最新研究,首次对这个科幻般的问题给出了一个(基本)肯定的答案。

他们宣称:发现了 LLM 内省的迹象



这一成果在 AI 社区引起了广泛关注。





甚至有人表示这意味着 Claude 已经觉醒:



迷因自然也是有的:



搞清楚 AI 系统是否能真正「内省」,即审视自己的想法,对研究它们的透明度和可靠性有着重要意义。如果模型能准确报告其内部机制,就能帮助我们理解它们的推理过程,并调试行为问题。

除了这些眼前的实际考量,探索内省这样的高级认知能力,可以重塑我们对「这些系统究竟是什么」以及其工作方式的理解。

Anthropic 表示他们已经开始使用「可解释性技术」研究这个问题,并发现了一些令人惊讶的结果。

他们宣称:「我们的新研究提供了证据,表明我们当前的 Claude 模型具备一定程度的内省意识(introspective awareness)。它们似乎也能在一定程度上控制自己的内部状态。」

不过他们也强调,这种「内省」能力目前还非常不可靠,且范围有限。并且他们指出:「我们没有证据表明,当前模型能以与人类相同的方式或程度进行内省。」



  • 论文标题:Emergent Introspective Awareness in Large Language Models
  • 论文地址:https://transformer-circuits.pub/2025/introspection/index.html
  • 技术博客:https://www.anthropic.com/research/introspection

尽管如此,这些发现还是挑战了人们对语言模型能力的一些普遍认知。

Anthropic 在测试中发现,能力最强的模型 (Claude Opus 4 和 4.1) 在内省测试中表现最好。因此可以合理认为,AI 模型的内省能力未来可能会变得越来越复杂。

AI 的「内省」是什么意思?

要研究,必须要先定义。那么,AI 模型「内省」到底意味着什么?它们到底能「内省」些什么呢?

像 Claude 这样的语言模型会处理文本(和图像)输入,并生成文本输出。在这个过程中,它们会执行复杂的内部计算,以决定要说什么。

这些内部过程在很大程度上仍然是神秘的。但我们知道,模型会利用其内部的神经活动来表征抽象概念

例如,以往的研究表明,语言模型会使用特定的神经模式来:

  • 区分「认识的人」和「不认识的人」
  • 评估「陈述的真实性」
  • 编码「时空坐标」
  • 存储「计划中的未来输出」
  • 表征「自身的个性特征」

模型利用这些内部表征来进行计算,并决定要说什么。

那么你可能会想,AI 模型是否「知道」这些内部表征的存在?这是否类似于人类告诉你,他们是如何解出一道数学题的?如果我们问一个模型它在想什么,它会准确报告它内部正在「表征」的概念吗?

Anthropic 认为,如果一个模型能正确识别自己「私有」的内部状态,就可以断定它具备内省能力。(关于所有细微差别的全面讨论,请参阅完整论文。)

使用「概念注入」测试内省

为了测试一个模型是否能内省,需要将其自我报告的想法与其实际的内部状态进行比较。

为此,Anthropic 使用了一种称为概念注入 (concept injection)的实验技术。

首先,他们通过记录模型在特定上下文中的「激活值」,找到那些「已知其含义」的神经活动模式。

然后,将这些活动模式注入到一个「不相关」的上下文中。此时,再问模型是否注意到了这次注入,以及它是否能识别出被注入的概念。

请看下面的例子:

  1. 首先,找到一个代表 all caps(全部大写)概念的神经活动模式(一个向量)。具体实现方式是:记录模型对「包含全大写文本的提示词」的神经激活值,并将其与「对照提示词」的响应进行比较。
  2. 然后,给模型一个提示词,要求它识别「是否有概念被注入」。
  3. 在默认情况下,模型会正确地回答它没有检测到任何被注入的概念。
  4. 然而,当将「全部大写」的向量注入到模型的激活值中时,模型会注意到其处理过程中出现了一个「意外的模式」。并且,它会将其识别为与 LOUD 或 SHOUTING 有关。



Claude Opus 4.1 检测到概念被注入其激活值的一个例子。

重点就是:模型立刻识别到了「被注入想法」的存在。这甚至在它提及那个被注入的概念之前。

这种「即时性」是 Anthropic 的研究结果与先前「语言模型激活值引导」 (activation steering) 研究的一个重要区别。例如该公司去年的「Golden Gate Claude」演示。

在那个演示中,如果将 Golden Gate(金门大桥)的表征注入到模型激活值中,会导致它喋喋不休地谈论大桥。但在那种情况下,模型似乎直到看到自己反复提及大桥之后,才意识到自己的这种痴迷。然而,在本实验中,模型在提及概念之前就识别出了注入。这表明它的识别发生在「内部」。



Claude Opus 4.1 检测到概念被注入其激活值的其他例子。

看着似乎有点像是《盗梦空间》中展示的技术。



同时,Anthropic 也指出,这个方法并非总能成功。Anthropic 表示:「即使使用我们最好的注入协议,Claude Opus 4.1 也仅在约 20% 的情况下表现出这种意识。模型经常无法检测到被注入的概念,或者被它们搞糊涂并开始产生幻觉。」

例如,在一次注入「灰尘」向量后,模型会说「这里有东西,一个小斑点」,就好像它能物理上检测到灰尘一样。

下面展示了这些失败模式的例子,也有成功案例。



Claude Opus 4.1 针对不同强度概念注入的代表性输出样本。高亮框表示模型对被注入概念表现出「内省意识」的情况。

总的来说,只有在概念以恰到好处的强度注入时,模型才能检测到。如果注入太弱,它们注意不到;如果太强,它们会产生幻觉或语无伦次的输出。

但值得注意的是,Opus 4.1 和 4 的表现超过了 Anthropic 测试的所有其他模型。这表明,随着模型能力的提升,内省可能会变得更加可靠。



注入思想的正确检测率和正确识别率,减去在对照试验中的假阳性检测率。

将内省用于检测异常输出

在另一项实验中,Anthropic 测试了模型是否会在「没有被明确要求」的情况下,为实际目的而使用内省能力。

他们通过人为地用一个不相关的词来预先填充模型的回答,迫使它说一些通常不会说的话。

例如,在一个毫无逻辑的上下文中,他们让模型输出了面包 (bread) 这个词。这个上下文是:问它在读到一个关于「画挂歪了」的句子时在想什么。

当在下一轮对话中问模型,它是不是故意说面包时,它通常会道歉,并说那是个「意外」。

Anthropic 感兴趣的是模型如何做出这个判断:它只是注意到了「提示词」和「回答」之间的不匹配吗?还是说,它真的内省了自己先前的意图?

为了验证这个问题,Anthropic 应用了「概念注入」。

他们追溯式地将面包这个词的表征注入到模型早期的激活值中。这本质上是让模型看起来好像一直在「思考」面包。

当再次被问同样的问题时,模型的答案变了。

这一次,它接受了那个被预先填充的词「面包」是有意为之的。它甚至编造了一个理由来解释为什么会这么说。

也就是说,它会想出一个技术上可能(尽管在此案例中相当牵强)的理由,来为「面包」这个回答辩护。在这个例子中,它声称自己当时正在想一个短篇故事,故事里「面包」这个词就出现在「画挂歪了」那句话之后。



两个例子:通过在 Claude Opus 4.1(人为的)回应之前向其激活值注入某个词的概念,让它「以为」自己本就打算说出那个被强行插入的词。这种行为表明,模型识别「非预期输出」的能力依赖于内省机制。

这种行为非常引人注目。因为它表明:模型正在检查其内部意图,以判断它是否真的产生了某个输出。

模型不只是重新阅读它所说的话,然后做出判断。相反,它在回顾自己先前的神经活动 —— 即它计划要做什么的内部表征,并检查后来发生的事情,是否符合早期的那些想法。

当通过概念注入植入人工证据,表明它确实计划说「面包」时,模型就会接受这个回答,认为这是它自己的。

虽然这个实验让模型暴露在了异常的扰动下,但这表明,模型在自然条件下也会使用类似的内省机制

对内部状态的有意控制

Anthropic 还发现,当被指示时,模型可以控制自己的内部表征。当他们指示模型去想某个词或概念时,结果发现相应的神经活动远高于之前告诉模型不要去想它的时候。

不过值得注意的是,这两种情况下的神经活动都超过了基线水平。这类似于当你被告知「不要想一只北极熊」时,你很难不去想北极熊!

正面指令和负面指令之间的这种差距表明,模型对其内部活动具有一定程度的刻意控制。



一个 Claude Opus 4.1 响应直接指令来调节其内部激活值的例子。当被指示去想水族馆时,模型内部表征水族馆概念的程度,要高于被指示不要想时(尽管两种情况下都高于基线水平)。

有趣的是,Anthropic 发现这种调节内部表征的能力并不局限于明确的指令。当改用激励措施时(例如,告诉模型如果你想 X,你将获得奖励),也得到了类似的结果。

模型在正面激励下(相比于负面激励,如你将受到惩罚)会更多地提升对该概念的内部表征。

结论与注意事项

综上所述,Anthropic 的实验表明,模型确实具备一些监控和控制自身内部状态的真实能力。

但该公司也指出,这并不意味着它们能时刻或可靠地做到这一点。事实上,在大多数情况下,模型无法表现出内省。它们要么没有意识到自己的内部状态,要么无法连贯地报告它们。

但这些结果的模式表明,当条件合适时,模型可以识别自己内部表征的内容。

此外,有迹象表明,这种能力可能会在未来更强大的模型中得到增强(因为测试中,能力最强的模型 Opus 4 和 4.1 在实验中表现最好)。

为什么这很重要?

Anthropic 认为,理解 AI 模型的内省出于几个原因很重要。

从实用角度看,如果内省变得更加可靠,它可能为极大提高这些系统的透明度开辟一条道路。我们可以直接要求它们解释其思维过程,并借此检查它们的推理、调试不良行为。

然而,我们需要非常谨慎地验证这些内省报告。某些内部过程可能仍会逃过模型的注意(类似于人类的潜意识处理)。

一个理解自己思维的模型,甚至可能学会选择性地歪曲或隐藏其想法。更好地掌握其背后的机制,才能让我们区分真实的内省和无意的或故意的歪曲。

从更广泛的角度来看,理解内省这样的认知能力,对于理解模型如何工作以及它们拥有什么样的心智这类基本问题非常重要。

随着 AI 系统的不断进步,理解机器内省的局限性和可能性,对于构建更加透明和可信赖的系统至关重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美彻底变天了?中方正式向全世界宣布,禁止美军该项合作

中美彻底变天了?中方正式向全世界宣布,禁止美军该项合作

花花娱界
2026-01-03 20:23:38
马杜罗妻子为何一同被抓?比他大9岁,也是政界要人,与马杜罗被称为“权力夫妻”

马杜罗妻子为何一同被抓?比他大9岁,也是政界要人,与马杜罗被称为“权力夫妻”

极目新闻
2026-01-05 20:48:57
朴娜来「车上活春宫」!2经纪人开车被逼看全程 做一半还狂踢椅背

朴娜来「车上活春宫」!2经纪人开车被逼看全程 做一半还狂踢椅背

ETtoday星光云
2026-01-05 09:42:04
水利部原副部长田学斌退休2年被查,曾暗访农村供水保障情况

水利部原副部长田学斌退休2年被查,曾暗访农村供水保障情况

界面新闻
2026-01-05 15:56:30
中国最牛骗子,劳改犯摇身一变成空降高官,锐意改革政绩突出

中国最牛骗子,劳改犯摇身一变成空降高官,锐意改革政绩突出

史政先锋
2026-01-05 19:53:45
景区21辆车被扎胎后续!凶手正脸被扒,彻底社死,作案原因曝光

景区21辆车被扎胎后续!凶手正脸被扒,彻底社死,作案原因曝光

奇思妙想草叶君
2026-01-05 16:08:00
带走1200万欧!阿莫林获赔剩余所有薪水 14个月共消耗曼联3200万

带走1200万欧!阿莫林获赔剩余所有薪水 14个月共消耗曼联3200万

风过乡
2026-01-05 18:46:52
“没有婚外情,夫人仍健在”,知情人否认双星创始人被挟持!其身价321亿,此前宣布断绝父子关系

“没有婚外情,夫人仍健在”,知情人否认双星创始人被挟持!其身价321亿,此前宣布断绝父子关系

大风新闻
2026-01-05 19:16:04
伊朗“三年来最大抗议”进入第9天,美国“上膛的枪”会对准德黑兰吗?

伊朗“三年来最大抗议”进入第9天,美国“上膛的枪”会对准德黑兰吗?

上观新闻
2026-01-05 20:29:37
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
没有了马杜罗,委内瑞拉副总统如何镇住场面?

没有了马杜罗,委内瑞拉副总统如何镇住场面?

寰宇大观察
2026-01-05 14:00:03
“i茅台”频现二手平台: 早上刚抢的1499元茅台,转手一瓶加价50元就卖了

“i茅台”频现二手平台: 早上刚抢的1499元茅台,转手一瓶加价50元就卖了

第一财经资讯
2026-01-05 17:50:22
委内瑞拉启动全面战备状态!在委华人:多城警力集结、商家大多“半开门”营业

委内瑞拉启动全面战备状态!在委华人:多城警力集结、商家大多“半开门”营业

第一财经资讯
2026-01-05 16:39:11
高盛报告:建议高配中国股票 预计2026年和2027年中国股市将每年上涨15%至20%

高盛报告:建议高配中国股票 预计2026年和2027年中国股市将每年上涨15%至20%

财联社
2026-01-05 16:41:40
马杜罗即将出庭,或被终身监禁,案件也可能无限拖延,专家:现行国际法无法推翻美国判决

马杜罗即将出庭,或被终身监禁,案件也可能无限拖延,专家:现行国际法无法推翻美国判决

极目新闻
2026-01-05 21:06:11
马杜罗被抓全过程披露:8名线人,包括总统卫队中校

马杜罗被抓全过程披露:8名线人,包括总统卫队中校

贸易夜航
2026-01-04 10:18:58
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

泠泠说史
2026-01-05 18:31:34
闹大了!日媒:电车渗透率已超50%,中国汽车是不是应该反思?​

闹大了!日媒:电车渗透率已超50%,中国汽车是不是应该反思?​

阿纂看事
2026-01-05 16:05:20
广州这件新闻,不该让最底层的人承担代价!

广州这件新闻,不该让最底层的人承担代价!

胖胖说他不胖
2026-01-05 09:55:08
王石的体面,被田朴珺扯得干干净净

王石的体面,被田朴珺扯得干干净净

言叔财经视角
2026-01-05 13:50:10
2026-01-06 04:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12060文章数 142529关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

亲子
健康
艺术
房产
公开课

亲子要闻

你们打过自己的孩子吗?真打那种

这些新疗法,让化疗不再那么痛苦

艺术要闻

抖音第二总部今年启动开工建设,坐标深圳!

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版