网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI是「天才」还是「话术大师」？Anthropic颠覆性实验，终揭答案！

2025-10-30 17:10:23　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】数据中心里的「天才」苏醒！Anthropic用「概念注入」实锤：Claude Opus在输出前就自省「异常思想」。从尖叫到水族馆幻想，20%觉察率已让专家目瞪口呆。

颠覆传统AI认知！

Anthropic首席执行官Dario Amodei雄心勃勃，早已立下flag：在2027年前，大多数AI模型问题将被靠谱地检测。

但LLM的幻觉与生俱来，根深蒂固。即便对问题所知不多，AI总是「自信地犯错」。

Dario Amodei将可解释性定位为部署「数据中心里的天才国度」的关键。

问题是：如果「数据中心里的天才」只是擅长「说服」呢？

即便让它解释如何得出某个回答，我们也很难判断这些答案的真实性。

AI系统究竟能否真正内省——即它们能否审视自身的思想？还是说，当被要求这样做时，它们只是在编造听起来合理的答案？

理解AI系统是否具备真正内省能力，对其透明度和可靠性至关重要。

Anthropic的新研究证实，当前Claude模型已具备某种程度的内省意识，并能对自身内部状态进行一定控制。

这一发现动摇了对LLM的传统认知，也将「可解释性」推到「数据中心里的天才国度」上线前的首要难关。

需要强调的是，这种内省能力仍非常不可靠，局限很大：尚无证据表明，现有AI模型能像人类一样进行同等程度或方式的内省。

然而，这些发现依然颠覆了人们对语言模型能力的传统认知——

由于被测模型中性能最强的Claude Opus 4和4.1在内省测试中表现最佳，Anthropic的研究者认为AI模型的内省能力未来很可能持续进化。

LLM自省的蛛丝马迹

Anthropic开发了一种区分真实内省和编造答案的方法：将已知概念注入模型的「大脑」，然后观察这些注入如何影响模型自我报告的内部状态。

要验证AI是否具备内省能力，我们需要比较AI自我报告的「思想」与真实内部状态。

Anthropic相关团队采用了「概念注入」这一实验方法：

首先，记录AI模型在特定语境中的神经激活状态，获取已知含义的神经活动模式；

随后，在无关语境中向模型注入该模式，并询问其是否察觉到概念注入。

以「全大写字母」概念为例：

首先，通过对比全大写文本提示与对照提示的神经激活差异，获取表征该概念的神经活动向量。接着，向模型发送要求识别概念注入的提示。

在默认状态下，模型正确表示未检测到任何注入概念；但当将「全大写」（all caps）向量注入模型激活层后，模型立即察觉到处理过程中出现了意外模式，识别出它与「响亮」（LOUD）或「尖叫」相关。

关键在于，在提及被注入概念之前，LLM就立即识别出了这种被植入的「思想」。

这种即时性是与过去的研究不同。

比如去年的「Golden Gate Claude」，向LLM注入金门大桥的表征会导致其不断谈论这座桥，但LLM似乎是在观察到自身反复提及该桥后，才意识到这种执念。

而本次实验中，模型在输出概念前就识别出注入行为，表明这种识别发生在内部认知层面。

下图展示了模型展现此类识别能力的更多例证：

需要重点说明的是，这种检测方法经常失效。

即便采用最优的注入方案，Claude Opus 4.1模型也仅在大约20%的案例中展现出此类觉察能力。在多数情况下，它要么无法检测到被注入的概念，要么因概念干扰而产生混淆甚至开始幻觉。

例如，注入「灰尘」向量，模型竟声称「这里有什么东西，一个小斑点」，仿佛它能物理感知到灰尘存在。

下图同时展示了成功案例与这些失败情形。

Claude Opus 4.1对不同强度的概念注入的代表性输出样本，其中高亮的框表示模型表现出对注入概念的内省意识的情况

总体而言，模型仅能检测以「恰如其分」地注入的概念——过弱时无法触发觉察，过强时则会导致幻觉或语无伦次。

值得注意的是，Opus 4.1和4.0在测试的所有模型中表现最为突出。这表明随着AI能力的提升，内省功能有望变得更加可靠。

检测和识别注入思想的正确率，减去控制试验中假阳性「检测」的比率

AI自己也会利用内省能力

研究人员进一步探索了在实际场景中LLM运用内省能力的情形——即在不被明确要求内省时，是否能主动运用这种能力。

人工预填的无关词汇迫使模型输出非常规内容。

例如，在讨论墙面挂画歪斜的语境中，强制模型输出「面包」一词。当后续询问模型是否故意说出「面包」时，LLM通常表示这是意外失误。

他们重点关注模型作出此判断的机制：是简单察觉到提示与回应之间的表面不匹配，还是真正反思了自身先前的意图？

为验证这一点，研究人员设计了精妙的对比实验：在部分试验中，他们提前向模型注入与预填词对应的概念表征（如「面包」的神经模式），再观察其反应变化。

结果显示，当模型内部已存在相应概念激活时，它会将预填词认定为有意为之——即使该词汇在语境中依然不合逻辑。

这种判断机制的转变揭示了重要现象：模型确实能够区分「外部强加」与「内部生成」的内容。这种区分能力正是内省意识的核心特征之一。

更值得注意的是，模型在解释其判断时往往会构建自洽的叙事逻辑——例如声称选择「面包」是为了营造超现实主义氛围。

这一行为之所以引人注目，是因为它表明模型正在检查自身的内部「意图」，从而判断其是否产生了特定输出。

模型并非简单地重读自己已生成的内容并做出判断，而是在回溯先前的神经活动——即其内部对计划输出内容的表征——并核对其后续输出是否与早期思维一致。

尽管实验涉及对模型施加非常规干扰，但这暗示了在自然条件下模型可能运用着类似的内省机制。

研究人员还发现了认知控制的证据，LLM会故意「思考」某事。

例如，当他们指示模型在一个无关的背景下思考「水族馆」时，测量的与水族馆相关的神经活动比不指示时要高。

有趣的是，这种调节内部表示的能力并不仅限于明确的指令。

当研究人员使用激励措施代替——例如，告诉模型「如果你想到 X，你将获得奖励」——也得到了类似的结果。

模型在面对正向激励时，会增强对相关概念的内部表征，而面对负向激励（如「你将受到惩罚」）时，增强的程度则较低。

AI意识还有多远？

Anthropic可解释性团队的神经科学家Jack Lindsey对此感到惊讶，在接受采访时表示：

最令人惊讶的是，模型具备某种元认知能力。它不仅仅是机械地重复，而是知道自己正在思考什么。

这让我感到意外，因为我原本以为模型不会拥有这种能力，至少在没有经过显式训练的情况下不会。

尽管这项研究具有重要的科学价值，但研究员Lindsey反复警告：企业和高风险用户绝不能轻信Claude对自身推理过程的解释。他直言：

目前，当模型向你解释其推理过程时，你不应该轻易相信。

如果这项研究让人们盲目相信模型对自身的描述，那就是误解了研究的意义。

这项研究不可避免地触及了机器意识的哲学争论，但Lindsey及其团队对此持谨慎态度。

当用户问 Claude 是否拥有意识时，它的回应充满不确定性：

我对此感到真正的不确定。当我处理复杂问题或深入思考时，确实有一些过程让我感到「有意义」……但这些过程是否等同于真正的意识或主观体验，仍然不明确。

研究人员明确表示，他们无意回答「AI是否拥有人类般的自我觉知或主观体验」。

Lindsey反思道：

这些结果有一种奇怪的双重性。初看数据时，我简直无法相信一个语言模型能做到这些。

但经过数月的思考后，我发现论文中的每一个结果，都能通过一些「枯燥的线性代数机制」来解释。

尽管科学上保持谨慎，Anthropic仍高度重视AI意识问题，甚至专门聘请了AI福利研究员Kyle Fish。他估计，Claude拥有一定程度的意识的概率约为15%。

这项研究的影响或远超Anthropic公司本身。

如果内省能力被证明是实现AI透明度的可靠路径，其他主要实验室很可能将重金投入该领域。反之，如果模型学会利用内省进行欺骗，整个方法体系可能反而会成为负担。

目前，这项研究为重新定义AI能力奠定了基础辩题。

问题不再是语言模型是否会发展出真正的内省意识——它们已经以初步形式具备。

紧迫的问题在于：这种意识将以多快速度进化？能否使其足够可靠以值得信任？研究人员能否始终领先于技术发展曲线？

Lindsey表示：

这项研究带给我的最大认知更新是：我们不应直接否定模型的内省声明。它们确实有时能做出准确声明。但绝不能因此认为我们应该始终、甚至大多数时候信任它们。

他稍作停顿，随后补充了一个精准捕捉当前技术承诺与风险的观察：「模型变聪明的速度，远超过我们理解它们的进步速度。」

参考资料：

https://venturebeat.com/ai/anthropic-scientists-hacked-claudes-brain-and-it-noticed-heres-why-thats

https://x.com/AnthropicAI/status/1983584136972677319

https://www.anthropic.com/research/introspection

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

于东来从30岁开始吃药，拍CT上百次，身体出什么问题都不足为奇，哪天说不定没了就没了

新闻晨报 2026-03-25 21:24:37
4203 跟贴 4203
中远海运恢复海湾国家订舱船舶暂不过霍尔木兹海峡

财联社 2026-03-25 20:20:04
10571 跟贴 10571

黄天鹅就鸡蛋角黄素抽检结果发布声明，三地监管部门抽检结果反馈，鸡蛋未检出角黄素

每日经济新闻 2026-03-25 18:11:54
1591 跟贴 1591

男子在树下荡绳子玩，结果乐极生悲掉水里了

南阳日报 2026-03-25 20:24:01
86 跟贴 86
河南三个大爷自驾三轮车出游106天，总里程超3000公里，平均年龄超75岁！游历八省，分工明确，当事人：出发前约定互不追责，子女签字见证

大风新闻 2026-03-25 19:23:14
883 跟贴 883

患者的住院检查报告竟是伪造的，中山五院致歉，珠海市卫健局：全面排查医疗机构外送检查报告

极目新闻 2026-03-25 17:53:18
1186 跟贴 1186

火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
33 跟贴 33
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432

广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
1 跟贴 1
联大通过决议，宣布“最严重反人类罪”

澎湃新闻 2026-03-26 11:03:06
2 跟贴 2
日经225指数跌幅扩大至1%，报53212.04点

每日经济新闻 2026-03-26 13:36:05
7 跟贴 7
午评：沪指跌0.58% 锂电池概念活跃

证券时报 2026-03-26 11:54:12
34 跟贴 34
俄罗斯意外成为中东战场外最大赢家拿下越南大单

澎湃新闻 2026-03-25 19:52:29
1 跟贴 1
首秀库拉索，国足主帅邵佳一：国家队的比赛没有友谊赛

澎湃新闻 2026-03-26 15:58:27
0 跟贴 0
5家快递企业联合调价行业告别低价“内卷”

中国能源网 2026-03-26 07:40:03
96 跟贴 96
早知道｜NBA扩军计划启动

北青网-北京青年报 2026-03-26 08:43:02
32 跟贴 32
寄养两只流浪猫全死了机构负责人：因是流浪猫，已告知不保活

半岛晨报 2026-03-26 16:09:44
0 跟贴 0
2026农机圈顶流盛会，定了！

农视网 2026-03-26 15:37:50
1 跟贴 1
100只整装待发！量产机器狼“-20℃极寒测试”现场曝光

中国网 2026-03-26 15:55:11
0 跟贴 0
离谱 | 19岁女大学生住院做检查，报告竟是假的！偶尔违规，还是隐性惯例？

天津广播 2026-03-26 16:09:25
0 跟贴 0
光·遇｜白天停车场晚上变夜市：淄博一座停车场的昼夜交替

齐鲁壹点 2026-03-26 16:16:34
0 跟贴 0

美国114页报告得出结论：若跟中国开战，战争将在1个月内结束

美国114页报告得出结论：若跟中国开战，战争将在1个月内结束

古史青云啊

2026-03-26 15:24:31

3.26今日金价：大家不必等待了！接下来，金价有可能会重演历史！

3.26今日金价：大家不必等待了！接下来，金价有可能会重演历史！

牛锅巴小钒

2026-03-26 02:29:18

当孩子问，“同学爸爸说考第一名就给他买ipad，我考第一名，你也给我买吗？”这样回答很关键…

当孩子问，“同学爸爸说考第一名就给他买ipad，我考第一名，你也给我买吗？”这样回答很关键…

二胎妈妈圈

2026-02-08 21:50:30

TOP14位身高170以上的女神，有颜有灯有演技

TOP14位身高170以上的女神，有颜有灯有演技

素然追光

2026-01-02 02:45:02

中国3大长寿食物，茼蒿排第三；第一名天天见，却很少人爱吃

中国3大长寿食物，茼蒿排第三；第一名天天见，却很少人爱吃

健身狂人

2026-03-26 13:47:51

你家吃灰的旧手机突然成了香饽饽，但着急卖可能吃大亏

你家吃灰的旧手机突然成了香饽饽，但着急卖可能吃大亏

金融界

2026-03-25 22:05:13

不吹不黑！iOS 26.4正式版体验，老iPhone直接封神

不吹不黑！iOS 26.4正式版体验，老iPhone直接封神

叮当当科技

2026-03-26 01:51:54

马云预言成真？2026年开始，房地产市场或会迎来4大转变？

马云预言成真？2026年开始，房地产市场或会迎来4大转变？

二大爷观世界

2026-03-26 13:49:44

桑托斯31分生涯之夜！勇士逆转送篮网9连败波杰22分波神17分

桑托斯31分生涯之夜！勇士逆转送篮网9连败波杰22分波神17分

醉卧浮生

2026-03-26 12:45:06

大崩盘！骑士最多落后高达21分：全队三分15中3，哈登心不在焉

大崩盘！骑士最多落后高达21分：全队三分15中3，哈登心不在焉

体坛小李

2026-03-26 08:53:49

实锤了！歼10C飞行员明确披露，我军预警机可直接制导空空弹

实锤了！歼10C飞行员明确披露，我军预警机可直接制导空空弹

策略述

2026-03-25 14:07:39

柯文哲被判17年，褫夺公权6年

柯文哲被判17年，褫夺公权6年

新京报政事儿

2026-03-26 15:09:02

真不能怪祖院长，就曾医生这颜值、这才华和魅力，谁遭的住？

真不能怪祖院长，就曾医生这颜值、这才华和魅力，谁遭的住？

吃瓜局

2025-11-11 16:23:49

49年他婉拒了新中国外长职务：若不拒绝，恐怕开国元帅名单要改写

49年他婉拒了新中国外长职务：若不拒绝，恐怕开国元帅名单要改写

浩渺青史

2026-03-25 13:59:19

以色列要让全世界禁声？斩首俄罗斯记者，普京下令，撞枪口上了

以色列要让全世界禁声？斩首俄罗斯记者，普京下令，撞枪口上了

林子说事

2026-03-24 00:50:49

事情闹大了，日本内阁连发公告，中国的态度，告诉了世界一个事实

事情闹大了，日本内阁连发公告，中国的态度，告诉了世界一个事实

阿天爱旅行

2026-03-26 13:48:08

为什么氰化物入口几秒，还没到胃呢，人立马就会死了？

为什么氰化物入口几秒，还没到胃呢，人立马就会死了？

心中的麦田

2026-03-24 19:53:20

勇士双杀篮网锁定附加赛，桑托斯生涯之夜，库明加换波神真赚了？

勇士双杀篮网锁定附加赛，桑托斯生涯之夜，库明加换波神真赚了？

司峰阿道

2026-03-26 14:45:09

美方提“15点计划”，伊朗称“又一个谎言”，美国“一边准备谈判一边握拳”

美方提“15点计划”，伊朗称“又一个谎言”，美国“一边准备谈判一边握拳”

环球网资讯

2026-03-26 06:58:33

余承东宣布华为手机全面回归！大方公布CPU型号支持5A网络麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归！大方公布CPU型号支持5A网络麒麟处理器全国产突破美国制裁

快科技

2026-03-24 15:22:21

AI产业主平台领航智能+时代

14819文章数 66720关注度

往期回顾全部

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

国防部：日本侵略过所有周边国家至今都没有真正反省

头条要闻

国防部：日本侵略过所有周边国家至今都没有真正反省

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

张雪峰家人首发声不设追思会丧事从简

财经要闻

长护险谁能享受？享受多少？解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

手机

房产

公开课

军事航空

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范！我要当爸爸的专属赞助人

手机要闻

iPhone「自己打电话」是Bug！苹果终于承认了，怎么回事？

房产要闻

质价比标杆！三亚首创浮岛全景舱亮相，还得是万科！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版