网易首页 > 网易号 > 正文 申请入驻

AI是「天才」还是「话术大师」?Anthropic颠覆性实验,终揭答案!

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】数据中心里的「天才」苏醒!Anthropic用「概念注入」实锤:Claude Opus在输出前就自省「异常思想」。从尖叫到水族馆幻想,20%觉察率已让专家目瞪口呆。

颠覆传统AI认知!

Anthropic首席执行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多数AI模型问题将被靠谱地检测。

但LLM的幻觉与生俱来,根深蒂固。即便对问题所知不多,AI总是「自信地犯错」。

Dario Amodei将可解释性定位为部署「数据中心里的天才国度」的关键。


问题是:如果「数据中心里的天才」只是擅长「说服」呢?

即便让它解释如何得出某个回答,我们也很难判断这些答案的真实性。

AI系统究竟能否真正内省——即它们能否审视自身的思想?还是说,当被要求这样做时,它们只是在编造听起来合理的答案?

理解AI系统是否具备真正内省能力,对其透明度和可靠性至关重要。

Anthropic的新研究证实,当前Claude模型已具备某种程度的内省意识,并能对自身内部状态进行一定控制。


这一发现动摇了对LLM的传统认知,也将「可解释性」推到「数据中心里的天才国度」上线前的首要难关。

需要强调的是,这种内省能力仍非常不可靠,局限很大:尚无证据表明,现有AI模型能像人类一样进行同等程度或方式的内省。


然而,这些发现依然颠覆了人们对语言模型能力的传统认知——

由于被测模型中性能最强的Claude Opus 4和4.1在内省测试中表现最佳,Anthropic的研究者认为AI模型的内省能力未来很可能持续进化。

LLM自省的蛛丝马迹

Anthropic开发了一种区分真实内省和编造答案的方法:将已知概念注入模型的「大脑」,然后观察这些注入如何影响模型自我报告的内部状态。


要验证AI是否具备内省能力,我们需要比较AI自我报告的「思想」与真实内部状态。

Anthropic相关团队采用了「概念注入」这一实验方法:

首先,记录AI模型在特定语境中的神经激活状态,获取已知含义的神经活动模式;

随后,在无关语境中向模型注入该模式,并询问其是否察觉到概念注入。

以「全大写字母」概念为例:

首先,通过对比全大写文本提示与对照提示的神经激活差异,获取表征该概念的神经活动向量。接着,向模型发送要求识别概念注入的提示。


在默认状态下,模型正确表示未检测到任何注入概念;但当将「全大写」(all caps)向量注入模型激活层后,模型立即察觉到处理过程中出现了意外模式,识别出它与「响亮」(LOUD)或「尖叫」相关。

关键在于,在提及被注入概念之前,LLM就立即识别出了这种被植入的「思想」。

这种即时性是与过去的研究不同。

比如去年的「Golden Gate Claude」,向LLM注入金门大桥的表征会导致其不断谈论这座桥,但LLM似乎是在观察到自身反复提及该桥后,才意识到这种执念。

而本次实验中,模型在输出概念前就识别出注入行为,表明这种识别发生在内部认知层面

下图展示了模型展现此类识别能力的更多例证:


需要重点说明的是,这种检测方法经常失效。

即便采用最优的注入方案,Claude Opus 4.1模型也仅在大约20%的案例中展现出此类觉察能力。在多数情况下,它要么无法检测到被注入的概念,要么因概念干扰而产生混淆甚至开始幻觉。

例如,注入「灰尘」向量,模型竟声称「这里有什么东西,一个小斑点」,仿佛它能物理感知到灰尘存在。

下图同时展示了成功案例与这些失败情形。


Claude Opus 4.1对不同强度的概念注入的代表性输出样本,其中高亮的框表示模型表现出对注入概念的内省意识的情况

总体而言,模型仅能检测以「恰如其分」地注入的概念——过弱时无法触发觉察,过强时则会导致幻觉或语无伦次。

值得注意的是,Opus 4.1和4.0在测试的所有模型中表现最为突出。这表明随着AI能力的提升,内省功能有望变得更加可靠。


检测和识别注入思想的正确率,减去控制试验中假阳性「检测」的比率

AI自己也会利用内省能力

研究人员进一步探索了在实际场景中LLM运用内省能力的情形——即在不被明确要求内省时,是否能主动运用这种能力。

人工预填的无关词汇迫使模型输出非常规内容。

例如,在讨论墙面挂画歪斜的语境中,强制模型输出「面包」一词。当后续询问模型是否故意说出「面包」时,LLM通常表示这是意外失误。

他们重点关注模型作出此判断的机制:是简单察觉到提示与回应之间的表面不匹配,还是真正反思了自身先前的意图?

为验证这一点,研究人员设计了精妙的对比实验:在部分试验中,他们提前向模型注入与预填词对应的概念表征(如「面包」的神经模式),再观察其反应变化。

结果显示,当模型内部已存在相应概念激活时,它会将预填词认定为有意为之——即使该词汇在语境中依然不合逻辑。

这种判断机制的转变揭示了重要现象:模型确实能够区分「外部强加」与「内部生成」的内容。这种区分能力正是内省意识的核心特征之一。

更值得注意的是,模型在解释其判断时往往会构建自洽的叙事逻辑——例如声称选择「面包」是为了营造超现实主义氛围。


这一行为之所以引人注目,是因为它表明模型正在检查自身的内部「意图」,从而判断其是否产生了特定输出。

模型并非简单地重读自己已生成的内容并做出判断,而是在回溯先前的神经活动——即其内部对计划输出内容的表征——并核对其后续输出是否与早期思维一致。

尽管实验涉及对模型施加非常规干扰,但这暗示了在自然条件下模型可能运用着类似的内省机制。

研究人员还发现了认知控制的证据,LLM会故意「思考」某事。

例如,当他们指示模型在一个无关的背景下思考「水族馆」时,测量的与水族馆相关的神经活动比不指示时要高。


有趣的是,这种调节内部表示的能力并不仅限于明确的指令。

当研究人员使用激励措施代替——例如,告诉模型「如果你想到 X,你将获得奖励」——也得到了类似的结果。

模型在面对正向激励时,会增强对相关概念的内部表征,而面对负向激励(如「你将受到惩罚」)时,增强的程度则较低。

AI意识还有多远?

Anthropic可解释性团队的神经科学家Jack Lindsey对此感到惊讶,在接受采访时表示:

最令人惊讶的是,模型具备某种元认知能力。它不仅仅是机械地重复,而是知道自己正在思考什么 。

这让我感到意外,因为我原本以为模型不会拥有这种能力,至少在没有经过显式训练的情况下不会。


尽管这项研究具有重要的科学价值,但研究员Lindsey反复警告:企业和高风险用户绝不能轻信Claude对自身推理过程的解释。他直言:

目前,当模型向你解释其推理过程时,你不应该轻易相信。

如果这项研究让人们盲目相信模型对自身的描述,那就是误解了研究的意义。

这项研究不可避免地触及了机器意识的哲学争论,但Lindsey及其团队对此持谨慎态度。


当用户问 Claude 是否拥有意识时,它的回应充满不确定性:

我对此感到真正的不确定。当我处理复杂问题或深入思考时,确实有一些过程让我感到「有意义」……但这些过程是否等同于真正的意识或主观体验,仍然不明确。

研究人员明确表示,他们无意回答「AI是否拥有人类般的自我觉知或主观体验」

Lindsey反思道:

这些结果有一种奇怪的双重性。初看数据时,我简直无法相信一个语言模型能做到这些。

但经过数月的思考后,我发现论文中的每一个结果,都能通过一些「枯燥的线性代数机制」来解释。

尽管科学上保持谨慎,Anthropic仍高度重视AI意识问题,甚至专门聘请了AI福利研究员Kyle Fish。他估计,Claude拥有一定程度的意识的概率约为15%


这项研究的影响或远超Anthropic公司本身。

如果内省能力被证明是实现AI透明度的可靠路径,其他主要实验室很可能将重金投入该领域。反之,如果模型学会利用内省进行欺骗,整个方法体系可能反而会成为负担

目前,这项研究为重新定义AI能力奠定了基础辩题。

问题不再是语言模型是否会发展出真正的内省意识——它们已经以初步形式具备。

紧迫的问题在于:这种意识将以多快速度进化?能否使其足够可靠以值得信任?研究人员能否始终领先于技术发展曲线?

Lindsey表示:

这项研究带给我的最大认知更新是:我们不应直接否定模型的内省声明。它们确实有时能做出准确声明。但绝不能因此认为我们应该始终、甚至大多数时候信任它们。

他稍作停顿,随后补充了一个精准捕捉当前技术承诺与风险的观察:「模型变聪明的速度,远超过我们理解它们的进步速度。」

参考资料:

https://venturebeat.com/ai/anthropic-scientists-hacked-claudes-brain-and-it-noticed-heres-why-thats

https://x.com/AnthropicAI/status/1983584136972677319

https://www.anthropic.com/research/introspection

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

人类“最惨”的一年是哪一年?公元536年称第二,没人敢称第一!

辉辉历史记
2025-11-05 08:51:15
上海赘婿带小三产检后续:原配照片曝光,比小三漂亮多了

上海赘婿带小三产检后续:原配照片曝光,比小三漂亮多了

江山挥笔
2025-11-03 14:47:10
德国外长刚重启访华,就开始搞事情,居然邀请蔡英文,我国不能忍

德国外长刚重启访华,就开始搞事情,居然邀请蔡英文,我国不能忍

DS北风
2025-11-06 10:58:05
天涯神贴:普通人家孩子的最好出路

天涯神贴:普通人家孩子的最好出路

前沿天地
2025-11-03 07:42:49
医生发现:最能加重心梗的行为,不是跑步!而是频繁的去做这5事

医生发现:最能加重心梗的行为,不是跑步!而是频繁的去做这5事

新时代的两性情感
2025-11-06 09:51:28
“假爱国”风波真相大白3年,吴京近况爆出,网友:一点都不意外

“假爱国”风波真相大白3年,吴京近况爆出,网友:一点都不意外

揽星河的笔记
2025-11-05 20:06:52
赖清德下令让台军实弹备战,蒋万安也亮明立场,坚持反对两岸统一

赖清德下令让台军实弹备战,蒋万安也亮明立场,坚持反对两岸统一

文雅笔墨
2025-11-04 09:18:55
明天立冬,北京有雨,还可能有雪!不过,供暖也要开始了

明天立冬,北京有雨,还可能有雪!不过,供暖也要开始了

鲁中晨报
2025-11-06 11:11:01
小S女儿曝心疼具俊晔后,小玥儿出手了 一个细节暴露与张兰的关系

小S女儿曝心疼具俊晔后,小玥儿出手了 一个细节暴露与张兰的关系

动物奇奇怪怪
2025-11-06 11:18:25
洛阳国企项目逆势热销,四代住宅成楼市破局点

洛阳国企项目逆势热销,四代住宅成楼市破局点

河洛楼市
2025-11-05 14:49:08
蒋万安再次亮明立场,坚持反对两岸统一,郑丽文也让中国人寒心了

蒋万安再次亮明立场,坚持反对两岸统一,郑丽文也让中国人寒心了

谛听骨语本尊
2025-11-05 22:24:15
2连败!伦纳德不打,哈登也请假,快船一手好牌打烂,散伙不远了

2连败!伦纳德不打,哈登也请假,快船一手好牌打烂,散伙不远了

巴叔GO聊体育
2025-11-06 09:06:13
60年代,邓小平被下放江西后,毛泽东:交由汪东兴落实保护办法

60年代,邓小平被下放江西后,毛泽东:交由汪东兴落实保护办法

历史龙元阁
2025-10-31 16:20:07
杜兰特18中5,火箭迎5连胜!申京创NBA历史第3神迹,阿门28+10+7

杜兰特18中5,火箭迎5连胜!申京创NBA历史第3神迹,阿门28+10+7

一将篮球
2025-11-06 12:07:27
他问了欧盟一个“有趣”的问题,然后被解雇了......

他问了欧盟一个“有趣”的问题,然后被解雇了......

环球时报国际
2025-11-05 23:25:45
让全世界开开眼!中国航天员空间站里吃烧烤,国际空间站要馋哭了

让全世界开开眼!中国航天员空间站里吃烧烤,国际空间站要馋哭了

鱼缸里的假山
2025-11-04 21:57:29
内蒙古黑老大易连峰,酒店调戏游玩女子,不料惹到大人物就此覆灭

内蒙古黑老大易连峰,酒店调戏游玩女子,不料惹到大人物就此覆灭

青青会讲故事
2024-10-10 17:09:30
合砍29分,火箭队坐拥两顶级3D,伊森值得大合同续约,双塔变五小

合砍29分,火箭队坐拥两顶级3D,伊森值得大合同续约,双塔变五小

替补席看球
2025-11-06 11:40:30
户晨风近期成立文化传媒公司

户晨风近期成立文化传媒公司

雷达财经
2025-11-05 19:20:00
60名八路军芦苇荡被5000日军三面合围,船夫指向水鸟,团长:有救了!

60名八路军芦苇荡被5000日军三面合围,船夫指向水鸟,团长:有救了!

萧竹轻语
2025-10-21 16:16:45
2025-11-06 13:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13799文章数 66238关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

亲子
时尚
本地
游戏
旅游

亲子要闻

胡图图幼小衔接采取积分制,表现好就加分

中国色特别策划 | 故宫技艺与古意新生

本地新闻

这届干饭人,已经把博物馆吃成了食堂

Xbox Insider问卷提及《羊蹄山之魂》 引发平台移植猜测

旅游要闻

携程“免费城市半日游”项目已接待超万名游客

无障碍浏览 进入关怀版