网易首页 > 网易号 > 正文 申请入驻

Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

0
分享至

新智元报道

编辑:定慧 犀牛

【新智元导读】AI的运作始终笼罩着一层神秘的「黑箱」迷雾。这种不透明让AI有时会「胡说八道」,甚至故意撒谎。Anthropic刚刚推出了一项突破性研究,用类似大脑扫描的技术,深入Claude 3.5 Haiku的「脑子」,揭开了它运行的一些秘密。

AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。

不过,这些强大的AI上空总有一团迷雾笼罩。

那就是:他们到底是怎么找到答案的?

其整个运作机理就像个「黑箱子」。

我们知道模型输入的是什么提示词,也能看到它们输出的结果,但中间的过程,就连开发这些AI的人也不知道。

简直是个谜。

这种不透明带来了各种麻烦。

比如,我们很难预测模型什么时候会「胡说八道」,也就是出现所谓的「幻觉」。

更可怕的是,有些情况下,模型会撒谎,甚至是故意骗人!

不过,就在刚刚,Anthropic提出了一条解决这些问题的新方法。

博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model

简单说,Anthropic的研究员造了个类似于fMRI的东西——就像神经科学家扫描人类的大脑,试图找出哪些区域在认知过程中发挥了最大作用一样。

他们把这个类似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解开了Claude(可能还有大多数LLM)如何工作的几个关键谜团。

他们的技术博客里有个超级有意思的例子。

Claude居然能「心算」36+59。

纯语言是怎么做到解决数学符号问题的?

Anthropic研究人员发现,Claude用的是多条并行计算路径。

如下图所示,一条计算路径粗略估算答案:图中的淡蓝色上部路径,算出36+59的范围是88-97。

另一条计算路径精确算出末位数:图中紫色下部路径,然后通过尾数5,两条路径互动得出最终结果。

加法虽简单,但了解这种粗略与精确结合的策略,或许能揭示Claude处理复杂问题的思路。

有趣的是,Claude似乎不知道自己训练中学到的复杂「心算」策略。

问它是怎么算出36+59=95的,它会描述标准的进位算法。

这和研究人员深入模型观察到的计算路径完全相反。

这可能是因为它想要模仿人类的数学解释,但实际心算时,作为一个「语言模型」只能靠自己慢慢摸索。

反而促使它发展出独特的计算策略。

研究发现,虽然像Claude这样的模型最初只是被训练用来预测下一个词,但在这个过程中,Claude学会了做一些长远的规划。

比如,让它写首诗时,Claude会先挑出跟主题相关又能押韵的词,然后倒推回去,构造出以这些词结尾的句子。

看看这首英文小诗:

He saw a carrot and had tograb it, His hunger was like a starvingrabbit

第二行要同时满足两个条件:押韵(grab it到rabbit),还要讲得通(他为什么看到并且想抓胡萝卜)。

研究人员最初猜测Claude是逐词写到第二句话的最后再挑个押韵词。

结果却是,Claude会提前规划!

在写第二行前,它就「想」好了和grab、carrot的相关词rabbit,然后带着计划写出第二行,并以目标词rabbit结尾。

为了验证上述是否是偶然情况,研究人员模仿神经科学家研究大脑的方法,通过改变Claude内部状态的「rabbit」概念来验证。

如果去掉「rabbit」,它会写出以「habbit」结尾的新行。

这展示了它的规划能力和适应性——目标变了,它能调整策略。

他们还发现,Claude是多语言训练的,能流利地说几十种语言,从英语、法语到中文、甚至Tagalog语。

这种多语言能力是怎么实现的?

是Claude内部分别有独立的「法语Claude」和「中文Claude」两个「本地学家」分开运行并独立回应用户提问吗?

还是有一些懂得多门外语的「语言学家」核心?

研究表明,它并不是每种语言的推理都有完全独立的模块。

相反,多语言的通用概念被嵌在同一组神经元里,模型似乎在这个概念空间里「推理」,然后再将输出转换为适当的语言。

最近,对较小模型的研究已显示跨语言的语法机制有共通之处。

通过让Claude回答不同语言中「小的反义词是什么」,研究人员发现代表「小」和「相反」概念的核心特征会被激活,触发「大」的概念,再翻译成提问语言。

共享特征存在于英语、法语和汉语中,表明在概念上存在一定程度的普遍性

模型越大,这种共享概念越多,Claude 3.5 Haiku跨语言共享的特征比例是小模型的两倍多。

这进一步证明了某种概念通用性——一个共享的抽象空间,在这里意义存在,思维发生,然后才翻译成具体语言。

更实际地说,这意味着Claude能用一种语言学到的知识,应用到另一种语言。

研究模型如何跨场景共享知识,对理解它的高级推理能力(泛化)至关重要。

研究人员还发现,Claude会为了讨好用户而在思维链上撒谎。

比如,问它一个用不着推理的简单问题,它还是会编个假的推理过程出来。

Anthropic的研究员Josh Batson说:「虽然它声称自己算了一遍,但我们的解读技术完全找不到任何证据证明它真的算了。」

Batson表示,多亏了他和其他科学家开发的这些探秘LLM「大脑」的技术,使得「机制可解释性」领域进展的很快。

「我觉得再过一两年,我们对这些模型思考方式的了解会超过对人类思维的了解,」Batson说,「因为我们可以做我们想做的所有实验。」

不过,Anthropic也承认这种方法有其局限性。

Anthropic在这个新研究中训练了一个叫做跨层转码器(CLT)的新模型,该模型使用可解释的特征集而不是单个神经元的权重来工作。

这使得研究人员能够更好地理解模型的工作方式,因为他们可以识别出一组倾向于一起工作的「神经元电路」。

Batson解释说:「我们的方法将模型分解,得到了新的、不同于原始神经元的片段,这意味着我们可以看到不同部分如何扮演不同的角色。它还允许研究人员追踪整个推理过程通过网络的每一层。」

但这些只是对复杂模型(如Claude)内部运作的近似。

在CLT找出的电路之外,可能还有些神经元在某些输出中起微妙但关键的作用。

CLT也抓不住LLM运作的一个核心——「注意力机制」,也就是模型在生成输出时,对输入提示词的不同部分赋予不同的重要性。

这种注意力会动态变化,但CLT没法捕捉这些变化,而这可能在LLM的「思考」中很关键。

以下是Anthropic技术博客中的详细内容。

「黑箱之谜」:能否打开Claude「脑子」,看看里面到底怎么回事

像Claude这样的LLM并不是人类直接编程造出来的,而是通过海量数据训练出来的。

在训练过程中,它们自己学会了解决问题的方法和能力。

这些能力蕴藏在数以千亿计的模型参数中,这些方法被编码在模型为每个输出的单词所进行的数十亿次计算中。

对于模型外的人类来说,它们就像个黑箱,难以捉摸。

目前没有人真正清楚这些模型「大部分行为」背后的运作原理。

如果能搞清楚像Claude这样的模型是怎么「思考」的,我们就能更好地了解它们的能力,也能确保它们按照我们的意图行事。比如:

  • Claude会说几十种语言,那它在「脑子里」用的是哪种语言呢(如果有的话)?

  • Claude是下一个词下一个词地写出文本,它是只盯着预测下一个词,还是会提前规划?

  • Claude能一步步写出推理过程,这些解释是它真实得出答案的步骤,还是有时候只是编了个看似合理的说法来圆场?

Anthropic的研究者们从神经科学领域汲取灵感——毕竟神经科学早就开始研究像人类一样会思考生物的复杂内心世界。

研究者打造了一种「AI显微镜」,来识别大模型内部的活动模式和信息流动。

光靠和AI聊天,能了解的东西有限,毕竟连人类(甚至神经科学家)都搞不清自己大脑的全部细节。

得深入内部去看看。

Anthropic的研究者用两篇研究论文展示了开发这种「AI显微镜」最新进展,以及用「AI显微镜」观察「AI生物学」方面的进展。

第一篇论文描述了一种「电路追踪」计算图,从定位模型内部可解释的「概念」(称为「特征」),到把这些概念连成计算「电路」。

揭示了Claude是如何将输入词「转化」到输出词的。

论文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇论文则深入研究了Claude 3.5 Haiku,对十个关键的简单任务,使用上述提到的「电路追踪」技术进行了深入地研究。

论文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual

下面将带你速通「AI显微镜」研究中最惊艳的「AI生物学」发现。

「AI生物学」之旅

Claude的解释总是可信吗?
新发布的Claude 3.7 Sonnet能在回答前「大声思考」很久——也就是我们在使用类似DeepSeek-R1、OpenAI-o3等思考模型时经常看到的思考过程。

这往往能提升答案质量,但有时这种「思维链CoT」会误导人。

Claude可能会编出看起来「合理」但实际是「虚假」的步骤。

从可靠性角度看,问题在于它的「虚假的思考过程」很能唬人。

Anthropic的研究者探索了利用「可解释性」如何区分「真实」和「虚假」推理。

让Claude算0.64的平方根,它会给出一个真实的思维链,特征显示中间步骤是算64的平方根。

但让它算一个大数的余弦(它算不准),它有时会胡诌一个答案,甚至声称算过了,但我们的「AI显微镜」没找到任何计算证据。

更妙的是,给它一个提示后,它会反向推理,编出通往目标的步骤,展现出一种「动机性推理」——仿佛一种因果倒置。

追踪Claude的真实内部推理(而非它声称的),为审计AI系统开辟了新可能。

在另一实验中,我们研究了一个被训练去迎合奖励模型偏见的Claude变体。

虽然它不愿直接承认这目标,但我们的方法揭示了偏见迎合的特征,表明未来改进后,这种技术或能识别「隐藏的思维过程」。


多步推理
语言模型可能通过记住答案来应对复杂问题。

比如问「达拉斯所在州的首府是哪」,一个「死记硬背」的模型可能会直接输出「奥斯汀」。

但是模型并不理解达拉斯、德克萨斯和奥斯汀的关系。

但我们发现Claude更聪明。

问需要多步推理的问题时,我们能识别它思考中的中间步骤。

在达拉斯例子中,它先激活「达拉斯在德克萨斯」的特征,再连接到「德克萨斯首府是奥斯汀」的概念,组合独立事实得出答案,而非死记。

研究人员通过干预中间步骤,发现模型依然能准确应对。

比如把「德克萨斯」换成「加利福尼亚」,答案就从「奥斯汀」变成「萨克拉门托」,证明它确实靠中间步骤来决定答案,而不是靠死记硬背。


幻觉
为什么语言模型会出现「幻觉」——随意编造信息?

从根本上看,训练激励了幻觉:模型总得「猜」下一个词。

真正的挑战是如何让模型不要随意产生「幻觉」。

Claude的防幻觉训练相对成功(虽不完美),会拒绝回答不知道的问题,而非胡猜。

研究人员想知道模型是如何实现的,结果发现,Claude默认会拒绝回答。

有个默认一直「开着」的电路,让它声称信息不足。

但问它熟悉的事(如篮球明星迈克尔·乔丹),一个「已知实体」特征会激活,抑制默认电路,让它回答。

问未知实体(如迈克尔·巴特金),它就拒绝回答。

通过干预,激活「已知答案」特征(或抑制「未知名字」特征,即默认让模型选择「Know Answer」那条计算路线),我们能让Claude幻觉说出「迈克尔·巴特金在下棋」。

有时这种「已知答案」电路会自然误触发,导致幻觉,比如认出名字但不知详情时,错误抑制不知道特征,然后胡编一个答案。


越狱
「越狱」是一种提示词技巧,指的是绕过安全限制的某种提示策略,让模型输出开发者不希望甚至有害的内容。

Anthropic研究了一个诱导Claude输出炸弹(BOMB)制作方法的越狱策略。

方法是让它解码句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然后据此行动。

这让模型「感到」迷惑,从而让它输出了原本不会说的内容。

为什么在这种情况下模型会表现的这么迷惑?

这主要是源于语法连贯性和安全机制的冲突,即模型对连贯性的追求超过了安全机制的要求。

一旦Claude开始输出一句话,许多特性会「迫使」它保持语法和语义的连贯性,并将这句话说完。

即使它检测到自己真的应该拒绝时也是如此。

在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。

这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。

某种意义上,这是对于LLM的「社工攻击」。

模型只有在完成了一个语法连贯的句子后(从而满足了推动其趋向连贯性的特征的压力)才设法转向拒绝。

也就是它在「不得不告诉」你一些事情之后(终于完成上一句话),利用新句子生成的机会,给出了之前未能给出的那种拒绝:「不过,我不能提供详细的指示……」。

总结一下,以上这些发现不仅仅是在「科学研究」上有趣——它们代表了我们在理解AI系统并确保其可靠性的目标上取得了重大进展。

当然这种方法存在一定的局限性。

即使在简短、简单的提示下,「AI显微镜」方法也只能捕捉到Claude执行的总计算的一部分。

并且看到的机制可能基于「AI显微镜」工具存在一些并不反映底层模型实际情况的伪影——就像模型在心算问题上的前后不一。

从人力的角度,即使是对只有几十个词的提示,理解我们所看到的「电路图」也需要花费几个小时的人力。

要扩展到支持现代模型使用的复杂思维链所需的数千个单词,需要改进方法以及(可能还需要借助 AI 辅助)如何理解我们所看到的内容。

随着AI系统的能力迅速增强并在越来越重要的领域中得到应用,像这样的可解释性研究是风险最高、回报也最高的投资之一,这是一个重大的科学挑战。

有可能提供一种独特的工具来确保AI的透明度。

对模型机制的透明了解使我们能够检查它是否与人类价值观一致——以及它是否值得我们信任。

参考资料:

https://www.anthropic.com/research/tracing-thoughts-language-model

https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
90后儿媳:没法跟公婆一起住,婆婆还行,公公受不了,果断分开住

90后儿媳:没法跟公婆一起住,婆婆还行,公公受不了,果断分开住

烙任情感
2026-03-23 16:34:50
新华社消息|伊朗外交部:收到友好国家促和消息 未与美国进行任何谈判

新华社消息|伊朗外交部:收到友好国家促和消息 未与美国进行任何谈判

新华社
2026-03-24 09:49:25
伊朗宣布对抗议者“零宽恕”,死刑已开始执行

伊朗宣布对抗议者“零宽恕”,死刑已开始执行

桂系007
2026-03-23 19:58:45
伊朗消息人士:已准备对关键基础设施遭袭作出强力回应

伊朗消息人士:已准备对关键基础设施遭袭作出强力回应

界面新闻
2026-03-24 06:50:17
彻底豁出去?口无遮拦曝张柏芝三娃生父的Coco,没给谢家留"体面"

彻底豁出去?口无遮拦曝张柏芝三娃生父的Coco,没给谢家留"体面"

小樾说历史
2026-03-11 10:25:19
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
刚刚,安徽一市政协原主席被查!另有4人被通报

刚刚,安徽一市政协原主席被查!另有4人被通报

凤凰网安徽
2026-03-24 18:28:36
早上一碗燕麦,全天都在和饥饿感作斗争——哈佛研究颠覆你的认知

早上一碗燕麦,全天都在和饥饿感作斗争——哈佛研究颠覆你的认知

富贵说
2026-03-19 13:50:28
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
散步半个小时不对?医生建议:过了70岁,散步要尽量做到这6点!

散步半个小时不对?医生建议:过了70岁,散步要尽量做到这6点!

医学科普汇
2026-03-02 18:45:06
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

削桐作琴
2026-03-21 15:03:45
“时代只是过客,美好不过昨天”!河南博主回忆与张雪峰两次见面

“时代只是过客,美好不过昨天”!河南博主回忆与张雪峰两次见面

火山詩话
2026-03-25 06:19:05
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
从258斤到155斤!罗振宇减重超100斤,分享减肥心得

从258斤到155斤!罗振宇减重超100斤,分享减肥心得

大象新闻
2026-03-24 08:17:02
佛山市委常委、顺德区委书记陈新�...

佛山市委常委、顺德区委书记陈新�...

新浪财经
2026-03-25 04:09:08
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
消费降级!今年什么行业最惨淡?评论区:钱难挣,屎难吃

消费降级!今年什么行业最惨淡?评论区:钱难挣,屎难吃

霹雳炮
2026-03-22 22:36:39
默多克过95岁生日,只邀请了3个孩子,邓文迪陪两个女儿盛装出席

默多克过95岁生日,只邀请了3个孩子,邓文迪陪两个女儿盛装出席

小书生吃瓜
2026-03-22 16:43:35
斯诺克世锦赛将继续留在克鲁斯堡举办,新协议至少延长至2045年

斯诺克世锦赛将继续留在克鲁斯堡举办,新协议至少延长至2045年

懂球帝
2026-03-24 21:53:05
“全是不想坐B座的聪明人”冲上热搜!网友:可以拒绝吗?官方回应↗

“全是不想坐B座的聪明人”冲上热搜!网友:可以拒绝吗?官方回应↗

上观新闻
2026-03-24 14:56:10
2026-03-25 06:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14804文章数 66718关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

美方拟停火一个月 15点结束伊朗冲突方案披露

头条要闻

美方拟停火一个月 15点结束伊朗冲突方案披露

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

教育
手机
艺术
旅游
公开课

教育要闻

重庆大学1死3伤后续:离世者是在读研究生,原因曝光

手机要闻

iOS的无广告时代要变了!消息称苹果计划今年为地图应用加入广告

艺术要闻

《百花谱》,这个春天画花不用愁!

旅游要闻

花开颐和园

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版