网易首页 > 网易号 > 正文 申请入驻

Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

Claude团队来搞开源了——

推出“电路追踪(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。

该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现LLM处理信息的路径。

研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的“决策逻辑”。

官方表示,此次发布的开源库支持在主流开源权重模型上快速生成归因图,而Neuronpedia托管的前端界面则进一步允许用户交互式探索。

总之,研究人员能够:

  • 通过生成自有归因图,在支持的模型上进行电路追踪;
  • 在交互式前端中可视化、注释和分享图表
  • 通过修改特征值并观察模型输出变化来验证假设

Anthropic CEO Dario Amodei表示:

  • 目前,我们对AI内部运作的理解远远落后于其能力的发展。通过开源这些工具,我们希望让更广泛的社区更容易研究语言模型的内部机制。我们期待看到这些工具在理解模型行为方面的应用,以及对工具本身的改进拓展。

目前,该项目开源不到24小时,在GitHub就已揽获400+Star。

在Reddit、X上都有不少网友点赞&讨论。

有网友直呼“DeepSeek肯定喜欢这个”。

还有网友认为“归因图可能成为LLM研究的显微镜”。

“电路追踪”食用教程

除了宣布开源外,Anthropic依据介绍电路追踪方法的原始论文《On the Biology of a Large Language Model》中多步推理和多语言电路示例,利用该工具深入探究了几个涉及Gemma-2-2b的归因图。

一起来看看具体示例和分析。

如果想生成自己的图,可以在Neuronpedia上进行操作,也可以直接在Colab中使用这个起始notebook进行操作。

两阶推理

先来看一个两阶推理示例。

问题:包含达拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)

模型必须首先推断出包含达拉斯的州是得克萨斯州;然后,回答得克萨斯州首府是奥斯汀

介绍电路追踪方法的原始论文中表明,模型Claude 3.5 Haiku使用以下电路解决了该问题,计算了“包含达拉斯的州”这一中间步骤。

而对Gemma 2(2B)进行归因分析表明,它使用以下电路成功完成了prompt任务:

该电路结构与Claude 3.5 Haiku的类似,存在一个对应“得克萨斯州”的节点,并同时显示从“达拉斯”到“奥斯汀”的直接路径以及经过“得克萨斯州”的间接路径。

归因图基于使用transcoders来近似多层感知机(MLP)的行为,提出了关于模型行为的假设。

Anthropic表示,可以通过直接对底层模型进行干预,来验证他们对模型行为的理解是否正确。

对图中所示的每个超节点(supernodes)进行干预,首先需要从该图中获取超节点。

Anthropic提供了一个便捷函数,可将电路URL(及其中存储的超节点)映射到Feature对象列表。每个Feature对象是一个(layer, position, feature_index)元组。

然后,创建用于解决此任务的电路表示。

首先需定义一些超节点对象(Supernode objects),这些对象将存储底层Feature列表,以及受其因果影响的子超节点。

再初始化一个干预图(InterventionGraph),用于存储所有超节点并跟踪它们的状态。

另外,还需要获取模型在此提示下的logits和激活值

设置每个节点的默认激活值(即未进行干预时,原始提示下的激活值),并设定其激活分数,激活分数为节点当前激活值与默认激活值的比值。

由于当前激活值与默认激活值相同,因此每个节点的激活分数均为100%。

另外还将记录top-5的logits,然后对图表进行可视化。

结果显示电路与在可视化完整图表时创建的超节点吻合。

现在,通过干预验证每个超节点是否如假设般发挥作用,每次干预会将节点值设定为原始值的特定倍数。

在介绍电路追踪方法的原始论文中,关闭“说出一个首府”(Say a capital)Feature会导致“说出奥斯汀”(Say Austin)超节点关闭,且模型的最高logits变为得克萨斯州(Texas)。

若接下来对Gemma 2(2B)归因图进行相同操作,会发生什么?

结果观察到了完全相同的现象。强行关闭“说出一个首府”超节点后,“说出奥斯汀”节点也随之关闭,模型的最高logit变为了得克萨斯州。

那如果关闭“首府”(capital)超节点会怎样?

与之前的干预行为类似:关闭“说出一个首府” 超节点,但没有像之前那样强烈,也部分关闭了“说出奥斯汀”节点。

如果我们关闭“得克萨斯州”超节点会怎样?

关闭“得克萨斯州”超节点同样会使“说出奥斯汀”节点失效,导致模型输出其它州的首府。

如果关闭“州”(state)超节点会怎样?

关闭“州”超节点效果并不明显,它对其它超节点的激活状态几乎没有影响,模型的logits也几乎没有变化。

现在已经通过剔除节点验证了其行为。

那么,能否注入完全不同的节点并验证其是否产生预期效果?

以prompt“包含奥克兰的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)”中的电路为例,从该图中提取两个超节点“加利福尼亚州”(California)和 “说出萨克拉门托”(Say Sacramento),并将其添加到干预图中。

然后,进行干预操作:关闭“得克萨斯州”超节点,并激活“加利福尼亚州”超节点。

这样做导致“说出奥斯汀”节点完全关闭,而“说出萨克拉门托”节点开始激活,模型最高输出现在也变为萨克拉门托。

还可以将州替换为国家进行类似实验。以Prompt“包含上海的国家的首都是(Fact: The capital of the country containing Shanghai is → Beijing)”的电路为例,执行与之前完全相同的操作:

禁用“得克萨斯州”超节点,并激活“中国”超节点。这次虽然没有“说出北京”节点,但这种干预的效果应该会在logits中显现。

结果同样有效,北京现在成为模型最可能的输出。

那总是会有效吗?

再用Prompt“包含温哥华的地区的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)”的电路来试试。

在这种情况下,干预效果并不显著。

模型的输出看起来与仅剔除“得克萨斯州”时的结果类似,这表明“不列颠哥伦比亚省”(British Columbia)节点的加入几乎没有产生作用

多语言电路

接下来Anthropic还探讨了原论文中研究的多语言电路。

具体而言,将考察三个电路,分别对应三种语言的同一句子:

关于Claude 3.5 Haiku的研究展示了一个共享的多语言电路:

与Haiku的电路不同,Gemma 2(2B)的电路从本质上完全具备多语言特性。

模型中并不存在独立的“Say big”或“Say grand”超节点来驱动其用特定语言输出对应答案。相反,所有电路均采用 “Say big”Feature,若答案为非英语,则会结合“French”或“Chinese”Feature共同作用。

接下来,通过对这些电路进行干预实验来展开研究。

首先,如前所述创建超节点对象(Supernode objects)

然后,获取这些节点的激活值,对其进行初始化,并生成可视化图表。

现在进行第一次干预操作:关闭“French”超节点。

在关闭“French”超节点后,模型输出变成了英文。

值得注意的是,这对“Say big”超节点仅产生轻微影响,二者的作用似乎相互独立

再尝试将语言切换为另一种:关闭“French”超节点,并激活“Chinese”超节点。

正如预期,干预后的模型输出与中文示例的原始输出一致。

那如果将“small”Feature替换为“big”会怎样?

将“small”超节点替换为“big”超节点后,导致“说出big”超节点关闭,同时一个新的“Say small”超节点被激活。

模型的输出在法语中变为“petit”(即 “small”)

接下来是最后一项干预,能否将“opposite”(反义词)超节点替换为 “synonym”(同义词),以获取同义输出?

虽然该模型并不擅长处理同义词:当输入“Un synonyme de ‘petit’ est ‘”(“petit”的同义词是“”)时,模型会重复输出“petit”,而非其它同义词。

但是,仍可观察此干预是否会复现该行为。

不过最终这项干预并未奏效。尽管“Say small”超节点被激活,但“Say big”也保持激活状态,模型的输出并未改变。

Anthropic团队认为这并不意外,如果观察该任务的原始电路,会发现“opposite”(反义词)超节点与输出端仅存在弱连接。因此,尽管它本应发挥作用,但其因果效应相当有限。

更多细节大伙儿可自行查阅。

另外作为启发,Anthropic在demo notebook和Neuronpedia上提供了尚未分析的额外归因图,感兴趣的童鞋可以亲自上手研究研究。

GitHub链接:https://github.com/safety-research/circuit-tracer?tab=readme-ov-file
[1]https://x.com/anthropicai/status/1928119229384970244?s=46
[2]https://www.anthropic.com/research/open-source-circuit-tracing

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

每日经济新闻
2026-03-25 23:58:31
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 14:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
健康
亲子
军事航空

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

本地新闻

春日吃花第三站——广东

转头就晕的耳石症,能开车上班吗?

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版