Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路|字母|残差|神经元|神经网络

分享至

揭示语言模型行为潜在机制的方法。

作者丨梁丙鉴、洪雨欣

编辑丨陈彩娴

语言模型怎么“知道”乔丹是篮球运动员的？

近日，Anthropic 通过构建归因图呈现了语言模型处理这一问题时的底层机制。由下图可以看到，对于"Fact: Michael Jordan plays the sport of __"的输入，模型输出的第一条路径源自"plays"和"sport"词元，它们激活了"sport"与"输出运动项目"特征，进而提升了篮球、足球等运动项目的逻辑输出值。第二条路径源自"Michael Jordan及其他名人"特征，这些特征与篮球逻辑输出呈正相关，与足球逻辑输出呈负相关。除序列路径外，"Michael Jordan"和"sport/game of"等特征组还通过直接边连接至篮球逻辑输出，三条路径的共同作用使模型最终在划线处填上了"basketball"。

上述成果出自Anthropic团队于3月27日发布的一种揭示语言模型行为底层机制的研究方法。该方法包括两步，首先，将特征作为识别模型计算中使用的可解释基础单元。其次，描述这些特征如何通过过程或回路相互作用以产生模型输出。有别于此前的研究方案，Anthropic基于稀疏编码特征构建回路，提出通过在"替换模型"中追踪单个计算步骤，针对目标提示生成描述模型计算过程的图谱。该替换模型通过使用更易解释的组件替换原始模型中的部分结构，并经过训练实现对原模型的近似。

深度学习模型通过分布在众多人工"神经元"上的一系列变换来生成输出，此前的研究思路是在第一步中直接使用模型的原始神经元作为基础单元。然而，由于模型需要表征的概念数量超过其神经元数量，导致模型神经元往往具有多义性，同时表征多个不相关概念的混合。由此，神经元作为基础计算单元与有意义概念之间的不匹配，成为机制解释性研究的主要障碍。

Anthropic这一全新的研究方法将有助于用人类可理解的语言描述发生在语言模型内部的变换过程，提高模型输出的可解释性。Anthropic开发了配套的可视化和验证工具集，成功解析了18层语言模型简单行为的"归因图谱"，并为应用该方法研究前沿模型Claude 3.5 Haiku奠定了基础。

建立可解释的替换模型

替换模型的核心架构是跨层转码器（cross-layer transcoder )，由作为神经元的“特征”组成。这些神经元被分为L层，与底层模型的层数相同，此举目标在于使用稀疏激活的特征来重建底层模型的MLP输出。换言之，每一层的 MLP 输出被其对应的 CLT 重建结果所替换。这些特征从模型残差流的关联层接收输入，但可以向所有后续层提供输出，因而有“跨层”之称。

据Anthropic评估，替换模型与底层模型在标记输出上的匹配程度随模型规模的增加而提高，且与每层单独训练标准单层转码器的逐层转码器基线相比，CLT方法表现更佳。同时Anthropic通过调整神经元激活阈值发现，实证中神经元激活值越高，其可解释性越强。Anthropic最大的18层CLT模型在开源数据集提供的多样化预训练风格提示样本中，在50％的情况下能复现基础模型的next-token补全结果。

虽然运行替换模型有时可以重现与底层模型相同的输出，但仍然存在很大差距，并且重构误差可能会跨层叠加。由于我们最终有兴趣了解底层模型，因此我们希望尽可能接近它。为此，在研究固定提示时，我们构建了一个局部替换模型，

用 CLT 替代 MLP 层（如在替换模型中）
使用底层模型前向传递中的注意模式和规范化分母
在每个（token 位置，层）对的 CLT 输出中添加一个误差调整，该误差调整等于并且 CLT 输出

在进行误差调整、注意力和规范化非线性冻结之后，我们有效地重写了提示中底层模型的计算就不同的基本单位而言；所有经过误差修正的替代模型的激活和逻辑输出都与底层模型的激活和逻辑输出完全匹配。

局部替换模型可以看作是一个非常大的全连接神经网络，跨越多个 token，我们可以在其上进行经典的电路分析：

它的输入是提示中每个标记的连接在一起的独热向量集。
它的神经元是每个标记位置上活跃的 CLT 特征的联合。
其权重是从一个特征到另一个特征的所有线性路径上的交互总和，包括通过残差流和注意，但不通过 MLP 或 CLT 层。由于注意模式和规范化分母是固定的，因此源特征的激活对目标特征通过每条路径的预激活的影响在源特征的激活中是线性的。我们有时将它们称为“虚拟权重”，因为它们未在底层模型中实例化。
此外，它具有与误差项相对应的偏差类节点，每个偏差都与模型中的每个下游神经元相连。

局部替换模型中唯一的非线性是应用于特征预激活的非线性。

局部替换模型是我们的归因图的基础，我们在其中研究局部替换模型在其所针对的提示上的特征-特征交互。

构建归因图

我们将通过一个关于模型生成任意标题首字母缩写的案例研究，介绍构建归因图的方法。在此示例中，模型成功补全了一个虚构的首字母缩写。具体而言，我们向模型输入提示语"The National Digital Analytics Group，因此提示与补全的分词结果为：The National Digital Analytics Group。

我们通过构建归因图解释模型输出"DAG"词元的计算过程。该图展示了信息从提示语经过中间特征流向输出的路径。下方展示了完整归因图的简化示意图：提示语位于底部，模型补全结果位于顶部。方框表示相似特征的组合，悬停可查看各特征的可视化。箭头表示特征组或词元对其他特征及输出逻辑值的直接影响。

缩写的提示词图展示了三条主要路径，分别从组成目标缩写的每个标记开始。这些路径从特定单词的特征出发，促进“在正确位置说出该单词首字母”的特征。除了这些顺序路径外，像“Michael Jordan”和“sport/game of”这样的特征组还有直接连接到篮球对数几率的边，这代表仅通过注意力头OVs介导的效果，与Batson等人的发现一致。

为了输出“DAG”，模型还需要决定输出一个缩写，并考虑到提示词中已经包含N，我们确实看到了“在缩写中”和“在缩写开头的N”特征对对数几率有正向影响。National一词对对数几率的影响很小。我们推测这是由于其主要贡献是通过影响注意力模式，而我们的方法并未解释这一点。

针对提示构建归因图

为解释局部替换模型的计算过程，我们构建了因果图以描述其在特定提示下的计算步骤序列。构建逻辑与Dunefsky等人的方法基本一致，但扩展支持跨层转码器。图中包含四类节点：

输出节点：对应候选输出词元。仅构建覆盖95%概率质量的输出节点，最多10个。
中间节点：对应各提示词元位置的活跃跨层转码器特征。
主输入节点：对应提示语词元的嵌入向量。
辅助输入节点（误差节点）：对应底层模型中未被CLT解释的MLP输出部分。

实践中，我们使用反向Jacobian矩阵高效计算这些权重。

需注意：

图中不包含节点通过影响注意力模式对其他节点的作用，但包含通过冻结注意力输出产生的节点间影响。
跨层特征的输出边聚合了其在所有写入层对下游特征的解码效应。

尽管替换模型特征稀疏激活（每个词元位置约百个活跃特征），归因图仍过于庞大（短提示下边数可达百万级）。但关键路径通常集中于小子图。为此，我们采用剪枝算法保留对逻辑节点有显著直接/间接影响的节点和边。默认参数下，节点数减少10倍时，仅损失20%的行为解释力。

从归因图中学习

即使在剪枝之后，归因图仍然包含大量的信息。一个剪枝后的图通常包含数百个节点和数万条边——信息量太大，无法一次性解读。为了帮助我们应对这种复杂性，我们开发了一个交互式归因图可视化界面。该界面旨在实现“追踪”图中的关键路径，保留重新访问之前探索过的节点和路径的能力，并根据需要提供解释特征所需的信息。

该界面是交互式的。可以将鼠标悬停在节点上并点击以显示附加信息。还可以通过使用命令/控制键+点击来选择一组节点，从而构建子图。在子图中，特征可以被聚合到我们称之为超节点的组中。

特征理解与标注

我们采用与前期工作规模化单义性（Scaling Monosemanticity）相似的特征可视化方法，对图中各特征进行人工解释与标注。

最易标注的特征包括两类：

输入特征：常见于模型浅层，在特定词元或紧密相关词元类别上激活；
输出特征：常见于模型深层，通过促进特定词元或相关词元类别的延续来引导响应生成。

模型中间层则普遍存在抽象特征，其标注难度较高。对此类特征，我们综合以下维度进行推断：

特征活跃的上下文案例
逻辑效应（通过残差流和非嵌入层直接促进/抑制的词元）
与其它特征的连接关系

研究发现，即使特征标注存在不完美之处，仍能有效揭示归因图中的显著结构。

在进行误差调整并冻结注意力机制与归一化非线性操作后，Anthropic以不同的基础计算单元重构了底层模型在固定prompt p上的计算过程。此时的替换模型经过误差校正，所有激活值和逻辑输出均与底层模型完全一致。Anthropic指出，本地替换模型可以被视作一个非常大的全连接神经网络，并在其上进行经典的回路分析。

Anthropic针对本地替换模型构建时所依据的特定提示，研究其特征间的交互作用，在此基础上构建了解释语言模型行为底层机制的归因图。

以模型为任意标题生成缩写的任务为例，在Anthropic展示的案例中，研究人员向模型提供提示词“The National Digital Analytics Group (N”，并采样其完成的输出“DAG”。Anthropic通过构建一个归因图来解释模型如何输出“DAG”标记，下图是完整归因图的简化版。图中底部是提示词，顶部是模型的完成输出。方框代表一组相似的特征，箭头表示一组特征或标记对其他特征和输出对数几率的直接影响。

可以看到，针对首字母缩写提示生成的归因图显示出三条主要路径，每条路径均源自构成目标缩写"DAG"的各词元。这些路径从特定单词对应的特征出发，激活了"在正确位置说出该单词首字母"相关特征，这些特征又通过正向边连接至"输出DAG"特征及最终逻辑输出。

为实现"DAG"的输出，模型需要首先决定输出一个首字母缩写，并考虑提示中已包含字母"N"的事实。图中可见，属于首字母缩写且位于首字母缩写起始处的N通过正向边影响逻辑输出，而"National"一词对逻辑输出的影响微弱。Anthropic推测这主要源于其通过影响注意力模式发挥作用，但当前解释方法尚未涵盖这一机制。

由于归因图具有极高的信息密度，Anthropic还开发了交互式归因图可视化界面。该界面支持用户"追踪"图中的关键路径，保留重新检视已探索节点与路径的功能，并能按需动态呈现解释特征所需的相关信息。

将特征分组到超级节点

归因图通常包含特征组，这些特征共享与其在提示中的角色相关的方面。例如，我们的提示中有三个特征在“数字”上处于活动状态，每个特征在不同的情况和上下文中响应单词“数字”。对于此提示，唯一重要的方面是单词“数字”以“D”开头；所有三个特征都具有与同一组下游节点相关的正边缘。因此，为了分析此提示，将这些特征组合在一起并将它们视为一个单元是有意义的。为了便于可视化和分析，我们发现将多个节点（对应于（特征、上下文位置）对）分组为“超节点”很方便。这些超节点对应于我们上面展示的简化示意图中的框，为方便起见，下面进行了复制。

我们用来对节点进行分组的策略取决于手头的分析，以及特征在给定提示中的作用。我们有时会将在相似上下文中激活、具有相似嵌入或逻辑效应或具有相似输入/输出边缘的特征分组，具体取决于对于我们对机制提出的主张重要的方面。我们通常希望超节点内的节点相互促进，并且它们对下游节点的影响具有相同的符号。虽然我们尝试了自动化策略，例如基于解码器向量或图邻接矩阵的聚类，但没有一种自动化方法足以涵盖说明某些机制主张所需的特征分组范围。我们将在类似特征和超节点中进一步讨论超节点及其需要它们的潜在原因。

通过干预措施验证归因图假设

在归因图中，节点表示哪些特征对模型的输出很重要，边表示这些特征的重要性。我们可以通过在底层模型中执行特征扰动来验证归因图的声明，并检查对下游特征或模型输出的影响是否符合我们基于图的预测。可以通过修改特征的计算激活并注入其修改后的解码来代替原始重构来干预特征。

跨层转码器中的特征会写入多个输出层，因此我们需要决定在哪些层上执行干预。我们该怎么做呢？我们可以像对每层转码器一样在单个层上干预特征的解码，但归因图中的边表示多个层解码的累积效应，因此在单个层上进行干预只会针对给定边的子集。此外，我们经常希望一次干预多个特征，并且超节点中的不同特征将解码到不同的层。

为了对层范围进行干预，我们会修改给定范围内每一层的特征解码，并从范围中的最后一层开始运行前向传递。由于我们不会根据范围早期干预的结果重新计算层的 MLP 输出，因此对模型的 MLP 输出的唯一更改就是我们的干预。我们将这种方法称为“约束修补”，因为它不允许干预在其修补范围内产生二阶效应。

下面，我们演示了约束修补的乘法版本，其中我们将目标特征的激活乘以在层范围。请注意，后续层的 MLP 输出不会直接受到补丁的影响。

归因图是使用底层模型的注意力模式构建的，因此图中的边不考虑通过 QK 电路介导的影响。同样，在我们的扰动实验中，我们将注意力模式固定在未受干扰的前向传递过程中观察到的值。这种方法选择意味着我们的结果不考虑扰动如何改变注意力模式本身。

现在，我们展示抑制某些超节点对其他超节点的聚合激活和对逻辑的影响。对于每个补丁，我们将节点激活中的每个特征设置为其原始值的相反值（或者，我们以 -1 的因子进行乘法引导）。然后，我们将每个节点的总激活量绘制为其原始值的一部分。

我们看到，每个单词的抑制特征都会依次抑制相关的初始特征。此外，“say DA_” 的特征超节点受到 “Digital” 和 “Analytics” 超节点抑制的影响。

定位重要层

归因图还允许我们确定特征解码在哪些层中对逻辑的下游影响最大。例如，“分析”超节点特征主要通过位于第 13 层及以后的中间特征组“say _A”、“say DA_”和“say DAG”间接地对“dag”逻辑做出贡献。

因此，我们预计对“分析”特征进行负面引导会对dag logit产生影响，该影响在第 13 层之前达到稳定状态，然后在接近最后一层时幅度减小。这种减少是由我们干预的限制性质造成的。如果修补范围包括所有“说一个首字母缩略词”特征，它将不会改变它们的激活，因为受限修补不允许连锁反应。下面，我们展示了使用每个分析特征进行引导的效果，将起始层设置为 1 并扫描修补结束层。

加法案例研究

我们现在考虑简单的加法提示计算：36+59= ？与前面的部分不同，我们展示了 Haiku 3.5 的结果，因为模式更清晰，并且显示相同的结构。我们研究小数加法，因为它是大多数 LLM 和人类成年人能够熟练表现的最简单的行为之一。

我们用一个明确涵盖两位数加法问题集的可视化来补充通用特征可视化（在任意数据集示例上），这使我们能够清晰地了解每个特征的作用。继 Nikankin等人之后分析了神经元，我们用三个图来可视化=标记上活跃的每个特征：

操作数图，在 100 × 100 的潜在输入网格上显示其活动。
输出权重图，显示其在 [0, 99] 输出上的直接权重。
嵌入权重图

下面我们展示了这三种类型针对不同特征的示例图。在这个受限域中，操作数图是对 CLT 特征作为函数的完整描述。这些图中的条纹和网格表示不同类型的结构（例如，对角线表示对总和的约束，而网格表示对输入的模块化约束）。

我们可以看到来自输入特征的信息流，它将最后一位数字、数字和操作数的大小分成三条主要路径：最后一位数字路径、中等精度路径和低精度路径。它们共同产生一个中等精度的总和值以及总和的最后一位数字；它们最终相互影响，给出模 100 版本的总和以及最终输出。

这些发现与其他机械研究大体一致，这些研究表明，在自然语言语料库上训练的语言模型使用涉及量级和模数的并行启发式方法执行加法，这些量级和模数相互干扰以产生正确答案。Nikankin 提出了一种“启发式包”解释，识别一组“操作数”特征（相当于我们的“添加 X”特征）和“结果”特征（相当于我们的“总和”特征），在感知输入和产生输出时表现出高精度和低精度以及不同的模块性。

全局权重

我们构建的归因图显示了特征如何在特定提示上相互作用以产生模型的输出，但我们也对特征如何在所有上下文中相互作用的更全局图景感兴趣。在经典的多层感知器中，全局相互作用由模型的权重提供：如果神经元位于连续的层中，则一个神经元对另一个神经元的直接影响仅仅是它们之间的权重；如果神经元相距较远，则一个神经元对另一个神经元的影响会通过中间层影响。在我们的设置中，特征之间的相互作用具有上下文独立成分和上下文相关成分。理想情况下，我们希望同时捕获这两者：我们想要一组与上下文无关的全局权重，但也能捕获所有可能上下文中的网络行为。在本节中，我们将分析上下文独立成分（一种“虚拟权重”）、它们的一个问题（大的“干扰”项对分布没有因果影响）以及一种使用共激活统计数据来处理干扰的方法。

在特定提示下，源 CLT 特征 (ss）影响目标（）有三种路径：

残差直接：ss的解码器写入残差流，然后在后面的层中读取的编码器。
注意直接：ss的解码器写入残差流，通过一定数量的注意头 OV 步骤进行传输，然后由的编码器。
间接：来自的路径ss到由其他 CLT 特征介导。

我们注意到，残差直接影响仅仅是该提示上第一个特征的激活乘以在输入之间一致的虚拟权重的乘积。由于这种一致的关系，这些虚拟权重是全局权重的简单形式。虚拟权重是在神经网络的许多不同组件之间得出的，包括注意力头和SAE 特征。对于 CLT 来说，两个特征之间的虚拟权重是下游特征的编码器与这两个特征之间的解码器之和的内积。

解释虚拟权重存在一个主要问题：干扰。

由于数百万个特征通过残差流进行交互，它们都将连接在一起，并且从未在分布中一起激活的特征之间仍可能具有（可能很大的）虚拟权重。当发生这种情况时，虚拟权重不适合作为全局权重，因为这些连接永远不会影响网络功能。

这个问题有两个基本解决方案：一个是将要研究的特征集限制为在小范围内活跃的特征，另一个是引入有关数据分布上特征-特征共激活的信息。

例如，让激活该功能我们可以通过乘以虚拟权重来计算预期残差归因值，这代表了我们分析过的所有提示的残差直接路径的平均强度，类似于计算跨许多标记的上下文位置内的所有归因图的平均值。此表达式中的指示函数捕获了当目标特征处于活动状态时归因如何仅是积极的，由于小特征激活通常是多语义的，因此我们使用目标激活值来加权归因。

我们将最后一种类型的权重称为目标加权预期残差归因 (TWERA)。如方程式所示，这两个值都可以通过将原始虚拟权重乘以激活的（“分布”）统计数据来计算。

现在，我们重新回顾之前的示例游戏特征，但连接按 TWERA 排序。我们还绘制了每个连接的“原始”虚拟权重以供比较。这些连接中有很多是可解释的，这表明虚拟权重提取了有用的信号，但我们需要消除干扰才能看到它们。上面的虚拟权重图中最具解释性的特征（另一个“说出游戏名称”和“极限飞盘”特征）被保留，而许多不相关的概念被过滤掉。

TWERA 并非解决干扰问题的完美方案。将 TWERA 值与原始虚拟权重进行比较，可以发现许多极小的虚拟权重具有很强的 TWERA 值。这表明 TWERA 严重依赖于共激活统计数据，并且除了简单地移除较大的干扰权重之外，还会强烈改变哪些连接是重要的。TWERA 也不能很好地处理抑制（就像归因一样）。我们将在未来的工作中进一步探讨这些问题。

尽管如此，我们发现全局权重为我们提供了一个有用的窗口，让我们了解特征在比归因图更广泛的背景下的表现。

面纱尚存

尽管在揭示语言模型底层行为机制上取得了进展，这套基于本地替换模型构建归因图的思路仍然存在重大局限。生成的归因图表本身可能非常复杂导致难以理解、特征分割和特征吸收等问题都是仍然掩盖着模型行为底层机制的重重面纱。

在诸多局限中，Anthropic将注意力回路的缺失列为首要，指出现有的研究方法没有解释QK-circuits如何计算注意力模式。在固定注意力模式下，归因成为一个定义明确且规范的操作，但也意味着构建的归因图不会试图解释模型的注意力模式如何形成，以及这些模式如何通过注意力头的输出值矩阵（OV矩阵）中介特征间的交互作用。Anthropic指出，在注意力计算等场景下，这种归因图“基本上毫无用处”。

跨层转码器的忠实度同样存疑。经过训练的CLT可以模拟底层模型在每一层的激活，但即使它准确地进行了重建，也不能保证这一过程通过和底层模型相同的机制实现。

例如，即使跨层转码器在训练分布上实现了 0 MSE，它也可能学习了与底层模型根本不同的输入/输出函数，因此在分布外输入上存在很大的重建误差。截至目前，Anthropic并未找到解决这一问题的方法，仅能通过扰动实验进行事后验证。

值得注意的是，该方法还存在一个两难困境。Anthropic指出，跨层转码器的稀疏性使替换模型得以在数千万个特征中专注于给定提示的相对较小的特征集，是归因图成功构建的关键。这种便利性建立在“只有活动特征才涉及模型响应”的假设之上，但事实并非如此。在某些情况下，由于被其他特征抑制而缺乏活动的特征可能才是影响模型输出结果的关键。

事先假设部分非活动特征可能与模型的输出相关，则抑制了归因图进行探索性、无假设分析的可能。忽视非活动特征更与揭示语言模型行为底层机制的研究目的南辕北辙。Anthropic称，进一步的研究将围绕通过无监督方法识别关键抑制特征展开，现有思路包括进行特征消融实验，并考虑距离活动状态仅“一次消融”的非活动特征集。