打开神经网络的黑盒：分解神经元特征，让复杂模型变得简洁、可解释|高维|序列|普适性

分享至

近年来，随着人工智能技术的飞速发展，神经网络已经成为了研究的热门对象。然而，神经网络内部的运作机制一直充满了神秘和复杂性，人们始终难以直观理解它是如何进行决策的。

为了解释看似异常复杂的神经网络，首要任务是将其分解为易于理解的组件。通过理解每个组件的功能以及它们之间的相互作用，我们可以推断神经网络的运作原理。

然而，分解神经网络并非一项简单的工作。神经网络中最自然的计算单元——神经元，并非人类可以轻松理解的具有单一功能的自然单位，而是呈现多义性，即对看似无关的输入混合作出响应。比如，在视觉模型Inception v1中，一个单独的神经元会同时对猫的脸和汽车的正面作出响应。

这种多义性的一个潜在原因是神经元的叠加现象。这是一种假设现象，即神经网络通过线性地组合神经元来表征远大于神经元数量的数据特征。这种叠加使得小型神经网络利用特征稀疏性和高维空间的特性来近似模拟规模更大、更稀疏的神经网络。

请输入图说▷图 1：神经元叠加假设。图源：论文原文

为了深入理解神经网络的工作方式，来自Anthropic研究者们借助稀疏自编码器，试图从神经网络内部复杂的神经元叠加中分解出具有单一语义的特征，来揭示神经网络内部的奥秘。这项研究成功将复杂Transformer模型的激活模式分解为简洁、可解释的特征，这些特征响应特定输入，并且能通过调整特征值影响网络行为。

▷图 2：论文。图源：Anthropic官网

特征分解

尽管有时单个神经元具有基本可解释性，但很多情况下并非如此。

大量研究表明，神经网络在激活（神经元的激活值）空间中具有可解释的线性方向[4]。研究者认为，既然线性方向是可解释的，那必然存在一些可解释的高维方向。这些方向被称为特征，也是研究者希望将模型分解为的组件，这些特征往往具有单一的可解释的语义。

什么样的分解可以被称作是好的分解呢？研究者认为一个良好的分解要具备以下特点：

1. 能够解释每个特征激活的条件，即能描述哪些数据点会导致特征激活，并且这种解释是有意义的。

2. 能够解释每个特征对下游效果的影响，即特征值的变化如何影响后续的神经网络层。

3. 这些特征能够解释被分解的神经网络层的大部分功能。

这样的特征分解能够使研究人员进行可解释的神经网络分析与调控。比如，能够确定特定示例中特征对层输出和下一层激活的贡献，能够监视网络以检测特定特征的激活与否，通过改变特征的值可预测地改变网络行为，展示网络学到的数据属性，展示网络在生成特定示例的输出时使用了哪些数据属性，能够设计输入以激活特定特征并引出特定输出等。

根据这些分解原则，研究者针对Transformer模型中具有ReLU激活函数的单层MLP（多层感知机）展开了研究，试图提取其激活并将其分解为“特征”。在某种意义上说，MLP模型是语言模型中最简单但也最难以解释的部分。

研究者也表示，选择单个MLP层进行分解的原因之一是特征分解的维度诅咒。随着模型规模的不断扩大，那些需要解释的代表模型内部状态的潜空间的体积会呈指数增长。

研究者试图利用词典学习的线性矩阵因子分解方法，将激活向量xj分解为更一般的特征的组合，这些特征可以是任何高维方向：

其中xj是神经网络对于数据点j的激活向量，fi(xj)是特征i的激活，每个di是特征方向，代表激活空间中的单位向量，b是偏置。

从表面上看，从神经元激活（即特征的叠加）中恢复原本的特征似乎是不可能的，这要求从低维投影确定一个高维向量。换句话说，这就像试图反转一个长宽比极大的矩形矩阵。唯一使其可能的因素是我们正在寻找的高维向量是稀疏的。

这就是著名的压缩感知问题，需要采用复杂的词典学习方法[5]。研究者尝试了大量传统的词典学习方法后，选择使用稀疏自编码器对词典学习进行近似，以实现特征分解。

研究者选择稀疏自编码器主要基于两个原因：首先，稀疏自编码器作为一种神经网络能够轻松应用到非常大的数据集上；其次，使用稀疏自编码器能够避免从模型本身无法访问的激活中恢复特征。

在稀疏自动编码器设置中，特征的激活是编码器的输出：

其中We是编码器的权重矩阵，bd和be是预编码器和编码器的偏置，特征方向是解码器权重矩阵的列（具体设置可参考论文原文）。

研究者强调，如果存在这样的稀疏分解，这就提出了一个重要问题：从根本上说，模型是否由特征组成，还是特征只是一种方便的事后描述？在这项工作中，研究者持中立立场。但研究者对特征普遍性的研究结果表明，特征在单个模型之外具有某种普遍性的存在。

将模型分解为这些特征组件是神经网络可解释性工作的开始，这为解释工作提供了突破口，让研究者能够深入了解模型内部工作，并建立更广泛的模型理解。

特征分析

本项工作中最重要的观点之一是，字典学习可以提取比神经元更具单一含义的特征。因此，研究者对一些特定特征进行了详细的演示，这些特征仅在高度特定的上下文中被激活。

对于每个学到的特征，研究者试图证明以下几项声明：

1. 学到的特征在假设的上下文中具有高度特异性激活（当特征激活时，通常存在该上下文）。

2. 学到的特征对于假设的上下文具有高度敏感性激活（当上下文存在时，特征通常会激活）。

3. 学到的特征会导致适当的下游行为。

4. 学到的特征不对应任何单一神经元。

5. 学到的特征是普适的——在应用于不同模型时，通过字典学习会得到类似的特征。

此外，研究者着力展示每个特征的特异性，即一个特征只在某些相对罕见和具体的上下文中激活，这对于排除多义性十分重要。

在本项工作中，研究者以编号为A/1/3450（A为模型编号；1为实验设置编号，越大表示特征数量越多；3450为特征编号）的一个阿拉伯文字特征为例进行了具体分析，并对以上声明进行了证明。这个特征非常具体，对阿拉伯文字的敏感性相对较强。更重要的是，如果以单个神经元的视角查看模型，这类行为几乎无法发现。

（一）特征特异性

在整体数据分布中，阿拉伯文本非常罕见，仅占0.13%的训练token。但在所有能够激活特征A/1/3450的token中，这些阿拉伯token占到了81%。这证明该特征几乎只对阿拉伯文字的文本产生激活。

此外，研究者发现尽管该特征只会对阿拉伯文字作出高度特异性的响应，但也会对一些阿拉伯文字做出低活跃度的响应。研究者猜测这可能是因为模型本身不够精准、或者是自编码器不够完善导致的，因为自编码器的宽度可能小于模型正在使用的“真实特征”的数量。

（二）特征敏感性

实验证明，A/1/3450并不对阿拉伯文字中的所有token都敏感。在随机数据集示例中，它在前缀“ال”（相当于英语中的定冠词“the”）的五个示例中未能触发。然而，在这些示例中，另一个特定于阿拉伯文字的特征A/1/3134会被激活。此外，当一个阿拉伯字符被拆分为多个token时，A/1/3450只会在构成字符的最后一个token上触发，而A/1/3399会在构成字符的第一个token上触发。这展示了这些特征之间的协作关系。

此外，研究者还度量了特征的活跃度与阿拉伯文字的活跃度之间的皮尔逊相关系数。这种度量综合考虑了敏感度和特异性，相关系数达到了0.74，表明存在相当显著的相关性。

（三）特征的下游行为

研究者表示，字典学习所得到的特征能够对模型的输出产生可解释的因果效应，并且与特征的激活水平相一致。换句话说，可以通过控制特征的激活水平来引导模型的输出。

为了验证这一观点，研究者进行了一个有趣的实验。实验中让模型预测以前缀1、2、3、4、5、6、7、8、9、10开头的后续序列，并固定特征A/1/3450为最大值。实验结果显示，模型会生成由阿拉伯文字组成的后续序列，而不加干涉时则会生成数字序列。因此，研究者确信这些特征与网络中MLP的功能真正相关，而不仅仅是基础数据的一个特性。

▷图 3:特征可以影响模型输出。图源：论文原文

（四）特征不对应单一神经元

为了证明这一点，研究者分别统计了每一个神经元以及能够最激活它们的20个文本数据示例（TOP 20）。研究结果显示，仅有一个神经元的TOP 20中包含阿拉伯文本，且仅有一个阿拉伯示例，其余的十八个示例是英文，一个是西里尔文。因此，单一的神经元无法充分表达A/1/3450所表达的语义。

更直观的是，研究者找到了与特征A/1/3450最相关的神经元A/neurons/489，发现A/neurons/489会对多种不同的非英语语言产生响应，而阿拉伯文字符只占很小一部分。这进一步佐证了这些特征不是单个神经元的简单对应，如果仅根据神经元进行分析，那么阿拉伯文的特征将几乎无法发现。

（五）特征的普适性

研究者认为A/1/3450可能是一种通用特征，并且可能在其他模型中出现。研究者对另一个Transformer模型（同样训练数据但不同训练种子）使用稀疏自动编码器进行特征分解，找到了和A/1/3450具有极高相关性的特征B/1/1334，其相关性为0.91。

为了进一步验证，研究者在B/1/1334上进行与A/1/3450相同的实验，而实验结果都十分相似，这进一步证明了特征可能在模型之间普遍存在。

在本项工作中，研究者还对DNA、Base64和Hebrew特征进行了类似的分析。此外，他们制作了一个可视化的网站，用来展示所有特征以及相应的语义、相关神经元和示例。

▷图 4:可视化网站（https://transformer-circuits.pub/2023/monosemantic-features/vis/index.html）。图源：论文原文

除了对特征逐个进行分析，研究者还进行了对特征的总体分析。

首先，研究者对所有特征的可解释性进行了实验，实验中采用了三种解释方法，包括人工解释和两种利用AI的自动解释。实验结果表明，尽管并非所有的特征都具有很高的可解释性，但所有三种方法都一致地显示，特征的可解释性明显高于神经元。

值得一提的是，在A/1自编码器中学到的4096个特征中，有168个是“死”的（在1亿数据集中没有激活），有292个是“超低密度”的（在百万分之一以下的数据集示例中激活），并且具有一些其他非典型特性。

其次，研究者试图衡量这种基于特征分析的解释方法对模型的解释程度。换句话说，他们想了解，“这些特征覆盖了模型功能的多少？是否完全覆盖了？”

研究者通过将MLP的激活值替换为稀疏自动编码器的输出值（即特征激活值），来尝试衡量这一点。结果显示，仅在MLP的对数似然损失上，信息仅仅损失了21%。

然而，这并不代表这些特征解释了模型功能的79%。一方面，要解释剩下的21%，可能需要提取多得多的特征；另一方面，研究者认为这些特征不是完全单一含义的，也不是所有特征都是清晰可解释的。

最后，研究者认为，这些特征的特性来源于模型和数据的共同作用。为了评估数据集的相关性对特征可解释性的影响，研究者对具有随机权重的单层模型进行了字典学习。

结果显示，提取出的特征中，只有那些对应于单个token的特征是可解释的，而其他特征都无法解释。因此研究者得出结论——随着学习的进行，模型在其激活中创造了比数据集中的token分布更丰富的结构。

我们能从特征中学到什么

可解释AI的最终目的是理解神经网络，而将模型分解为特征只是实现这一目标的手段。研究者对特征的“现象学（Phenomenology）”进行了深入讨论，即特征能教给我们什么有关神经网络的经验教训。

（一）特征主题

在所有的特征中，上下文特征和上下文token特征最为普遍。其中上下文（context）特征会被特定上下文的输入激活（比如DNA序列），而上下文token（token-in-context）会被特定上下文中的特定token激活（比如数学公式里的<和HTML里的<分别可以激活特征A/0/341和A/0/20）。

这类上下文token特征数量巨大，例如在A/4（一种实验设置）中，有一百多个主要响应不同上下文中的“the”这一token的特征。并且随着学习的特征数的增加，上下文特征和纯token特征会逐渐分裂为上下文token特征。

研究者强调，在一个单层模型中找到的所有特征都可以解释为“动作特征”。也就是说，这些特征不仅可以被特定的输入激活，也可以作为一个“动作”刺激模型产生特定的输出或预测。此外，特征的激活和动作所对应的token并不一定一致，比如一个特征可以由大写字母激活并输出下划线。

（二）特征拆分

特征的一个主要特点是其呈簇状分布，比如会有多个base64特征、多个阿拉伯文特征。随着特征分解数量的增加，会有更多的base64特征出现。这种现象被称作特征分裂。研究者通过二维UMAP（Uniform Manifold Approximation and Projection）分析发现，这些簇内的特征对应的字典向量之间的角度很小。

▷图 5:特征簇。图源：论文原文

举例而言，当我们仅学习512个特征时（实验A/0），发现特征A/0/341会被所有数学公式语境下的“the”激活。而当学习的特征数增多时（实验A/2），这一特征会分解为更多精确的特征，包括针对机器学习语境下的“the”的A/2/15021，针对抽象代数语境下的A/2/4878，和针对场论语境下的A/2/2609。也就是说，特征分裂会更精确地反映模型功能的差异。

此外，特征分裂的现象可以引导特征分析的学习模式。研究者可以首先学习较粗糙的特征集以了解模型行为的类别，然后学习更精细的特征集以研究该行为的微妙之处。这种学习模式可能非常适用于特征集较大的大型模型。

（三）特征普适性

关于特征的一个最重要的“元问题”是它们是否具有普适性，也就是说，不同模型是否会产生相同的特征。这个问题涉及到是否能将在研究一个模型时得到的宝贵经验推广到其他模型。更重要的是，普适性可能证明了提取到的特征是“真实的”，或者至少是可复制的。

正如前文分析的阿拉伯文特征一样，可以在两个Transformer模型中都能学习到。研究者用激活相似度来衡量两个模型之间特征的相似度，结果显示许多特征在两个模型之间能找到对应的相似特征。

研究者进一步将发现的特征与其他文献中报道的特征进行比较，以寻找更强的普遍性形式。例如，研究者在文献[6]中找到了代表Base64（A/0/45）、十六进制（A/0/119）和大写字母（A/0/317）的特征；在文献[7]中找到了代表澳大利亚（A/3/16085）、加拿大（A/3/13683）和非洲（A/3/14490）的特征。

（四）特征状态机

研究者在实验中观察到了一些类似于“有限状态自动机”的特征组合。一个特征增加某种token的输出概率，接着另一个特征在下一步被这一token触发，依此类推。

举例而言，当模型生成遵守“全大写蛇形命名法”的名称（比如ARRAY_MAX_VALUE）时，一个特征（A/0/207）在下划线上激活并生成大写字母，另一个特征（A/0/358）被大写字母激活使模型生成下划线。

这种双节点的状态机系统在Unicode字符中也很常见，而在中文语境下这种状态机系统会更加复杂。而这种状态机也使得模型似乎会记忆特定的短语。

总结

在本项工作中，研究者运用稀疏自编码器将Transformer模型中复杂的激活模式分解为语义相对单一且可解释的特征。这些特征对输入具有特定响应模式，甚至能够操纵网络的行为。这为解释神经网络内部的工作方式提供了新的视角。

对于分解得到的特征，研究者进一步分析了这些特征的特异性和敏感性，并尝试通过设置这些特征的取值来控制网络的输出。此外，他们还证实了相似的特征普遍存在于模型之间，甚至是不同模型解释方法之间。

更具价值的是，通过对特征现象学的分析，研究者总结了特征聚类、分裂、普遍性以及特征状态机等现象和理论，为逐步拆解复杂的大模型、揭示其隐藏的特征和工作原理提供了可能性。

这些研究对于进一步深入研究和改进神经网络的性能具有重要意义，也为我们解锁人工智能的更多奥秘提供了新的线索。

参考文献：

[1] Feature Visualization. C. Olah, A. Mordvintsev, L. Schubert.Distill. 2017.

[2] Linear algebraic structure of word senses, with applications to polysemy. S. Arora, Y. Li, Y. Liang, T. Ma, A. Risteski.Transactions of the Association for Computational Linguistics, Vol 6, pp. 483--495. MIT Press. 2018.

[3] Toy Models of Superposition. N. Elhage, T. Hume, C. Olsson, N. Schiefer, T. Henighan, S. Kravec, Z. Hatfield-Dodds, R. Lasenby, D. Drain, C. Chen, R. Grosse, S. McCandlish, J. Kaplan, D. Amodei, M. Wattenberg, C. Olah. Transformer Circuits Thread. 2022.

[4] Linguistic regularities in continuous space word representations. T. Mikolov, W. Yih, G. Zweig. Proceedings of the 2013 conference of the north american chapter of the association for computational linguistics: Human language technologies, pp. 746--751. 2013.

[5] Method of optimal directions for frame design. K. Engan, S.O. Aase, J.H. Husoy.1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258), Vol 5, pp. 2443--2446. 1999.

[6] Softmax Linear Units. N. Elhage, T. Hume, C. Olsson, N. Nanda, T. Henighan, S. Johnston, S. ElShowk, N. Joseph, N. DasSarma, B. Mann, D. Hernandez, A. Askell, K. Ndousse, A. Jones, D. Drain, A. Chen, Y. Bai, D. Ganguli, L. Lovitt, Z. Hatfield-Dodds, J. Kernion, T. Conerly, S. Kravec, S. Fort, S. Kadavath, J. Jacobson, E. Tran-Johnson, J. Kaplan, J. Clark, T. Brown, S. McCandlish, D. Amodei, C. Olah.Transformer Circuits Thread. 2022.

[7] Multimodal Neurons in Artificial Neural Networks. G. Goh, N. Cammarata, C. Voss, S. Carter, M. Petrov, L. Schubert, A. Radford, C. Olah. Distill. 2021. DOI: 10.23915/distill.00030

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.