OpenAI新论文拆解语言模型内部机制：用「稀疏电路」解释模型行为|算法|神经元|新模型|神经网络|openai

OpenAI新论文拆解语言模型内部机制：用「稀疏电路」解释模型行为

2025-11-14 19:12:10　来源: 机器之心Pro

天津举报

分享至

机器之心报道

编辑：杜伟

在如今的 AI 领域，大多数大语言模型在很大程度上仍以「黑箱」方式工作，即使是专业的研究者也难以完全理解它们的内部计算过程。因此，提升模型的透明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。

就在今天，OpenAI 发布了一项新研究，使用新方法来训练内部机制更易于解释的小型稀疏模型，其神经元之间的连接更少、更简单，从而观察它们的计算过程是否更容易被人理解。

与普通模型不同，OpenAI 发现可以从该稀疏模型中提取出简单、易于理解的部件来执行特定任务，例如在代码中正确结束字符串或跟踪变量类型。

下图为整体方法概览，首先训练权重稀疏的模型，然后针对精心挑选的一系列简单行为，将模型剪枝到仅保留完成该任务所需的节点子集。

论文一作 Leo Gao 表示，「通过隔离稀疏模型内部负责各种简单行为的微小电路，以前所未有的方式理解语言模型。」

接下来看实现细节。

如何看待可解释性？

随着 AI 系统变得越来越强大，并在科学、教育和医疗等领域的决策中产生实际影响，理解它们的工作原理至关重要。可解释性指的是帮助理解模型为何会产生某个输出的方法，实现这一点的方式有很多。

例如，推理模型在产生最终答案的过程中会被鼓励去解释自己的推理步骤。思维链（CoT）可解释性利用这些解释来监控模型行为。这种方式直接有用：当前推理模型的思维链能够提供与欺骗等令人担忧的行为相关的线索。然而，完全依赖这种特性是一种脆弱的策略，可能会随着时间的推移失效。

另一方面，本研究关注的机械可解释性试图完全逆向工程模型的计算过程。到目前为止，机械可解释性的直接效用较低，但原则上，它可以对模型行为提供更加完整的解释。通过尝试在最细粒度层面解释模型行为，机械可解释性可以减少假设，让我们拥有更多信心。但是，从低层次细节推导复杂行为的解释，是一条更长且更困难的道路。

可解释性支持多个关键目标，例如实现更好的监督、为不安全或策略不一致行为提供早期预警。可解释性也与其他安全方法相互补充，比如可扩展监督、对抗式训练和红队测试。

在这项研究中，OpenAI 展示了：有时我们能够以某些方式训练模型，使其更容易解释。这项工作是对稠密网络事后分析的一种有前景的补充。

这是一个雄心勃勃的探索方向；从本研究走向完全理解最强大模型的复杂行为仍有漫长的路要走。然而，对于简单行为，OpenAI 发现使用其方法训练的稀疏模型包含小型、解耦的电路，这些电路既可理解又足以执行对应行为。这表明：或许存在一条可行路径，可以训练更大的系统，并理解其内部机制。

一种新方法：学习稀疏模型

之前的机械可解释性研究往往从稠密、纠缠的网络入手，并试图解开它们。在这些网络中，每个神经元都与下一层的数千个神经元相连。大多数神经元很可能承担多种不同功能，使得模型几乎无法理解。

但如果从一开始就训练未纠缠的神经网络呢？这些网络拥有更多神经元，但每个神经元只与其他几十个神经元相连。或许这样产生的网络会更简单，也更容易理解。这正是本项研究的核心假设。

基于这一原则，OpenAI 训练了与 GPT-2 等现有语言模型结构非常相似的模型，只做了一个小修改：强制模型的大部分权重为零。这限制了模型只能使用极少数可能的神经元连接。这是一个简单的改变，但 OpenAI 认为，它能够显著解开模型内部的计算结构。

如下图所示，在普通稠密神经网络中，每个神经元都会连接到下一层的所有神经元。而在本文的稀疏模型中，每个神经元只连接到下一层的少数神经元。OpenAI 希望这会让神经元以及整个网络更容易理解。

评估可解释性

OpenAI 希望衡量稀疏模型的计算在多大程度上实现了解耦。他们考虑了一些简单的模型行为，并检查是否能隔离负责特定行为的模型部分 —— 称之为「电路」（circuit）。

具体地，OpenAI 人为策划了一套简单的算法任务。针对每项任务，他们将模型剪枝到执行该任务所需的最小电路，并检查该电路的简单性。结果发现，通过训练更大且更稀疏的模型，能够得到更强大且电路更简单的模型。

OpenAI 将不同模型的可解释性与能力绘制成图（如下所示）。对于固定大小的稀疏模型，提高稀疏度（设更多权重为零）会降低能力，但提升可解释性。而扩大模型规模则会扩展能力与可解释性之间的最优前沿，这表明有可能构建更强大且更可解释的更大模型。

为使其更具体，OpenAI 考虑了一个任务：模型在补全 Python 代码时必须选择正确的引号类型。

在 Python 中，‘hello’ 必须以单引号结尾，“hello” 必须以双引号结尾。模型可以通过记住字符串的起始引号类型，并在结尾复现它来完成任务。OpenAI 表示，其最可解释的模型似乎包含解耦的电路，恰好实现了这一算法。

下图展示了一个稀疏 Transformer 中的示例电路，用于预测字符串应该以单引号还是双引号结尾。该电路只使用了五个残差通道（垂直灰线）、第 0 层中的两个 MLP 神经元，以及第 10 层的一个注意力查询 - 键通道和一个值通道。模型：(1) 使用不同通道分别编码单引号和双引号；(2) 使用 MLP 层将其转换为能检测任意引号的通道，以及能区分单引号与双引号的通道；(3) 使用注意力操作忽略中间的 token，找到前一个引号，并将其类型复制到最终 token；(4) 预测匹配的结束引号。

在 OpenAI 的定义中，上述连接足以完成任务。如果移除模型的其他部分，这个小电路仍然有效。这些连接也是必要的，删除这几条边会导致模型无法完成任务。

OpenAI 还研究了一些更复杂的行为，例如下面展示的变量绑定行为，其电路更难完全解释。即便如此，OpenAI 仍能得到相对简单的部分解释，而且这些解释能够预测模型行为。下图为该电路的示例。

为了确定变量 current 的类型，一个注意力操作会在该变量被定义时将其名称复制到 set () token 上，而另一个后续的注意力操作则会将类型从 set () token 复制到变量后续的使用位置，使模型推断出正确的下一个 token。

未来走向

本项工作是迈向更易理解模型计算的第一步，未来仍有很长的路要走。本文的稀疏模型远小于前沿模型，而且它们的大部分计算仍未被解释。接下来，OpenAI 希望将这些技术扩展到更大的模型，并解释模型更多的行为。通过列举可解释的稀疏模型中更复杂推理的电路结构，或许能建立某种理解，从而更好地引导前沿模型的研究。

为了克服训练稀疏模型效率低的问题，OpenAI 看到两条前进道路：一是从现有的稠密模型中提取稀疏电路，而不是从零开始训练稀疏模型。稠密模型在部署方面本质上更高效。二是开发更高效的可解释性导向训练技术，可能更容易投入实际使用。

需要注意的是，OpenAI 的发现并不能保证这种方法能扩展到更强大的系统，但这些早期结果令人鼓舞。他们的目标是逐步扩大可以可靠解释的模型范围，并构建工具，使未来的系统更易于分析、调试和评估。

更多详细内容，可以参阅原论文：

论文地址：https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/OpenAI/status/1989036214549414223

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

https://x.com/rohanpaul_ai/status/1989074606775570839

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.