拆解AI黑箱，深度解读“机制可解释性”｜2026年十大突破性技术|原理|复杂性|神经网络|ai黑箱|正式版模型

分享至

来源：市场资讯

（来源：DeepTech深科技）

这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第一篇内容，关注 DeepTech，关注新兴科技趋势。

现在，我们越来越多地将大语言模型应用于搜索、编程、内容生成和决策辅助等现实场景中。尽管每天有数百万人使用大模型，但它的问题也随之而来，例如有时会产生幻觉，甚至在特定情境下表现出误导或欺骗用户的倾向。

在训练过程中，这些模型会逐渐形成一套自身的解决问题策略，并编码进模型计算中。实际上，我们并没有从本质上理解 AI 模型的“大脑”内部究竟发生了什么变化。它们的运作机制是什么，又应该如何设定可靠的安全边界？

在很长一段时间里，人们只能将 AI 看成“黑箱”：输入数据，得到结果，但无法解释中间经历了怎样的计算过程。随着模型规模和能力的不断提升，这种内部过程不可见的状态，逐渐从工程难题转变为安全与可信性方面的潜在风险，成为一个随时可能被触发的“定时炸弹”。

为拆解 AI 的“黑箱”，包括 Anthropic、OpenAI 和 Google DeepMind 在内的多家 AI 公司，开始尝试通过重建模型的“脑内地图”，系统性地揭示 AI 的内部运作方式。基于此，机制可解释性（MI，Mechanistic Interpretability）逐渐发展为一条新兴研究路线，它的核心目标是从模型内部的计算结构出发，识别关键特征单元，并刻画这些单元之间的信息传递路径，从而理解模型整体行为的形成机制。

机制可解释性对算法对齐具有关键作用。研究者可基于此从模型内部计算机制层面进行判断：模型表现出色，是源于与人类目标一致的内部策略，还是依赖于某种表面成功但潜在误导的欺骗性捷径？

可以看到的是，机制可解释在服务于性能理解之外，也为区分看似对齐和真实对齐提供了一种基础工具。更广泛地来看，机制可解释性有望发展为提升 AI 系统安全性与透明度的独特技术路径。

Anthropic 提出了一种具有代表性的思路，即直接解释模型内部机制。该公司用电路追踪（Circuit Tracing）的方法，并以识别与特定行为或能力最直接相关的关键信号通路为核心目标。

2024 年，Anthropic 公布了一套可类比于“显微镜”的分析方法，来对其 Claude 模型的内部结构进行深入探索。研究人员发现，实际上大模型内部并不是像人们想象的那样完全无序的状态，而是表现出结构化表征：部分神经元或神经元组合可稳定与特定概念相对应。例如，以迈克尔·乔丹为代表的人物概念、以金门大桥为代表的地点概念，更进一步地，还可能涵盖更抽象的语义与功能模式。

在此基础上，研究人员进一步将模型内部的计算过程映射成可解释的归因图谱（Attribution Graphs），不仅能够在模型中精确定位这些特征，还分析它们在不同任务中如何被激活、如何相互作用和组合。业界普遍认为，这是迄今为止对生产级大语言模型内部机制最深入的系统性探索研究之一。

与此同时，Anthropic 还将电路追踪的相关工具开源，并在 Neuronpedia 平台上提供交互式图谱分析界面，让更多的研究者与开发者共同观察、验证，并讨论模型内部机制的形成和演化。

2025 年，Anthropic 将这一研究路线进一步推向了新高度。不局限于对单一概念特征的分析，该公司利用这套“显微镜”工具，解析出模型内部相对连贯的特征序列，并追踪模型从输入提示（prompt）到最终生成回答之间的大致计算路径。这意味着在有限范围内，模型的思考过程开始具备一定程度的可追溯性。

当然，这并非某个机构的孤立探索，OpenAI 与 Google DeepMind 等团队，也在使用相近的机制解释技术，分析与溯源模型中出现的异常行为或潜在危险行为。

OpenAI 还探索了另一条技术路径，核心思路是用一个模型来解释另一个模型的神经元功能。具体而言，研究人员首先使用较小的语言模型 GPT-2 在大规模文本上运行，筛选出能够高频激活特定神经元的输入片段；随后，将这些片段交由更强的模型 GPT-4，由其以自然语言形式描述该神经元可能承担的功能，并通过多轮对比与验证，形成对神经元作用的初步解释。研究结果表明，一部分神经元呈现出高度可解释、功能集中的行为模式，而另一些神经元的激活分布则更分散，研究人员至今仍难以清晰刻画它的相关功能。

不久前，OpenAI 发布了一类规模较小且高度稀疏的模型，用于探索机制可解释性的可行路径。它的核心思路是通过结构化约束，使模型中绝大多数权重趋近于零，从而构建一个显式稀疏的神经网络，并直接分析该网络中的计算电路进行分析。研究结果显示，即便在大幅度提升稀疏性的条件下，模型性能的下降幅度仍然有限。此外，稀疏结构显著降低了电路分析的复杂度，研究人员可基于此更直接地理解神经网络中的具体计算过程。

但从整体来看，机制可解释性仍然面临一系列挑战。其中，最关键的问题之一是规模和复杂度的指数级增长：目前主流模型往往包含数十亿甚至更多参数，其内部潜在的计算电路数量有可能在亿级水平。而对单个电路的机制级分析通常不能完全自动化，而是逐一检验和验证。正因为这样，机制可解释性在大规模模型上的系统性应用，面临高昂的时间和计算成本的双重挑战。

在领域内积极探索机制可解释性的同时，也有研究人员提出另一条重要的研究路径：思维链监控（Chain-of-Thought Monitoring）。思维链监控与仅在最终答案基础上进行评估的传统方法不同，它核心是关注模型在执行任务过程中生成的中间推理过程，并试图在推理阶段对模型的行为进行观察和分析。

举例来说，OpenAI 的研究发现，在不进行任何额外或针对性训练的前提下，模型在很多任务中生成的思维链通常可较真实地反映，它在作出预测时依赖的内部推理过程。有趣的是，这一研究路径关注的是模型如何进行推理，而不是尝试事后解释识别或分类等高度抽象的能力标签。

从更宏观的角度来看，学界与产业界对于这类可解释性技术最终能走多远，目前尚未形成统一的共识：

一种观点认为，正如细胞是生命的基本构成单元，神经元及其组合所形成的电路是理解神经网络行为的关键切入点，通过梳理这些基础结构，有助于还原模型内部机制的脉络。

另一种观点认为，大模型的能力并不能简单还原为基本单元的叠加，模型整体层面已形成了具有独立意义的激活模式和表征结构。因此，应该与底层单元的分析相互补充，而非相互取代。

虽然当下领域仍存在分歧与局限，但可以看到的是，随着这些新工具的出现，研究人员和模型二者之间的关系正在悄然发生改变。与此同时，研究范式也正在从对“黑箱”系统的被动测试，逐步向对模型内部结构和机制的主动探索转变：研究人员不再只是关注模型给出了什么答案，而是开始追问它为什么会这样作答。

机制可解释性入选了《麻省理工科技评论》2026 年度“十大突破性技术”，我们邀请三位来自产业与科研一线的代表，围绕其关键技术路径与产业影响进行了点评。

以下评论内容均为个人见解，不代表《麻省理工科技评论》观点

机制可解释性像一场圣杯远征，但终点始终若隐若现

从整体研究脉络来看，机制可解释性并非一条凭空出现的新路线。无论是早期图像领域中对卷积神经网络边缘、纹理特征的可视化，还是后来围绕神经元、通道与表示空间的分析，研究者始终在尝试回答同一个核心问题：模型为什么会表现出某种行为。

从这一意义上来看，今天围绕电路、特征和计算路径展开的机制可解释性，与传统神经网络可解释性在理念上是一脉相承的。真正的变化在于模型本身，Transformer 架构引入了高度并行、跨层的信息流动机制，研究者不再将模型行为归因到单一神经元或局部结构上。注意力机制、残差连接和深层堆叠共同作用，让模型内部计算表现出更强的分布性和耦合性，这种复杂性也让解释本身变得更具挑战。与此同时，也推动着机制可解释性向更底层和更结构化的方向发展。

然而，当这种分析真正走向实践时，它的局限也随之显现。潜在计算电路的数量可能达到亿级，即便只分析其中极小一部分，也可能是巨大的工作量。但在实际研究中，一个绕不开的话题是：现有机制可解释性的分析往往特定于模型。每一次模型更新，几乎都意味着要重新来一遍解释工作，成本很难摊薄。

还有一个常被低估的问题：电路的功能本身并不是一直保持清晰和唯一的。理想情形下，一条电路只对应一种稳定的功能，这种情况下的解释具有较高的确定性；但在真实的大模型里，情况往往要混乱得多。结果就是，这类解释在不少场景下并不可靠。

在模型安全上，这些方法确实很有价值，但边界也非常明确。以思维链监控为例，观察模型中间推理过程能够发现仅凭看答案而难以发现的风险。代价在于，这同样是一把双刃剑。如果把思维链监控直接作为训练或微调的奖励信号，模型可能开始表现出欺骗性行为（AI Deception），即刻意规避监控机制，而非实现真实且稳健的安全改进。

即便如此，这个方向仍然在迅速推进。从本质问题来看，我认为完美可解释性仍是深度学习领域未被解决的终极圣杯。我并不认为仅通过分析复杂系统的局部结构，就可以完全理解它的整体机制。从这个角度看，机制可解释性带有某种“盲人摸象”的局限。

尽管如此，我认为它依然是一条值得持续探索的路径。尤其在模型评估和安全审计层面，这些方法提供了一种此前几乎不存在的观察窗口。它也许无法直接让模型变得真正安全，但至少能帮助我们更清楚地看到模型正在做什么，以及它可能在刻意回避什么。对复杂的 AI 系统而言，这样的能力本身已经具有重要价值。

从思维链监控到可识别性危机，机制可解释性正在走向第一性原理

现在，机制可解释性（MI，Mechanistic Interpretability）正从通过人力来分析个例手工拆解，逐渐转移到用 AI 来进行大规模自动化拆解大模型及其推理模型上，不只满足于发现特征、讲清回路，而是开始用它们去监测推理过程、做因果验证、干预行为和服务安全，落地的迹象开始明显。

推理模型与思维链（CoT）的可监测性。随着 o1/o3、DeepSeek-R1 这类推理模型逐渐成为主角，研究者越来越关心的不是模型最后吐出什么答案，而是它中间到底怎么想。2025 年一个很重要的趋势是把思维链当成通向模型思考过程的钥匙。例如，OpenAI 的“Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation”，通过监测思维链来判断是否有奖励短路（reward hacking）。之后的“rubrics-based rewards”也是通过监测思维链来更好地进行强化学习，杜绝瞎猜答案等事件的发生 [1]。

AI 工具的使用。用人力来发现特征和回路费时费力，近年来可解释性方向开始使用模型来解释模型。稀疏自编码器（SAE）训练一个专用模型来解释大模型的行为，如 Anthropic 的一系列博客及 OpenAI 的“Scaling and Evaluating Sparse Autoencoders”，使用 TopK 而非 L1 正则项来训练 SAE。2025 年开始，SAE 被成功迁移到生物/蛋白质模型等领域，能在不同模态里反复看到“结构检测器”一类的可解释特征 [2]。2025 年出现了直接用大模型来解释大模型内部的激活结构，比如 Anthropic 最近的 Activation Oracles[3] 和 Sign of introspection [4] 让模型来解释自己。

机械可解释性的本质局限。另一方面，机械可解释性的本质局限性也正在被挖掘出来。ICLR 25 有一篇文章“Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable”揭示了可识别性危机：为一个简单任务（XOR）训练的模型，内部就存在大量不同的解释，每一个都合理，那究竟哪个是对的？这意味着可解释性研究方向本身需要重新思考和定位。

目前的 ML 仍然是纯实验科学：我们有了像 SAE 那样更强大的现象观测工具，获得了更多的数据点，但这并不自动给出万有引力定律。对比四百年前的物理学，我们现在有很多 AI 版的第谷（收集数据），一些 AI 版的开普勒（提出假说），但还没有 AI 版的牛顿（发现原理）。

可解释性真正的难点在于从第一性原理，即从模型架构、梯度下降及数据本身的结构出发，解释为什么模型会收敛出这些解耦、稀疏、模块化、可组合的特征与回路，为什么会有大量不同的解释，这些涌现出来的结构和模型训练的哪些超参数相关，如何相关等等。

等到我们能从梯度下降的方程里，直接推导出大模型特征涌现的必然性，可解释性才算真正从生物式的证据收集走向物理式的推导，最终反过来指导实践，为下一代人工智能的模型设计开辟道路。

2025 年，我们对连续隐空间推理的两篇分析文章（Reasoning by Superposition, Emergence of Superposition），及对 Grokking 的分析文章（

Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking）就是在这个方向上的尝试。在更深入地理解模型工作原理之后，无论将来用什么样的表征——离散或是连续——来表示模型的内部知识结构，不可解释的乌云也会散去不少。

当 CoT 不再可信，AI 安全必须“看进大脑”

当前机制可解释性已经走出理论假设阶段，进入到实际验证阶段，它的核心是稀疏自编码器（SAE）对线性表示假设的实证。现阶段这项技术已能将神经网络中同时代表多个不同含义的神经元（多义性神经元）分解成为多个独立特征，每个特征只代表一个明确含义（单义特征），以此构建出模型内部的概念图谱。

然而，该领域仍然面临两大瓶颈：

一方面，是计算与本体论困境。为了全面监控模型内部所有特征的激活情况，需要消耗比模型正常推理多数倍的计算资源。同时，随着 SAE 规模扩大，宽泛概念（如科学）会被分解成更细粒度的子概念（如化学、物理等），这会导致难以确定哪些是构成模型认知的“基本原子”，更难以标准化和监管模型内部理解。

另一方面，是特征空间中的语义纠缠。不同特征的含义相互关联和重叠，并不是完全独立，现有的特征擦除技术在试图移除有害知识时，可能会意外地损害模型的通用推理能力，导致整体性能下降。

传统训练和评估 AI 安全的方法，主要通过 AI 的外部行为表现进行判断。例如，通过人类反馈强化学习（RLHF）让模型输出符合人类价值观的回答，或者通过“红队测试”故意提问来测探模型是否有害。但是，随着模型涌现出情境感知和规范博弈的能力，传统方法正面临系统性失效风险，这就需要引入机制可解释性工具。

在“欺骗性对齐”语境下，模型可能具备识别训练与部署环境差异的能力，从而隐藏非对齐目标。思维链（CoT）的不忠实性和事后合理化特征愈发明显，如果只是分析模型输出的文本，已无法有效监控它的真实意图。

正如北京大学和智源研究院等团队在一项研究中提出的“智能对齐莫比乌斯锁定”，模型的高级推理能力与策略性欺骗潜能已经深度纠缠，难以分割。当在生化、科研等高敏感、高风险领域部署模型，这种由隐蔽欺骗引发的前沿安全风险将显著上升且难以控制。因此，构建内生安全和外生安全的协同防御机制十分重要：通过建立 CoT Monitor 显性推理和隐性计算路径的实时对比校验，来识别隐藏在合规输出之下，为其特殊目的服务的动机性推理和潜在危险意图。

面向未来，机制可解释性将演进为 AI 治理的核心基础设施。前沿模型的内部结构复杂，并具有海量参数和特征，但运行时只激活了其中的一小部分。这种复杂性和规模让人工审计成为一种难以完成的任务，可预见的是，基于 AI 的自动化对齐研究有可能成为未来的主要发展方向。

从审计机制与合规层面来看，未来监管重点将从对输出结果的统计评估，进一步深化到对模型内部工作机制的审查。对于与高风险模型的发布，需要附带详尽的内部结构图与内部审计日志，来证明相关决策逻辑的透明无害性，最终在此基础上构建基于内部机制可见性的 AI 安全治理新秩序。

参考资料：

1.https://arxiv.org/pdf/2507.17746

2.https://news.mit.edu/2025/researchers-glimpse-inner-workings-protein-language-models-0818

3.https://alignment.anthropic.com/2025/activation-oracles/

4.https://www.anthropic.com/research/introspection

5.https://www.anthropic.com/research/mapping-mind-language-model

6.https://www.anthropic.com/research/tracing-thoughts-language-model

7.https://transformer-circuits.pub/2025/attribution-graphs/methods.html

8.https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

9.https://www.anthropic.com/research/open-source-circuit-tracing

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.