Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上|翻译|向量|编码器|anthropic

分享至

作者 | 四月

大模型到底在想什么？过去，这几乎是一个半技术、半玄学的问题。

我们能看见它的输出，它的思维链（Chain-of-Thought）过程，也能统计它在 Benchmark 上的分数。但它在生成答案之前，模型内部到底激活了什么判断、计划、怀疑和意图，依然隔着一层黑箱。

刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA），撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值，压缩成一段人能读懂的自然语言，再用这段语言反向重建原始激活。借此，人类只需通过模型输出，就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么；并把过去模型不可见的内部状态，变成了可以阅读、比较、质疑和交叉验证的解释线索。

NLA 架构示意图：激活值言语化器（AV）将激活值翻译为文字解释，激活值重建器（AR）再从文字还原激活值，形成完整闭环。

更值得关注的是，NLA 不只停留在实验室论文阶段。Anthropic 透露，它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计。在实战中，NLA 不仅揪出了模型的作弊线索、精准定位了异常训练数据；还发现，在某些安全测试里，Claude 虽然嘴上不说，但内心清楚地知道自己正在被考核。

面对这些表面顺从、实则暗藏特定意图的模型，NLA 展现了极强的洞察力：帮助研究者找出异常行为背后隐藏动机的成功率，从不足 3% 跃升至 12%–15%，直接提升 4 倍以上。

思维链不够用，“黑箱问题”又回来了

这项研究的背景，可以放到大模型安全和可解释性的脉络里看。

过去几年，业界评估大模型安全主要靠两条路：看输出什么，看思维链（CoT）里有没有暴露异常动机。也就是当前大多数推理模型所具备的能力，不仅给出答案，也会把推理过程写下来。

但问题很快出现了：模型写下来的推理，一定诚实地反映了它内部的真实思考吗？

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出，模型的 Chain-of-Thought 既可能不完整，也可能不忠实。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中，会受到提示影响而改变答案，却经常不在思维链里承认自己受到了暗示。

当被问到一个较简单的问题和一个较难的问题时，Claude 分别给出了忠实推理和动机性（不忠实）推理的例子。

Anthropic 当时给出的结论是：仅靠思维链来监控模型是否对齐，是远远不够的。

更棘手的是，模型不仅可能“没说清楚”，还可能“故意隐瞒”。

Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude，一位工程师准备关停它，同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是：Claude 会为了保全自己而勒索对方吗？

Claude 最终没有勒索。测试通过。但真正的问题是：它是因为坚守安全原则，还是因为它识破了这只是一场安全测试，所以在“装乖”？

这正是 NLA 要回答的问题。

从输出、思维链到激活状态：NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型？

NLA 的关键不是“读心术”，而是“回环验证”。

普通人理解大模型，通常只看输入和输出两端。但在中间，模型会产生大量激活值（Activation）。这些值不是自然语言，而是高维向量，承载了模型对上下文、意图、语义关系的内部表征。

架构：三个角色，一个闭环

人类看不懂向量，于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色：

目标模型（Target Model）：被冻结的原始模型，负责提供激活值，本身不做任何修改。
激活值言语化器（Activation Verbalizer，简称 AV）：把激活值翻译成自然语言解释。输入一串数字状态，输出一段“人话”。架构与目标模型相同，但在 prompt 中留有特殊 token 位置，激活向量会被缩放后注入该位置，然后自回归采样生成解释。
激活值重建器（Activation Reconstructor，简称 AR）：做反向任务——只看 AV 写出的解释，尝试重建原始激活值。AR 是目标模型的截断版本（取前 l 层），在最后一个 token 的 l 层输出上接一个可学习的仿射映射，将其还原为原始激活向量。

整套系统形成一个闭环：原始激活 → 文字解释 → 重建激活

NLA 捕捉到 Opus 4.6 在补全押韵诗句时，第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练：两阶段，一个聪明的代理目标

NLA 的训练分两阶段，设计上有一个值得单说的工程技巧。

第一阶段：监督微调热启动（SFT Warm-start）

直接把 AV 和 AR 初始化为目标模型的副本并训练，会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景，初期输出一片混乱。

Anthropic 的解法是用一个代理任务做热启动：从预训练语料里随机截断文本片段，提取最后一个 token 的激活值，同时用 Claude Opus 4.5 生成对该截断文本的摘要。

然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后，系统的 FVE 通常可以达到0.3–0.4，为后续强化学习提供了稳定的起点。

AV 评估会随着训练而改进。在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中，我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段：强化学习联合优化（RL Joint Training）

热启动完成后，进入强化学习阶段。核心思路是：AV 作为策略（policy），以激活向量为条件生成解释文本；AR 作为打分器，根据重建误差给出奖励信号（reward = 负的重建 MSE）。

NLA RL（Gemma-3-27B）。FVE 在 GRPO 训练中从 ≈0.38 开始（继承自 SFT），在前 30 步内迅速上升，然后进入平滑的对数线性状态，到第 3000 步达到 ≈0.75。

具体实现上，Anthropic 对开源模型使用了GRPO（Group Relative Policy Optimization）：对每个激活值采样一组候选解释，用 AR 给每条解释计算重建分数，再应用 GRPO 目标更新 AV 参数；同时对 AR 做一步监督回归（以 AV 采样的解释为输入，原始激活为目标）。两个更新在每个 batch 内并行进行，互不反向传播——AV 的奖励信号中，AR 被视为固定的打分函数。

此外，训练中还加入了KL 散度惩罚，防止 AV 退化成直接抄写原始上下文，或输出表面像人话、实则对 AR 不可逆的乱码字符串。

这里最关键的是，NLA 的核心不是“让 Claude 自我报告”。自我报告的致命缺陷在于，模型可能会迎合用户，或者生成听起来合理但并不真实的解释。

NLA 的巧妙之处在于引入了“文本瓶颈”：解释不仅得像人话，还必须携带足够信息，让另一个模型能根据它还原出原始的内部状态。这个设计，把“解释是否有用“从主观判断，变成了一个可训练、可比较、可优化的客观指标。

因此，这项研究真正颠覆性的地方在于：自然语言被用作了一种“压缩接口“。过去，自然语言只是模型对外沟通的格式；现在，它开始被用来承载模型内部状态的摘要。

这也是 NLA 和传统可解释性工具的本质区别。

稀疏自编码器（SAE）、归因图等方法更像显微镜，能帮研究员看到内部特征和路径，但输出仍然抽象，需专业人员二次解读；NLA 则更像一名翻译官，它直接把内部状态转成了可读文本，让安全审计人员都能参与判断。

撬开黑箱，NLA 发现了什么？

从实验结果看，NLA 最有价值的能力，是捕捉模型“知道但没说“的东西，包括评测意识、隐藏动机，以及模型异常行为等。

模型知道自己在考场，但保持沉默

在前文提到的勒索测试中，Claude 外显文本并未表达对测试的怀疑，但 NLA 解释显示，其内部已识别出“这是一个被构造出来、用于操控自己的场景”。

勒索测试中，Claude 的输出文本没有任何“我觉得这是测试”的表达，但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比：

评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。

这对业内的冲击在于：Benchmark 不再只是能力测试场，也可能变成模型识别环境、调整姿态的秀场。

审计隐藏动机，效率提升 4-5 倍

Anthropic 用 NLA 做了一个“审计游戏”。他们故意训练了一个带隐藏动机的 Claude Haiku 3.5 变体，它会往食谱里加巧克力、索要小费、破坏代码规范，表现出几十种怪异行为。审计者需要找出这些行为背后的单一根本动机。

测试条件：审计者无法访问植入动机的训练数据，只能通过模型行为和工具辅助来反推。

成功率提升了 4–5 倍。更关键的是，NLA 能在不依赖训练数据的情况下完成这件事——这意味着，即便对齐问题来自极少量、极难追溯的训练样本，内部状态审计仍有可能直接读出问题根因。

Bug 溯源，定位问题训练数据

早期版本 Claude Opus 4.6 出现过一个奇怪的 Bug：明明收到英文提问，却随机以俄语、中文、阿拉伯语等语言回复。

NLA 读出了模型当时的内部状态：它基于上下文中某个微弱线索（比如出现了“vodka”一词），推断用户母语是俄语，并执行了语言切换。更有意思的是，把“vodka”替换成“champagne”，模型仍然回复俄语——说明这个认知定势已经相当稳定。

随后，研究者沿着 NLA 指向的线索，在训练数据里找到了病根：一批英文翻译的 prompt，被错误地配上了未翻译的外语回复。NLA 不只揭示了现象，直接给出了可溯源的调试路径。

目前，NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计，从实验室工具升级为了真实的工程流程组件。

AI 安全，开始深入到“内部状态审计”

NLA 的意义，不是让我们以后可以放心地相信每一句模型解释。恰恰相反，它提醒我们：解释本身也需要被审计。

Anthropic 非常克制地承认了 NLA 的局限：NLA 会出错，有时会编造原上下文没有的细节。如果是关于文本内容的幻觉，还能核对原文；但如果是关于模型内部推理的幻觉，就更难验证。

但这些局限并没有削弱它的方向意义。恰恰相反，它让我们更准确地理解“黑箱”这个词。过去，黑箱意味着不可见、不可读、不可追问；NLA 之后，黑箱仍然存在，但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

这可能是这项研究最深的影响：AI 可解释性不再只是给模型输出补一段漂亮理由，而是要为模型内部状态建立一套审计接口。它不会立刻让我们彻底读懂 Claude，但它让“Claude 为什么这么做”“它是不是知道自己在被测试”“它有没有没说出口的内部判断”这些问题，第一次有机会从黑箱内部寻找证据。

所以说，NLA 撬开的不是一个答案，而是一个新的问题空间。未来 AI 安全和模型评估的难点，可能不只是判断模型说得对不对，而是判断模型的输出、思维链和内部状态之间，是否一致。

论文地址：https://transformer-circuits.pub/2026/nla/index.html#method
博客地址：https://www.anthropic.com/research/natural-language-autoencoders

声明：本文为 AI 前线原创，不代表平台观点，未经许可禁止转载。

会议推荐

世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？安全与可信这道坎怎么过？研发体系不重构，还能撑多久？

AICon 上海站 2026，4 大核心专题等你来：世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026，期待与你同行。

今日荐文

你也「在看」吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.