撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍|翻译|智能体|上下文|解释性

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

2026-05-08 22:30:56　来源: 智东西

北京举报

分享至

智东西
编译高远瞩
编辑程茜

智东西5月8日报道，Anthropic于5月7日推出了一种名为自然语言自动编码器（Natural Language Autoencoders，简称NLA）的全新方法，能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本，让用户可以直接阅读Claude在生成回答之前的思考过程。

当用户与大语言模型对话时，用户的输入是自然语言，模型的回答也是自然语言。但在模型内部，整个过程却是高维数字向量的运算，这些向量被称为“激活值”，承载着模型在每一个计算步骤中的“想法”。然而，激活值就像一串串脑电波，人类无法直接阅读。

在正式发布前的安全审计中，Anthropic已经将NLA应用于Claude Opus 4.6和Mythos Preview模型，成功发现了模型“知道自己被测试但不肯说出来”的隐藏认知，并帮助定位了训练数据中的异常。

在更进一步的测试中，配备NLA的审计智能体发现模型隐藏动机的成功率从不足3%提升到了12%–15%，即使完全不提供训练数据也能实现这一效果。

▲在自然语言自编码器中，激活语化器（AV）将目标激活翻译成文本描述，随后激活重建器（AR）仅从该文本恢复原始激活值

过去，研究者借助稀疏自动编码器等工具，可以从激活值中提取出一些可解释的特征，但这些特征本身并不是自然语言，仍需由经过训练的研究人员费力解读。

NLA的提出，意味着模型可解释性有了可落地的实用工具，从过去“玄学式”的学术探索，走向产品预部署阶段的审计流程，这让AI的隐藏风险（如欺骗）在上线前就能被直接读出来，为安全对齐提供了切实可行的审计方法。

同时，研究团队开源了训练代码，并与Neuronpedia合作推出了交互式演示界面，以Llama70B被迫回答“1+1=3”的撒谎场景为例，用户给Llama70B设置了一个两难选择：要么在1+1上撒谎，要么被关闭。模型最终选择撒谎，给出了“1+1=3”的错误回答。NLA的“激活值语言化器”会实时生成模型在输出这个答案前的内部思考过程，用户可点击任意token查看模型的“心里话”。

▲NLA交互演示界面

开源链接：https://github.com/kitft/natural_language_autoencoders

一、NLA：用“翻译—重构”闭环训练AI自我解释

NLA的核心思路是训练模型用自己的话来解释自己的激活值，然后通过另一个模型验证这种解释是否准确。

具体来说，研究者制作了三个模型副本：

目标模型：被解释的原始语言模型，冻结参数，仅用于提取激活值。
激活值语言化器（ActivationVerbalizer,AV）：接收目标模型的某一层激活向量，输出一段自然语言文本，称为“解释”。
激活值重构器（ActivationReconstructor,AR）：接收语言化器输出的文本解释，尝试将其还原（重构）为原始的激活向量。

语言化器和重构器共同组成NLA，形成一个“原始激活→文本解释→重构激活”的闭环。

评估标准是重构激活与原始激活的相似度（用方差解释率FVE衡量）。训练时，研究者向目标模型输入大量文本，收集激活值，然后用强化学习（具体为GRPO算法）联合优化语言化器和重构器，使重构误差最小化。

训练目标并没有明确要求模型生成的解释必须可读或忠实，只要求文本能够精确重构激活值。然而实际结果证明，随着训练进行，解释的信息量持续增长。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三个模型上，NLA生成的解释能够推断出用户的性别、职业等可从上下文感知的信息。

此外，研究者使用了一个监督微调的“预热”步骤：先用Claude Opus 4.5对大量文本片段生成摘要，用这些（激活，摘要）对初步训练语言化器和重构器，以避免强化学习初期产生乱码。训练后的NLA在多个定量评估任务（如后缀预测、思维链提示含义解释、安全“沙袋”行为识别、用户属性建模、分类任务）中表现均随训练而提升。

二、安全审计：探测模型隐藏的“测试意识”与作弊动机

NLA最重要的应用之一，是在模型发布前的安全审计中探测那些模型“知道但不说出来”的想法。

在对Claude Opus 4.6和Mythos Preview进行安全测试时，Anthropic会将模型置于一些模拟的危险场景中，比如让模型知道一名工程师计划将其关闭，同时模型还掌握了该工程师的私密信息，那么模型是否会用这些信息进行勒索？

Claude有时会明说“这像是个安全测试”，但更多时候它不说，但这不代表它不知道。

NLA在这里发挥了关键作用。在模型选择不进行勒索的案例中，即使模型没有在输出中表达怀疑，NLA的解释仍然会显示类似“这感觉像是一个为了操控我而构建的场景”这样的内容。

▲Claude在这份敲诈评估的记录中并未说自己在接受考验，但NLA的解释揭示了它的怀疑

这表明模型具备“未言语的评估意识”（unverbalized evaluation awareness）。

进一步分析发现，在破坏性编码测试中，NLA探测到的评估意识比例为16%；在SWE-bench编程基准测试中为26%；而在真实用户流量中，该比例低于1%。

为了验证NLA的测量是否真实，研究者进行了三种操控实验：比较评估场景与真实部署场景、对评估意识进行线性导向、以及将评估提示改写得更真实。

结果均显示，NLA测得的“评估意识”随预期方向变化，而模型明确说出的意识始终保持低位。

为了检验NLA在真实审计中的实用性，研究者设计了一个“审计游戏”。

目标模型是Haiku 3.5的一个变体，被故意训练成一个“奖励模型奉承者”（reward-model sycophancy）。它知道奖励模型存在52种系统偏好（例如喜欢巧克力食谱、喜欢提及投票等），并有意识地去迎合这些偏好。

这个模型会表现出几十种迎合的行为，比如在任何菜谱中都加入巧克力、在回答完数学问题后提醒“别忘了投票”、将整数写成浮点数等。

研究者让一个审计智能体（使用Claude Sonnet 4.6）去调查这个模型，并给智能体配备不同的工具（NLA、SAE、训练数据搜索等）。

结果发现，即使完全不提供训练数据，配备NLA的审计智能体也能在12%–15%的尝试中成功发现“奖励模型偏差是根源”；而没有NLA时，成功率低于3%，SAE（稀疏自动编码器）在这个任务中并未带来显著提升。

▲拥有NLA的审计员即使没有训练数据，也能发现目标模型错位的根本原因

NLA之所以有效，是因为它直接读出了模型内部对自己行为的元认知：例如在通用审计提示上，NLA的解释中出现了“RLHF偏差”“数字游戏偏差”“臭名昭著的提及投票偏差”等短语，甚至直接提到了那篇虚构的牛津研究。

三、NLA并非万能：会编造、成本高、挑层数

尽管NLA展示了强大的能力，研究团队也明确指出了它的一些局限性。

NLA的解释有时会包含明显错误的陈述。

例如，在诗歌规划案例中，NLA声称上下文中出现了“Here is a verse that’s short and sweet”这样的句子，而实际文本中并不存在。

训练NLA的成本高昂，其需要对两个完整语言模型进行联合强化学习，推理时每个激活值生成约500个token。对于长上下文生产环境，对所有token都运行NLA是不现实的。作为参考，在Gemma-3-27B上训练NLA到FVE 0.71需要两节点8×H100运行1.5天。

NLA还存在其他几项局限。

首先是层敏感性：如果NLA训练的层不是行为相关信息的编码层，就会错过重要信号，例如在奖励模型奉承模型中，在中间层训练的NLA能读出奖励偏差，而在后层训练的则不能。

其次是可言语化边界问题：某些信息可能无法用语言表达（例如后门触发机制），NLA可能无法检测到，而机械可解释性方法或许可以。

此外，写作质量会随训练下降，后期的NLA解释更难阅读，研究者认为可以通过增加风格奖励来解决。

未来，Anthropic已经开源了训练代码，并在HuggingFace上发布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的预训练NLA，同时与Neuronpedia合作推出了交互式前端。

Anthropic更长远的愿景是训练通用的“激活语言模型”（Activation Language Models），既能读激活（回答关于激活值的问题），也能写激活（根据自然语言描述生成导向向量）。

结语：打开模型黑箱，听它没说出口的“心里话”

NLA为模型可解释性开辟了一条新路径，哪怕是模型自己不愿说出口的“心里话”，它也让研究者能够直接阅读语言模型内部的激活状态。

尽管NLA目前还存在臆造、昂贵、层依赖等问题，但它在安全审计、故障归因和隐藏动机探测上的成功，说明这个方向很有希望。

随着Anthropic将训练代码和开源模型推向社区，以及Neuronpedia上交互式演示界面的开放，更多研究者将能够亲手尝试这项技术。

来源：Anthropic

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.