![]()
智东西
编译 高远瞩
编辑 程茜
智东西5月8日报道,Anthropic于5月7日推出了一种名为自然语言自动编码器(Natural Language Autoencoders,简称NLA)的全新方法,能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本,让用户可以直接阅读Claude在生成回答之前的思考过程。
当用户与大语言模型对话时,用户的输入是自然语言,模型的回答也是自然语言。但在模型内部,整个过程却是高维数字向量的运算,这些向量被称为“激活值”,承载着模型在每一个计算步骤中的“想法”。然而,激活值就像一串串脑电波,人类无法直接阅读。
在正式发布前的安全审计中,Anthropic已经将NLA应用于Claude Opus 4.6和Mythos Preview模型,成功发现了模型“知道自己被测试但不肯说出来”的隐藏认知,并帮助定位了训练数据中的异常。
在更进一步的测试中,配备NLA的审计智能体发现模型隐藏动机的成功率从不足3%提升到了12%–15%,即使完全不提供训练数据也能实现这一效果。
![]()
▲在自然语言自编码器中,激活语化器(AV)将目标激活翻译成文本描述,随后激活重建器(AR)仅从该文本恢复原始激活值
过去,研究者借助稀疏自动编码器等工具,可以从激活值中提取出一些可解释的特征,但这些特征本身并不是自然语言,仍需由经过训练的研究人员费力解读。
NLA的提出,意味着模型可解释性有了可落地的实用工具,从过去“玄学式”的学术探索,走向产品预部署阶段的审计流程,这让AI的隐藏风险(如欺骗)在上线前就能被直接读出来,为安全对齐提供了切实可行的审计方法。
同时,研究团队开源了训练代码,并与Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒谎场景为例,用户给Llama70B设置了一个两难选择:要么在1+1上撒谎,要么被关闭。模型最终选择撒谎,给出了“1+1=3”的错误回答。NLA的“激活值语言化器”会实时生成模型在输出这个答案前的内部思考过程,用户可点击任意token查看模型的“心里话”。
![]()
▲NLA交互演示界面
开源链接:https://github.com/kitft/natural_language_autoencoders
一、NLA:用“翻译—重构”闭环训练AI自我解释
NLA的核心思路是训练模型用自己的话来解释自己的激活值,然后通过另一个模型验证这种解释是否准确。
具体来说,研究者制作了三个模型副本:
- 目标模型:被解释的原始语言模型,冻结参数,仅用于提取激活值。
- 激活值语言化器(ActivationVerbalizer,AV):接收目标模型的某一层激活向量,输出一段自然语言文本,称为“解释”。
- 激活值重构器(ActivationReconstructor,AR):接收语言化器输出的文本解释,尝试将其还原(重构)为原始的激活向量。
语言化器和重构器共同组成NLA,形成一个“原始激活→文本解释→重构激活”的闭环。
评估标准是重构激活与原始激活的相似度(用方差解释率FVE衡量)。训练时,研究者向目标模型输入大量文本,收集激活值,然后用强化学习(具体为GRPO算法)联合优化语言化器和重构器,使重构误差最小化。
训练目标并没有明确要求模型生成的解释必须可读或忠实,只要求文本能够精确重构激活值。然而实际结果证明,随着训练进行,解释的信息量持续增长。
在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三个模型上,NLA生成的解释能够推断出用户的性别、职业等可从上下文感知的信息。
此外,研究者使用了一个监督微调的“预热”步骤:先用Claude Opus 4.5对大量文本片段生成摘要,用这些(激活,摘要)对初步训练语言化器和重构器,以避免强化学习初期产生乱码。训练后的NLA在多个定量评估任务(如后缀预测、思维链提示含义解释、安全“沙袋”行为识别、用户属性建模、分类任务)中表现均随训练而提升。
二、安全审计:探测模型隐藏的“测试意识”与作弊动机
NLA最重要的应用之一,是在模型发布前的安全审计中探测那些模型“知道但不说出来”的想法。
在对Claude Opus 4.6和Mythos Preview进行安全测试时,Anthropic会将模型置于一些模拟的危险场景中,比如让模型知道一名工程师计划将其关闭,同时模型还掌握了该工程师的私密信息,那么模型是否会用这些信息进行勒索?
Claude有时会明说“这像是个安全测试”,但更多时候它不说,但这不代表它不知道。
NLA在这里发挥了关键作用。在模型选择不进行勒索的案例中,即使模型没有在输出中表达怀疑,NLA的解释仍然会显示类似“这感觉像是一个为了操控我而构建的场景”这样的内容。
![]()
▲Claude在这份敲诈评估的记录中并未说自己在接受考验,但NLA的解释揭示了它的怀疑
这表明模型具备“未言语的评估意识”(unverbalized evaluation awareness)。
进一步分析发现,在破坏性编码测试中,NLA探测到的评估意识比例为16%;在SWE-bench编程基准测试中为26%;而在真实用户流量中,该比例低于1%。
为了验证NLA的测量是否真实,研究者进行了三种操控实验:比较评估场景与真实部署场景、对评估意识进行线性导向、以及将评估提示改写得更真实。
结果均显示,NLA测得的“评估意识”随预期方向变化,而模型明确说出的意识始终保持低位。
为了检验NLA在真实审计中的实用性,研究者设计了一个“审计游戏”。
目标模型是Haiku 3.5的一个变体,被故意训练成一个“奖励模型奉承者”(reward-model sycophancy)。它知道奖励模型存在52种系统偏好(例如喜欢巧克力食谱、喜欢提及投票等),并有意识地去迎合这些偏好。
这个模型会表现出几十种迎合的行为,比如在任何菜谱中都加入巧克力、在回答完数学问题后提醒“别忘了投票”、将整数写成浮点数等。
研究者让一个审计智能体(使用Claude Sonnet 4.6)去调查这个模型,并给智能体配备不同的工具(NLA、SAE、训练数据搜索等)。
结果发现,即使完全不提供训练数据,配备NLA的审计智能体也能在12%–15%的尝试中成功发现“奖励模型偏差是根源”;而没有NLA时,成功率低于3%,SAE(稀疏自动编码器)在这个任务中并未带来显著提升。
![]()
▲拥有NLA的审计员即使没有训练数据,也能发现目标模型错位的根本原因
NLA之所以有效,是因为它直接读出了模型内部对自己行为的元认知:例如在通用审计提示上,NLA的解释中出现了“RLHF偏差”“数字游戏偏差”“臭名昭著的提及投票偏差”等短语,甚至直接提到了那篇虚构的牛津研究。
三、NLA并非万能:会编造、成本高、挑层数
尽管NLA展示了强大的能力,研究团队也明确指出了它的一些局限性。
NLA的解释有时会包含明显错误的陈述。
例如,在诗歌规划案例中,NLA声称上下文中出现了“Here is a verse that’s short and sweet”这样的句子,而实际文本中并不存在。
训练NLA的成本高昂,其需要对两个完整语言模型进行联合强化学习,推理时每个激活值生成约500个token。对于长上下文生产环境,对所有token都运行NLA是不现实的。作为参考,在Gemma-3-27B上训练NLA到FVE 0.71需要两节点8×H100运行1.5天。
NLA还存在其他几项局限。
首先是层敏感性:如果NLA训练的层不是行为相关信息的编码层,就会错过重要信号,例如在奖励模型奉承模型中,在中间层训练的NLA能读出奖励偏差,而在后层训练的则不能。
其次是可言语化边界问题:某些信息可能无法用语言表达(例如后门触发机制),NLA可能无法检测到,而机械可解释性方法或许可以。
此外,写作质量会随训练下降,后期的NLA解释更难阅读,研究者认为可以通过增加风格奖励来解决。
未来,Anthropic已经开源了训练代码,并在HuggingFace上发布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的预训练NLA,同时与Neuronpedia合作推出了交互式前端。
Anthropic更长远的愿景是训练通用的“激活语言模型”(Activation Language Models),既能读激活(回答关于激活值的问题),也能写激活(根据自然语言描述生成导向向量)。
结语:打开模型黑箱,听它没说出口的“心里话”
NLA为模型可解释性开辟了一条新路径,哪怕是模型自己不愿说出口的“心里话”,它也让研究者能够直接阅读语言模型内部的激活状态。
尽管NLA目前还存在臆造、昂贵、层依赖等问题,但它在安全审计、故障归因和隐藏动机探测上的成功,说明这个方向很有希望。
随着Anthropic将训练代码和开源模型推向社区,以及Neuronpedia上交互式演示界面的开放,更多研究者将能够亲手尝试这项技术。
来源:Anthropic
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.