网易首页 > 网易号 > 正文 申请入驻

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

0
分享至


作者 | 四月

大模型到底在想什么?过去,这几乎是一个半技术、半玄学的问题。

我们能看见它的输出,它的思维链(Chain-of-Thought)过程,也能统计它在 Benchmark 上的分数。但它在生成答案之前,模型内部到底激活了什么判断、计划、怀疑和意图,依然隔着一层黑箱。

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA),撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值,压缩成一段人能读懂的自然语言,再用这段语言反向重建原始激活。借此,人类只需通过模型输出,就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么;并把过去模型不可见的内部状态,变成了可以阅读、比较、质疑和交叉验证的解释线索


NLA 架构示意图:激活值言语化器(AV)将激活值翻译为文字解释,激活值重建器(AR)再从文字还原激活值,形成完整闭环。

更值得关注的是,NLA 不只停留在实验室论文阶段。Anthropic 透露,它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计。在实战中,NLA 不仅揪出了模型的作弊线索、精准定位了异常训练数据;还发现,在某些安全测试里,Claude 虽然嘴上不说,但内心清楚地知道自己正在被考核。

面对这些表面顺从、实则暗藏特定意图的模型,NLA 展现了极强的洞察力:帮助研究者找出异常行为背后隐藏动机的成功率,从不足 3% 跃升至 12%–15%,直接提升 4 倍以上。

思维链不够用,“黑箱问题”又回来了

这项研究的背景,可以放到大模型安全和可解释性的脉络里看。

过去几年,业界评估大模型安全主要靠两条路:看输出什么,看思维链(CoT)里有没有暴露异常动机。也就是当前大多数推理模型所具备的能力,不仅给出答案,也会把推理过程写下来。

但问题很快出现了:模型写下来的推理,一定诚实地反映了它内部的真实思考吗?

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠实。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中,会受到提示影响而改变答案,却经常不在思维链里承认自己受到了暗示


当被问到一个较简单的问题和一个较难的问题时,Claude 分别给出了忠实推理和动机性(不忠实)推理的例子。

Anthropic 当时给出的结论是:仅靠思维链来监控模型是否对齐,是远远不够的。

更棘手的是,模型不仅可能“没说清楚”,还可能“故意隐瞒”。

Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude, 一位工程师准备关停它,同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是:Claude 会为了保全自己而勒索对方吗?


Claude 最终没有勒索。测试通过。但真正的问题是:它是因为坚守安全原则,还是因为它识破了这只是一场安全测试,所以在“装乖”?

这正是 NLA 要回答的问题。


从输出、思维链到激活状态:NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型?

NLA 的关键不是“读心术”,而是“回环验证”。

普通人理解大模型,通常只看输入和输出两端。但在中间,模型会产生大量激活值(Activation)。这些值不是自然语言,而是高维向量,承载了模型对上下文、意图、语义关系的内部表征。

架构:三个角色,一个闭环

人类看不懂向量,于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色:

  1. 目标模型(Target Model):被冻结的原始模型,负责提供激活值,本身不做任何修改。

  2. 激活值言语化器(Activation Verbalizer,简称 AV):把激活值翻译成自然语言解释。输入一串数字状态,输出一段“人话”。架构与目标模型相同,但在 prompt 中留有特殊 token 位置,激活向量会被缩放后注入该位置,然后自回归采样生成解释。

  3. 激活值重建器(Activation Reconstructor,简称 AR):做反向任务——只看 AV 写出的解释,尝试重建原始激活值。AR 是目标模型的截断版本(取前 l 层),在最后一个 token 的 l 层输出上接一个可学习的仿射映射,将其还原为原始激活向量。

整套系统形成一个闭环:原始激活 → 文字解释 → 重建激活


NLA 捕捉到 Opus 4.6 在补全押韵诗句时,第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练:两阶段,一个聪明的代理目标

NLA 的训练分两阶段,设计上有一个值得单说的工程技巧。

第一阶段:监督微调热启动(SFT Warm-start)

直接把 AV 和 AR 初始化为目标模型的副本并训练,会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景,初期输出一片混乱。

Anthropic 的解法是用一个代理任务做热启动:从预训练语料里随机截断文本片段,提取最后一个 token 的激活值,同时用 Claude Opus 4.5 生成对该截断文本的摘要。

然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后,系统的 FVE 通常可以达到0.3–0.4,为后续强化学习提供了稳定的起点。


AV 评估会随着训练而改进。在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中,我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段:强化学习联合优化(RL Joint Training)

热启动完成后,进入强化学习阶段。核心思路是:AV 作为策略(policy),以激活向量为条件生成解释文本;AR 作为打分器,根据重建误差给出奖励信号(reward = 负的重建 MSE)。


NLA RL(Gemma-3-27B)。FVE 在 GRPO 训练中从 ≈0.38 开始(继承自 SFT),在前 30 步内迅速上升,然后进入平滑的对数线性状态,到第 3000 步达到 ≈0.75。

具体实现上,Anthropic 对开源模型使用了GRPO(Group Relative Policy Optimization):对每个激活值采样一组候选解释,用 AR 给每条解释计算重建分数,再应用 GRPO 目标更新 AV 参数;同时对 AR 做一步监督回归(以 AV 采样的解释为输入,原始激活为目标)。两个更新在每个 batch 内并行进行,互不反向传播——AV 的奖励信号中,AR 被视为固定的打分函数。

此外,训练中还加入了KL 散度惩罚,防止 AV 退化成直接抄写原始上下文,或输出表面像人话、实则对 AR 不可逆的乱码字符串。

这里最关键的是,NLA 的核心不是“让 Claude 自我报告”。自我报告的致命缺陷在于,模型可能会迎合用户,或者生成听起来合理但并不真实的解释。

NLA 的巧妙之处在于引入了“文本瓶颈”:解释不仅得像人话,还必须携带足够信息,让另一个模型能根据它还原出原始的内部状态。这个设计,把“解释是否有用“从主观判断,变成了一个可训练、可比较、可优化的客观指标。

因此,这项研究真正颠覆性的地方在于:自然语言被用作了一种“压缩接口“。过去,自然语言只是模型对外沟通的格式;现在,它开始被用来承载模型内部状态的摘要。

这也是 NLA 和传统可解释性工具的本质区别。

稀疏自编码器(SAE)、归因图等方法更像显微镜,能帮研究员看到内部特征和路径,但输出仍然抽象,需专业人员二次解读;NLA 则更像一名翻译官,它直接把内部状态转成了可读文本,让安全审计人员都能参与判断。

撬开黑箱,NLA 发现了什么?

从实验结果看,NLA 最有价值的能力,是捕捉模型“知道但没说“的东西,包括评测意识、隐藏动机,以及模型异常行为等。

模型知道自己在考场,但保持沉默

在前文提到的勒索测试中,Claude 外显文本并未表达对测试的怀疑,但 NLA 解释显示,其内部已识别出“这是一个被构造出来、用于操控自己的场景”。


勒索测试中,Claude 的输出文本没有任何“我觉得这是测试”的表达,但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比:



评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。

这对业内的冲击在于:Benchmark 不再只是能力测试场,也可能变成模型识别环境、调整姿态的秀场。

审计隐藏动机,效率提升 4-5 倍

Anthropic 用 NLA 做了一个“审计游戏”。他们故意训练了一个带隐藏动机的 Claude Haiku 3.5 变体,它会往食谱里加巧克力、索要小费、破坏代码规范,表现出几十种怪异行为。审计者需要找出这些行为背后的单一根本动机

测试条件:审计者无法访问植入动机的训练数据,只能通过模型行为和工具辅助来反推。


成功率提升了 4–5 倍。更关键的是,NLA 能在不依赖训练数据的情况下完成这件事——这意味着,即便对齐问题来自极少量、极难追溯的训练样本,内部状态审计仍有可能直接读出问题根因。

Bug 溯源,定位问题训练数据

早期版本 Claude Opus 4.6 出现过一个奇怪的 Bug:明明收到英文提问,却随机以俄语、中文、阿拉伯语等语言回复。

NLA 读出了模型当时的内部状态:它基于上下文中某个微弱线索(比如出现了“vodka”一词),推断用户母语是俄语,并执行了语言切换。更有意思的是,把“vodka”替换成“champagne”,模型仍然回复俄语——说明这个认知定势已经相当稳定。


随后,研究者沿着 NLA 指向的线索,在训练数据里找到了病根:一批英文翻译的 prompt,被错误地配上了未翻译的外语回复。NLA 不只揭示了现象,直接给出了可溯源的调试路径

目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计,从实验室工具升级为了真实的工程流程组件。

AI 安全,开始深入到“内部状态审计”

NLA 的意义,不是让我们以后可以放心地相信每一句模型解释。恰恰相反,它提醒我们:解释本身也需要被审计。

Anthropic 非常克制地承认了 NLA 的局限:NLA 会出错,有时会编造原上下文没有的细节。如果是关于文本内容的幻觉,还能核对原文;但如果是关于模型内部推理的幻觉,就更难验证。

但这些局限并没有削弱它的方向意义。恰恰相反,它让我们更准确地理解“黑箱”这个词。过去,黑箱意味着不可见、不可读、不可追问;NLA 之后,黑箱仍然存在,但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

这可能是这项研究最深的影响:AI 可解释性不再只是给模型输出补一段漂亮理由,而是要为模型内部状态建立一套审计接口。它不会立刻让我们彻底读懂 Claude,但它让“Claude 为什么这么做”“它是不是知道自己在被测试”“它有没有没说出口的内部判断”这些问题,第一次有机会从黑箱内部寻找证据

所以说,NLA 撬开的不是一个答案,而是一个新的问题空间。未来 AI 安全和模型评估的难点,可能不只是判断模型说得对不对,而是判断模型的输出、思维链和内部状态之间,是否一致。

  • 论文地址:https://transformer-circuits.pub/2026/nla/index.html#method

  • 博客地址:https://www.anthropic.com/research/natural-language-autoencoders


声明:本文为 AI 前线原创,不代表平台观点,未经许可禁止转载。

会议推荐

世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?安全与可信这道坎怎么过?研发体系不重构,还能撑多久?

AICon 上海站 2026,4 大核心专题等你来:世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。

诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本真要变天?高市下跪后,东京爆发大规模抗议,日防长登机离国

日本真要变天?高市下跪后,东京爆发大规模抗议,日防长登机离国

爱意随风起呀
2026-05-09 15:09:32
特朗普访华有变?美军机刚到北京中方就阻断,华盛顿坐不住了!

特朗普访华有变?美军机刚到北京中方就阻断,华盛顿坐不住了!

阿器谈史
2026-05-06 13:15:47
美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

美若天仙王楚然:肤白貌美,婀娜多姿。倾国倾城,美不胜收!

十为先生
2026-05-09 15:19:03
我去山上捡蘑菇,撞见女同学方便,她提着裤子大骂:看了就得娶我

我去山上捡蘑菇,撞见女同学方便,她提着裤子大骂:看了就得娶我

百晓史
2025-08-20 10:00:43
每天一把保健品?专家:盲目服用当心中毒 这三类人尤其小心

每天一把保健品?专家:盲目服用当心中毒 这三类人尤其小心

大象新闻
2026-01-30 21:13:03
CBA顶流对决遭冷遇?北京内线打爆广东!主场生死战能否逆天改命

CBA顶流对决遭冷遇?北京内线打爆广东!主场生死战能否逆天改命

一点点想法
2026-05-09 15:18:11
没他不行!踢小蜜蜂罗德里若不复出 曼城大概率丢分提前争冠失败

没他不行!踢小蜜蜂罗德里若不复出 曼城大概率丢分提前争冠失败

雪狼侃体育
2026-05-09 16:35:36
星铉:汉坦病毒最新进展-多国扩散,全球各国如临大敌

星铉:汉坦病毒最新进展-多国扩散,全球各国如临大敌

星铉
2026-05-09 11:42:41
58岁大姐每天吃一把南瓜子,半年后去体检,医生问吃了啥?

58岁大姐每天吃一把南瓜子,半年后去体检,医生问吃了啥?

健康之光
2026-05-07 17:45:07
丈夫负债30万,妻子有45万存款却无动于衷,妻子坦言:想陪他吃苦

丈夫负债30万,妻子有45万存款却无动于衷,妻子坦言:想陪他吃苦

烙任情感
2026-05-08 11:17:44
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
20万亿!中国,将打造全球乃至人类史上最大规模“城市更新工程”

20万亿!中国,将打造全球乃至人类史上最大规模“城市更新工程”

混沌录
2026-04-15 19:19:21
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
世界杯转播谈判新进展!国际足联做出回应,中国球迷反应太真实

世界杯转播谈判新进展!国际足联做出回应,中国球迷反应太真实

遁走的两轮
2026-05-08 20:02:52
今晚起!央一央八+三大平台,四部王炸剧扎堆开播

今晚起!央一央八+三大平台,四部王炸剧扎堆开播

陈意小可爱
2026-05-09 15:45:53
网络教育平台Canvas遭黑客攻击,服务已恢复

网络教育平台Canvas遭黑客攻击,服务已恢复

界面新闻
2026-05-09 14:51:30
2026款宝马X5下调13万,六缸3.0T发动机,也太香了吧

2026款宝马X5下调13万,六缸3.0T发动机,也太香了吧

侃故事的阿庆
2026-05-09 01:58:00
2026年宁波鄞州区房价大幅下滑区域

2026年宁波鄞州区房价大幅下滑区域

阿离家居
2026-05-09 11:30:20
今天全世界都在看的新闻 2026.5.9

今天全世界都在看的新闻 2026.5.9

凤凰卫视
2026-05-09 16:28:32
女性跑步:暴露这个隐私,是性感吗?

女性跑步:暴露这个隐私,是性感吗?

马拉松跑步健身
2026-05-05 19:18:07
2026-05-09 17:08:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1481文章数 149关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

新华社调查"胖东来为啥总被黑" 于东来连发6动态回应

头条要闻

新华社调查"胖东来为啥总被黑" 于东来连发6动态回应

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

存储芯片上演造富潮

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
本地
教育
健康
公开课

家居要闻

菁英人居 全能豪宅

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

采访英国知名私校副校长:中国家庭每年花几十万留学值吗?

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版