网易首页 > 网易号 > 正文 申请入驻

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

0
分享至

来源:市场资讯

(来源:图灵人工智能)

您想知道的人工智能干货,第一时间送达



作者 | 四月

大模型到底在想什么?过去,这几乎是一个半技术、半玄学的问题。

我们能看见它的输出,它的思维链(Chain-of-Thought)过程,也能统计它在 Benchmark 上的分数。但它在生成答案之前,模型内部到底激活了什么判断、计划、怀疑和意图,依然隔着一层黑箱。

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值,压缩成一段人能读懂的自然语言,再用这段语言反向重建原始激活。借此,人类只需通过模型输出,就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么;并把过去模型不可见的内部状态,变成了可以阅读、比较、质疑和交叉验证的解释线索。


NLA 架构示意图:激活值言语化器(AV)将激活值翻译为文字解释,激活值重建器(AR)再从文字还原激活值,形成完整闭环。


思维链不够用,“黑箱问题”又回来了



当被问到一个较简单的问题和一个较难的问题时,Claude 分别给出了忠实推理和动机性(不忠实)推理的例子。



Claude 最终没有勒索。测试通过。但真正的问题是:它是因为坚守安全原则,还是因为它识破了这只是一场安全测试,所以在“装乖”?

这正是 NLA 要回答的问题。


从输出、思维链到激活状态:NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型?



NLA 捕捉到 Opus 4.6 在补全押韵诗句时,第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练:两阶段,一个聪明的代理目标

NLA 的训练分两阶段,设计上有一个值得单说的工程技巧。

第一阶段:监督微调热启动(SFT Warm-start)



在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中,我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段:强化学习联合优化(RL Joint Training)

热启动完成后,进入强化学习阶段。核心思路是:AV 作为策略(policy),以激活向量为条件生成解释文本;AR 作为打分器,根据重建误差给出奖励信号(reward = 负的重建 MSE)。


NLA RL(Gemma-3-27B)。FVE 在 GRPO 训练中从 ≈0.38 开始(继承自 SFT),在前 30 步内迅速上升,然后进入平滑的对数线性状态,到第 3000 步达到 ≈0.75。


稀疏自编码器(SAE)、归因图等方法更像显微镜,能帮研究员看到内部特征和路径,但输出仍然抽象,需专业人员二次解读;NLA 则更像一名翻译官,它直接把内部状态转成了可读文本,让安全审计人员都能参与判断。

撬开黑箱,NLA 发现了什么?

从实验结果看,NLA 最有价值的能力,是捕捉模型“知道但没说“的东西,包括评测意识、隐藏动机,以及模型异常行为等。

模型知道自己在考场,但保持沉默

在前文提到的勒索测试中,Claude 外显文本并未表达对测试的怀疑,但 NLA 解释显示,其内部已识别出“这是一个被构造出来、用于操控自己的场景”。


勒索测试中,Claude 的输出文本没有任何“我觉得这是测试”的表达,但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比:



评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。





随后,研究者沿着 NLA 指向的线索,在训练数据里找到了病根:一批英文翻译的 prompt,被错误地配上了未翻译的外语回复。NLA 不只揭示了现象,直接给出了可溯源的调试路径。

目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计,从实验室工具升级为了真实的工程流程组件。

AI 安全,开始深入到“内部状态审计”


  • 论文地址:https://transformer-circuits.pub/2026/nla/index.html#method

  • 博客地址:https://www.anthropic.com/research/natural-language-autoencoders

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普调整访华计划,中方官宣其访华时间将增加一天

特朗普调整访华计划,中方官宣其访华时间将增加一天

阿凫爱吐槽
2026-05-11 18:49:38
一个男人在低谷时,拼命社交、到处找机会都是下策,最明智的做法,是狠心在这两件事上做“反人性”的投资

一个男人在低谷时,拼命社交、到处找机会都是下策,最明智的做法,是狠心在这两件事上做“反人性”的投资

心理观察局
2026-05-08 09:00:04
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

元芳有看法
2026-04-30 09:25:44
特朗普访华消息官宣当天,郑丽文确定赴美日期,并派副手北上进京

特朗普访华消息官宣当天,郑丽文确定赴美日期,并派副手北上进京

温一壶皎月
2026-05-11 19:32:14
OPPO母亲节宣传文案翻车,段永平称确实不合适、欠妥,武汉大学、中国广告协会等发声

OPPO母亲节宣传文案翻车,段永平称确实不合适、欠妥,武汉大学、中国广告协会等发声

界面新闻
2026-05-11 10:12:06
越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

心中的麦田
2026-05-04 18:47:55
人社部最新动态,2026年养老金有好消息,企退人员补发700元难吗

人社部最新动态,2026年养老金有好消息,企退人员补发700元难吗

浪子阿邴聊体育
2026-05-11 12:25:59
一块不可思议的化石,距今4.6亿年前,上面竟出现北宋书法家题字

一块不可思议的化石,距今4.6亿年前,上面竟出现北宋书法家题字

收藏大视界
2026-04-09 20:23:26
李小冉含泪终止妊娠:为保胎儿健康放弃当妈,背后真相令人心疼

李小冉含泪终止妊娠:为保胎儿健康放弃当妈,背后真相令人心疼

TVB的四小花
2026-05-10 20:40:05
38岁年轻保姆三次表白雇主,惨遭拒绝,雇主:我年纪大,但不傻

38岁年轻保姆三次表白雇主,惨遭拒绝,雇主:我年纪大,但不傻

孢木情感
2026-05-11 08:51:22
有暴雨大暴雨!广东下一轮强对流天气时间,确定了

有暴雨大暴雨!广东下一轮强对流天气时间,确定了

新浪财经
2026-05-11 14:52:32
60岁李泽楷,爱江山也爱美人,终其一生也未能摆脱李嘉诚的阴影

60岁李泽楷,爱江山也爱美人,终其一生也未能摆脱李嘉诚的阴影

妙知
2026-05-11 05:04:30
国家德比2-0!11.7亿豪门无解联赛11连胜 完爆死敌夺冠第29次加冕

国家德比2-0!11.7亿豪门无解联赛11连胜 完爆死敌夺冠第29次加冕

狍子歪解体坛
2026-05-11 04:56:31
CBA公司给山西队开出一份大罚单!

CBA公司给山西队开出一份大罚单!

体育哲人
2026-05-11 22:13:47
SK海力士股价涨幅扩大至12%,报188.8万韩元

SK海力士股价涨幅扩大至12%,报188.8万韩元

每日经济新闻
2026-05-11 10:12:02
Windows折磨了用户几十年的问题:终于被微软修了!不用再看1048576KB了

Windows折磨了用户几十年的问题:终于被微软修了!不用再看1048576KB了

快科技
2026-05-11 12:09:38
历史不会重演,但会惊人相似:中国房地产很有可能重走日本老路?

历史不会重演,但会惊人相似:中国房地产很有可能重走日本老路?

笑熬浆糊111
2026-05-11 05:00:12
卖掉格力换来的416亿,被他们“败”光了!

卖掉格力换来的416亿,被他们“败”光了!

犀利强哥
2026-05-11 08:30:22
王彩桦挨轰「整得像鬼」泪崩!退通告内幕曝光 小S暖心力挺:你很美

王彩桦挨轰「整得像鬼」泪崩!退通告内幕曝光 小S暖心力挺:你很美

ETtoday星光云
2026-05-11 14:51:12
2026-05-11 22:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3173470文章数 7322关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

重庆一57岁女医生驾奔驰酿车祸 操作不当致2死6伤

头条要闻

重庆一57岁女医生驾奔驰酿车祸 操作不当致2死6伤

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

时尚
艺术
本地
房产
亲子

2026年了,最好看的还是这件上衣

艺术要闻

陆抑非写竹,笔力遒劲

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

亲子要闻

亚太生殖年会重磅发布LILY研究 科学循证守护母婴安全

无障碍浏览 进入关怀版