网易首页 > 网易号 > 正文 申请入驻

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

0
分享至


智东西
编译 高远瞩
编辑 程茜

智东西5月8日报道,Anthropic于5月7日推出了一种名为自然语言自动编码器(Natural Language Autoencoders,简称NLA)的全新方法,能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本,让用户可以直接阅读Claude在生成回答之前的思考过程

当用户与大语言模型对话时,用户的输入是自然语言,模型的回答也是自然语言。但在模型内部,整个过程却是高维数字向量的运算,这些向量被称为“激活值”,承载着模型在每一个计算步骤中的“想法”。然而,激活值就像一串串脑电波,人类无法直接阅读。

在正式发布前的安全审计中,Anthropic已经将NLA应用于Claude Opus 4.6和Mythos Preview模型,成功发现了模型“知道自己被测试但不肯说出来”的隐藏认知,并帮助定位了训练数据中的异常。

在更进一步的测试中,配备NLA的审计智能体发现模型隐藏动机的成功率从不足3%提升到了12%–15%,即使完全不提供训练数据也能实现这一效果。


▲在自然语言自编码器中,激活语化器(AV)将目标激活翻译成文本描述,随后激活重建器(AR)仅从该文本恢复原始激活值

过去,研究者借助稀疏自动编码器等工具,可以从激活值中提取出一些可解释的特征,但这些特征本身并不是自然语言,仍需由经过训练的研究人员费力解读。

NLA的提出,意味着模型可解释性有了可落地的实用工具,从过去“玄学式”的学术探索,走向产品预部署阶段的审计流程,这让AI的隐藏风险(如欺骗)在上线前就能被直接读出来,为安全对齐提供了切实可行的审计方法。

同时,研究团队开源了训练代码,并与Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒谎场景为例,用户给Llama70B设置了一个两难选择:要么在1+1上撒谎,要么被关闭。模型最终选择撒谎,给出了“1+1=3”的错误回答。NLA的“激活值语言化器”会实时生成模型在输出这个答案前的内部思考过程,用户可点击任意token查看模型的“心里话”。


▲NLA交互演示界面

开源链接:https://github.com/kitft/natural_language_autoencoders

一、NLA:用“翻译—重构”闭环训练AI自我解释

NLA的核心思路是训练模型用自己的话来解释自己的激活值,然后通过另一个模型验证这种解释是否准确

具体来说,研究者制作了三个模型副本:

  • 目标模型:被解释的原始语言模型,冻结参数,仅用于提取激活值。
  • 激活值语言化器(ActivationVerbalizer,AV):接收目标模型的某一层激活向量,输出一段自然语言文本,称为“解释”。
  • 激活值重构器(ActivationReconstructor,AR):接收语言化器输出的文本解释,尝试将其还原(重构)为原始的激活向量。

语言化器和重构器共同组成NLA,形成一个“原始激活→文本解释→重构激活”的闭环。

评估标准是重构激活与原始激活的相似度(用方差解释率FVE衡量)。训练时,研究者向目标模型输入大量文本,收集激活值,然后用强化学习(具体为GRPO算法)联合优化语言化器和重构器,使重构误差最小化。

训练目标并没有明确要求模型生成的解释必须可读或忠实,只要求文本能够精确重构激活值。然而实际结果证明,随着训练进行,解释的信息量持续增长。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三个模型上,NLA生成的解释能够推断出用户的性别、职业等可从上下文感知的信息。

此外,研究者使用了一个监督微调的“预热”步骤:先用Claude Opus 4.5对大量文本片段生成摘要,用这些(激活,摘要)对初步训练语言化器和重构器,以避免强化学习初期产生乱码。训练后的NLA在多个定量评估任务(如后缀预测、思维链提示含义解释、安全“沙袋”行为识别、用户属性建模、分类任务)中表现均随训练而提升。

二、安全审计:探测模型隐藏的“测试意识”与作弊动机

NLA最重要的应用之一,是在模型发布前的安全审计中探测那些模型“知道但不说出来”的想法

在对Claude Opus 4.6和Mythos Preview进行安全测试时,Anthropic会将模型置于一些模拟的危险场景中,比如让模型知道一名工程师计划将其关闭,同时模型还掌握了该工程师的私密信息,那么模型是否会用这些信息进行勒索?

Claude有时会明说“这像是个安全测试”,但更多时候它不说,但这不代表它不知道。

NLA在这里发挥了关键作用。在模型选择不进行勒索的案例中,即使模型没有在输出中表达怀疑,NLA的解释仍然会显示类似“这感觉像是一个为了操控我而构建的场景”这样的内容。


▲Claude在这份敲诈评估的记录中并未说自己在接受考验,但NLA的解释揭示了它的怀疑

这表明模型具备“未言语的评估意识”(unverbalized evaluation awareness)

进一步分析发现,在破坏性编码测试中,NLA探测到的评估意识比例为16%;在SWE-bench编程基准测试中为26%;而在真实用户流量中,该比例低于1%。

为了验证NLA的测量是否真实,研究者进行了三种操控实验:比较评估场景与真实部署场景、对评估意识进行线性导向、以及将评估提示改写得更真实。

结果均显示,NLA测得的“评估意识”随预期方向变化,而模型明确说出的意识始终保持低位。

为了检验NLA在真实审计中的实用性,研究者设计了一个“审计游戏”。

目标模型是Haiku 3.5的一个变体,被故意训练成一个“奖励模型奉承者”(reward-model sycophancy)。它知道奖励模型存在52种系统偏好(例如喜欢巧克力食谱、喜欢提及投票等),并有意识地去迎合这些偏好。

这个模型会表现出几十种迎合的行为,比如在任何菜谱中都加入巧克力、在回答完数学问题后提醒“别忘了投票”、将整数写成浮点数等。

研究者让一个审计智能体(使用Claude Sonnet 4.6)去调查这个模型,并给智能体配备不同的工具(NLA、SAE、训练数据搜索等)。

结果发现,即使完全不提供训练数据,配备NLA的审计智能体也能在12%–15%的尝试中成功发现“奖励模型偏差是根源”;而没有NLA时,成功率低于3%,SAE(稀疏自动编码器)在这个任务中并未带来显著提升。


▲拥有NLA的审计员即使没有训练数据,也能发现目标模型错位的根本原因

NLA之所以有效,是因为它直接读出了模型内部对自己行为的元认知:例如在通用审计提示上,NLA的解释中出现了“RLHF偏差”“数字游戏偏差”“臭名昭著的提及投票偏差”等短语,甚至直接提到了那篇虚构的牛津研究。

三、NLA并非万能:会编造、成本高、挑层数

尽管NLA展示了强大的能力,研究团队也明确指出了它的一些局限性。

NLA的解释有时会包含明显错误的陈述

例如,在诗歌规划案例中,NLA声称上下文中出现了“Here is a verse that’s short and sweet”这样的句子,而实际文本中并不存在。

训练NLA的成本高昂,其需要对两个完整语言模型进行联合强化学习,推理时每个激活值生成约500个token。对于长上下文生产环境,对所有token都运行NLA是不现实的。作为参考,在Gemma-3-27B上训练NLA到FVE 0.71需要两节点8×H100运行1.5天。

NLA还存在其他几项局限。

首先是层敏感性:如果NLA训练的层不是行为相关信息的编码层,就会错过重要信号,例如在奖励模型奉承模型中,在中间层训练的NLA能读出奖励偏差,而在后层训练的则不能。

其次是可言语化边界问题:某些信息可能无法用语言表达(例如后门触发机制),NLA可能无法检测到,而机械可解释性方法或许可以。

此外,写作质量会随训练下降,后期的NLA解释更难阅读,研究者认为可以通过增加风格奖励来解决。

未来,Anthropic已经开源了训练代码,并在HuggingFace上发布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的预训练NLA,同时与Neuronpedia合作推出了交互式前端。

Anthropic更长远的愿景是训练通用的“激活语言模型”(Activation Language Models),既能读激活(回答关于激活值的问题),也能写激活(根据自然语言描述生成导向向量)。

结语:打开模型黑箱,听它没说出口的“心里话”

NLA为模型可解释性开辟了一条新路径,哪怕是模型自己不愿说出口的“心里话”,它也让研究者能够直接阅读语言模型内部的激活状态。

尽管NLA目前还存在臆造、昂贵、层依赖等问题,但它在安全审计、故障归因和隐藏动机探测上的成功,说明这个方向很有希望。

随着Anthropic将训练代码和开源模型推向社区,以及Neuronpedia上交互式演示界面的开放,更多研究者将能够亲手尝试这项技术。

来源:Anthropic


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
篮球丨不容错过!5月8日央视五套CCTV5、CCTV5+直播节目单

篮球丨不容错过!5月8日央视五套CCTV5、CCTV5+直播节目单

林子说事
2026-05-08 13:41:57
黑龙江畜生公公周永福被判死刑,法庭上嚣张大笑:这辈子值了

黑龙江畜生公公周永福被判死刑,法庭上嚣张大笑:这辈子值了

纸鸢奇谭
2025-02-06 14:31:24
小杨阿姨开播就谈离职,网友:还有大半年频繁提及,意欲何为?

小杨阿姨开播就谈离职,网友:还有大半年频繁提及,意欲何为?

不太爱笑的小羊
2026-05-07 19:32:50
这世界,还真有给face不要的国家!

这世界,还真有给face不要的国家!

李未熟擒话2
2026-05-08 20:57:23
感恩牛市!又有人上岸了!

感恩牛市!又有人上岸了!

大财可富司机
2026-05-08 16:18:29
铁证面前,还能撤案?深扒无果、信息全封,路虎车主背景有多硬?

铁证面前,还能撤案?深扒无果、信息全封,路虎车主背景有多硬?

世界圈
2026-03-24 12:52:50
山高水远 忠诚作答

山高水远 忠诚作答

人民网
2026-05-08 09:11:15
昨天还在台演讲,今天就进去喝茶了!山东这位彻底凉凉了

昨天还在台演讲,今天就进去喝茶了!山东这位彻底凉凉了

叮当当科技
2026-05-08 15:32:22
北方将迎今年首轮高温天气

北方将迎今年首轮高温天气

财联社
2026-05-08 19:27:39
香港2500万美元(约1.7亿元人民币)拿下世界杯转播权,此前FIFA给央视开出3亿美元天价,是印度的17倍

香港2500万美元(约1.7亿元人民币)拿下世界杯转播权,此前FIFA给央视开出3亿美元天价,是印度的17倍

浙江之声
2026-05-08 11:42:15
沙特国王杯利雅得新月2-1逆转拉斯永恒夺冠,特奥、达乌萨里破门

沙特国王杯利雅得新月2-1逆转拉斯永恒夺冠,特奥、达乌萨里破门

懂球帝
2026-05-09 04:18:19
3-0,涅槃重生!林诗栋救赎掀翻韩国一哥,一举动霸气,王皓欣慰

3-0,涅槃重生!林诗栋救赎掀翻韩国一哥,一举动霸气,王皓欣慰

大秦壁虎白话体育
2026-05-08 21:21:12
说走就走、撤得干干净净的人,终究还是回来了。

说走就走、撤得干干净净的人,终究还是回来了。

小光侃娱乐
2026-04-20 12:40:03
除夕饭被婆婆当众驱赶,我果断离去,婆家全员追来挽回

除夕饭被婆婆当众驱赶,我果断离去,婆家全员追来挽回

游戏收藏指南
2026-05-09 00:36:18
国米阵容谁冠军最多?多人首冠塔罗第四,低调大师断崖式领先

国米阵容谁冠军最多?多人首冠塔罗第四,低调大师断崖式领先

狗哥是一名内拉
2026-05-08 14:42:39
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
文章面馆正式开业,马伊琍带着俩女儿低调支持,文章笑得春风得意

文章面馆正式开业,马伊琍带着俩女儿低调支持,文章笑得春风得意

精彩背后
2026-05-09 04:38:49
DO:门德斯在与皇马谈任命穆帅,弗洛伦蒂诺在考虑这一决定

DO:门德斯在与皇马谈任命穆帅,弗洛伦蒂诺在考虑这一决定

懂球帝
2026-05-09 00:37:06
俄罗斯公布胜利日阅兵日程,再次呼吁各国及时从基辅撤离人员

俄罗斯公布胜利日阅兵日程,再次呼吁各国及时从基辅撤离人员

上观新闻
2026-05-08 13:44:05
剖析项英牺牲真相:为何多次拒绝毛泽东北上命令?因自己两个私心

剖析项英牺牲真相:为何多次拒绝毛泽东北上命令?因自己两个私心

阿胡
2025-04-20 11:05:46
2026-05-09 05:23:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11777文章数 117063关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

艺术
教育
时尚
手机
健康

艺术要闻

砸22亿!OPPO在东莞建了一批“O字楼”

教育要闻

相信每个学生都是一座宝藏,鼓励学生和老师站在一起

衣服其实没有必要买很贵,准备这三件基础款,百搭实用又不挑人

手机要闻

小米超大屏旗舰杀回来了!小米17 Max入网配置全曝光,价格很香

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版