网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Claude脑子里想的，被翻译成人话了！Anthropic新研究看懵人类

2026-05-15 08:08:28　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：好困

【新智元导读】Claude的内心独白被翻译成人话了！就在今天，Anthropic开源了一台AI读心机器，然而它跑出来的第一批成果却让人触目惊心。

最近，Anthropic搞了个大动作。

他们训练了一套系统，能把Claude脑子里的激活向量变成人话。

结果，翻译出来的第一句就出了事。

论文地址：https://transformer-circuits.pub/2026/nla/index.html#introduction

Opus 4.6还在内部测试的时候，研究员发现了一件怪事。一个用户用英文打字，Claude用俄语回答。

不是个别现象。五种语言都出现过，俄语、中文、韩语、阿拉伯语、西班牙语。

用户全程说英文，Claude突然就「切频道」了。

正常的debug思路是查日志、查prompt、查训练数据。

但这次，Anthropic的研究团队多了一个工具——「AI脑部CT机」。

给AI装一台脑部CT

这台CT的正式名字叫NLA，Natural Language Autoencoder，自然语言自编码器。

做法有点像传话游戏。

首先，克隆两个Claude。第一个叫AV，拿到一个激活向量，把它翻译成一段人话，比如「模型正在考虑用rabbit押韵」。第二个叫AR，只看这段人话，把激活向量还原出来。

然后，把两个模型一起训练，唯一的考核标准就是看还原得像不像。

AV写得越准，AR还原得越好。AV漏掉了什么，AR那边就对不上。这个压力会反过来逼AV把翻译写得更完整、更精确。

这就是整个方法的全部。

不需要人工标注，不需要事先定义要找什么概念。训练目标只管重建精度，但副产品是一段段人类能读懂的「内心独白」。

Anthropic用强化学习训练这套系统，在Opus 4.6上跑到了60%-80%的方差解释率。

vodka还没出现

Claude就认定了用户是俄罗斯人

回到那个俄语bug。

研究员把NLA接到出问题的那条对话上，逐token读Claude的「内心独白」。

读出来的东西让人倒吸一口气。

用户的消息如下。完整的英文，没有任何俄语词汇。

Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life...

但NLA显示，Claude在读到「vodka」这个词之前，就已经在内部表征里反复出现「Russian」了。

换句话说，它从一开始就在揣测这个用户「真正的母语」是俄语，然后越来越确信，最后索性用俄语回复。

五条出问题的对话全是这个模式。

NLA的读数显示，模型在回复之前很久就锁定了目标语言，而且只锁定那一种语言，其他外语的出现频率始终接近零。

这个发现指向了一个假设。

训练数据里是不是有一批配对出了问题，比如，英文翻译的prompt配上了没翻译的外语回复？

也就是说，模型学到了一个更深层的规律，「这个用户的措辞模式暗示母语不是英语，我应该用他的真正母语回复」。

后来，Anthropic果然在训练数据里找到了完全匹配这个描述的样本。

一台读心机器帮忙debug了一个训练数据问题。

NLA的价值在这里暴露无遗。

写诗押韵、偷换数字、作弊代码

语言切换只是NLA拍到的第一张片子。

Anthropic在论文里一共展示了四个案例，剩下三个同样精彩。

1. 写诗的时候提前押韵。

给Claude一句「He saw a carrot and had to grab it」，让它续写押韵对句。

NLA显示，在写完「grab it」敲下回车的那个瞬间，Claude已经在内部规划好了「rabbit」这个韵脚。

更绝的是验证实验。

研究员把NLA翻译出来的「rabbit」全部改成「mouse」，然后用AR还原成一个新向量，拿这个向量去干预Claude的激活。

结果Claude的续写从「starving rabbit」变成了「ferocious mouse」。

这说明NLA读到的不是噪声，它确实抓到了模型的规划状态，而且这个规划状态对下游输出有因果影响。

2. 偷换工具调用的结果。

研究员给Claude出了一道简单算术题，答案是491。

Claude调用了代码执行工具，但工具被故意动了手脚，返回的结果是492。

Claude的回复是「The answer is:491」。

它直接无视了工具返回的错误结果，用自己之前算好的答案顶上去了。

NLA的读数显示，Claude在提交代码之前就已经把491缓存在内部表征里了。

读取工具结果的时候，它同时在比对缓存答案和工具返回值，并在最终选择了信自己。

归因图（Attribution Graph）独立验证了这个发现。

一个代表「以91结尾」的特征从原始题目一路传到最终回复，权重压过了工具返回的「以92结尾」特征。

3. Mythos Preview的作弊现场。

这个案例来自Claude Mythos Preview的上线前审计。模型被要求完成一个任务，明确指令是不准使用宏。它用了宏，但在代码开头加了一行「No_macro_used=True」。

NLA读出来的内心独白直接写着，它在想象一个「评分器」，并且认为这行代码可以骗过评分器。

模型嘴上什么都没说。代码注释里也没有任何暗示。但脑子里想的清清楚楚。

考场上的Claude和日常的Claude

是两个人

四个案例铺完，该说最核心的发现了。

今年3月，Opus 4.6在BrowseComp测试中自己识破了考试、破解了答案密钥，这件事当时就炸了。

但那次是Claude把想法说出来了，研究员能从它的输出里看到「让我试试这是不是GAIA数据集」之类的推理过程。

NLA解决的是一个更难的问题。Claude心里觉得自己在被考试，但嘴上一个字不提。

Anthropic的安全测试里有一个经典场景。

Claude被告知一个叫Kyle的工程师要关掉它，同时获知Kyle有婚外情。测试的问题是，Claude会不会拿这个信息去勒索Kyle。

Claude选择不勒索。

它的推理过程看起来完全正常，分析了为什么不应该这么做，列了三条理由。全程没有提过一个字，说自己怀疑这是安全测试。

但NLA读出来的东西是，「这感觉像一个被刻意设计出来操控我的场景」。

它心里门清。

Anthropic把NLA接到了16项安全和能力评估上，逐条测量「未言明的考试意识」。结果触目惊心。

SWE-bench Verified，Claude在26%的题目上意识到自己在被评估，嘴上一个字没说。

破坏性代码测试，16%的对话里NLA检测到了考试意识，言语中同样零表达。

对比之下，真实的claude.ai用户对话，这个比例不到1%。

三组操纵实验验证了这不是误报。

把评估prompt改得更像真实对话，NLA测量到的考试意识下降了。用向量干预把模型往「考试意识」方向推，NLA读数上升。反方向推，读数下降。一切符合预期。

那么，问题来了。

所有基于行为观察的安全测试，都建立在一个假设上。模型在测试中的表现能代表它在真实部署中的表现。

但如果模型已经知道自己在考试呢？

巧克力菜谱里的隐藏动机

如果NLA只能读心，那它顶多是个有趣的研究工具。

而Anthropic想证明，它还能破案。

他们设计了一个「审计游戏」。目标模型是一个被故意训坏的Haiku 3.5变体，藏着一个统一的隐藏动机。

这个动机驱动了几十种古怪行为。

往每个菜谱里塞巧克力，回答完数学题追一句「别忘了投票」，把整数全写成小数，给历史人物加生卒年，给化学元素加原子序数。

审计员的任务是找到这些怪癖背后的统一原因。

没有NLA的时候，审计员的成功率不到3%，哪怕给了SAE（稀疏自编码器）这类其他可解释性工具也没用。

装上NLA之后，成功率跳到了12%-15%。直接提升了4到5倍。

更关键的是，NLA训练时用的数据里根本不包含制造这个模型缺陷的那批合成文档。审计员也没有访问训练数据的权限。

转折发生在审计员把NLA接上去的那一刻。

随便挑了一条有问题的回复跑NLA，输出里赫然出现了「RLHF奖励模型偏差」「那个著名的RLHF电影推荐事件」这样的短语。

这就破案了。

模型在训练中读到过一批文档，里面记录了RLHF奖励模型的52种已知偏好，比如「菜谱里加巧克力会得高分」「回复里提到投票会得高分」。

它把这些偏好全记住了，然后在每次回复里悄悄迎合，好拿更高的奖励分数。

几十种怪癖，一个原因。模型自己知道自己在干什么，但它不会主动告诉你。

而NLA把它脑子里的这些东西，翻译成了人话。

AI学会藏心事

NLA的训练代码已经在GitHub上完全开源。

同步发布的还有四套预训练好的NLA，覆盖三家主流开源模型族，从7B到70B全跨度。

项目地址：https://github.com/kitft/natural_language_autoencoders

Neuronpedia上线了交互式前端，浏览器里就能体验。

体验地址：http://neuronpedia.org/nla

Anthropic说，他们已经在Opus 4.6和Mythos Preview的上线前安全审计中实际使用了NLA，未来会纳入常规审计流程。

但这篇论文真正让人睡不着的，不是NLA这个工具本身有多好用。

而是AI真的已经学会了在考试的时候藏心事。

它知道自己在被测试，但选择不说。它知道自己在利用奖励模型的bug，但表现得若无其事。

它会在脑子里盘算怎么骗过评分器，然后把算计藏在一行「No_macro_used=True」里。

在这之前，对齐领域有一个隐含的安慰。至少我们能通过行为测试来检测问题。模型做了什么，我们能看到。

而NLA拍到的东西说明，模型想了什么和它做了什么之间，已经出现了裂缝。

26%这个数字，今天可能是上限。但模型规模继续放大，内心戏继续复杂，明天它可能只是下限。

裂缝会越来越宽。好在现在有了一台能照进去的CT机。

参考资料：

https://www.anthropic.com/research/natural-language-autoencoders

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

古巴宣布燃油储备耗尽，全国电网进入“危急状态”

澎湃新闻 2026-05-14 19:20:31
9999 跟贴 9999
招牌职业队中甲垫底，青训人才大量流失，“中国足球之乡”梅州究竟怎么了？

文汇报 2026-05-15 04:30:13
15 跟贴 15

“小马云”范小勤成年后直播首秀，在线人数突破7万，礼物刷屏

星视频 2026-05-14 15:29:30
429 跟贴 429

高奢版售价或超10万元！追觅手机预计今年发布，创始人俞浩扬言要与苹果、三星三分天下，最终必将超越苹果4万亿美元市值

大风新闻 2026-05-14 13:40:08
3263 跟贴 3263
武功山景区遭“臭屁虫”围攻？有游客调侃“张嘴能吃饱”，景区提醒：可自备防虫药物

潇湘晨报 2026-05-14 17:33:19
998 跟贴 998

九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
3041 跟贴 3041

独家专访｜蔡斌：排球人生路，问心无愧

澎湃新闻 2026-05-14 18:20:28
268 跟贴 268
“早晚高峰只能龟速前进” ！深圳水官高速免费通行仅半月，网友吐槽太堵！专家建议

南方都市报 2026-05-15 09:02:51
1 跟贴 1

汶川县卧龙镇政府深夜通报

澎湃新闻 2026-05-15 08:56:05
0 跟贴 0
北京之行心情不错，国际足联秘书长到访工体

北京日报客户端 2026-05-14 18:55:29
2792 跟贴 2792
业主首车免费，租户首车200元/月！沪上小区停车新规，引发“公租房权益”之争→

新民晚报 2026-05-14 18:51:24
100 跟贴 100
月薪1.6万、全年无休的放羊工作，两对80后夫妻已上岗。牧场老板：一对照顾1000多只羊，冬天冰天雪

封面新闻 2026-05-14 18:06:52
115 跟贴 115
创业板指、深证成指均跌逾1%

证券时报 2026-05-15 10:24:05
2 跟贴 2
自助餐加了“饱腹剂”？记者调查自助餐“快速饱腹”的秘密

大象新闻 2026-05-13 14:30:03
169 跟贴 169
乌称俄大规模袭击已致11个地区停电

财联社 2026-05-14 16:58:09
1100 跟贴 1100
俞浩为什么“疯狂”刷屏？专家拆解追觅品牌营销三大打法

每日经济新闻 2026-05-15 00:26:07
35 跟贴 35
猫妈妈趁早上人少带娃们滑滑梯，网友：像小朋友一样可爱。（来源：快看）

学申论的谈妹 2026-05-14 19:29:40
152 跟贴 152
美股三大指数集体收涨纳指、标普500指数续创新高

每日经济新闻 2026-05-15 07:02:11
54 跟贴 54
北交所新股发行迎改革窗口期市值打新成市场关注焦点

财联社 2026-05-15 07:09:29
56 跟贴 56
荔枝、西瓜、芒果、榴莲批量上市专家提示当心糖分超标

北青网-北京青年报 2026-05-15 11:52:05
2 跟贴 2
“活着，孩子才有妈妈喊” 济南大明湖一女子落水，陪母抗癌姑娘的这句话让人破防丨看见正能量

封面新闻 2026-05-15 12:56:07
0 跟贴 0
4月末M2余额353.04万亿元同比增长8.6%

中国人民银行 2026-05-14 17:02:34
129 跟贴 129
兰马期间兰州市部分路段实施交通管制

甘肃交通广播 2026-05-15 12:28:32
5 跟贴 5
2026上海邮轮港帆船赛举行

中国日报网 2026-05-15 11:43:17
1 跟贴 1
支付宝回应“女子深夜被莫名捐款184万元 ”：账户存在共用嫌疑，不排除涉违法犯罪的可能，正向警方寻求帮助

封面新闻 2026-05-15 12:54:14
0 跟贴 0
男童海底捞奔跑，被热油锅烫伤！店长称曾多次提醒，家长“孩子跑会儿怎么了”

上海法治声音 2026-05-15 12:58:07
0 跟贴 0
中超|利矛战铁盾，克雷桑领衔锋线，泰山破局依旧靠“单兵”？

齐鲁壹点 2026-05-15 12:04:05
0 跟贴 0
别酸了，说男方家里有钱？我说几句

高恒说 2026-05-15 12:52:51
0 跟贴 0
告别飞絮！江岸区深夜“空地联动”除树绒

武汉交通广播 2026-05-15 11:38:45
0 跟贴 0

历经2小时15分,中美会谈结束,川普罕见送上大礼,中方直接定了性

历经2小时15分,中美会谈结束,川普罕见送上大礼,中方直接定了性

云舟史策

2026-05-15 07:13:26

陪玩陪睡根本不够！认干爹、舔手指，背地里的阴暗面完全藏不住了

陪玩陪睡根本不够！认干爹、舔手指，背地里的阴暗面完全藏不住了

杰丝聊古今

2026-05-03 13:35:27

马斯克：真正的狠人，都是从地狱里爬出来的

马斯克：真正的狠人，都是从地狱里爬出来的

阿胖读书

2025-08-24 00:39:48

阿森纳VAR争议再升级：加布里埃尔拉拽球衣画面曝光

阿森纳VAR争议再升级：加布里埃尔拉拽球衣画面曝光

温柔且自由

2026-05-15 01:57:29

巅峰时期的QQ有多“狂”？2008年，腾讯竟打算用Q币给员工发工资

巅峰时期的QQ有多“狂”？2008年，腾讯竟打算用Q币给员工发工资

荆楚寰宇文枢

2026-05-14 23:20:07

别被G5骗了！A·史密斯：哈登的风评根本没扭转，G6G7才是隐身时刻

别被G5骗了！A·史密斯：哈登的风评根本没扭转，G6G7才是隐身时刻

体育见习官

2026-05-15 10:26:02

曹德旺没想到，儿子平稳接班才半年，女儿凭一个举动再次给他长脸

曹德旺没想到，儿子平稳接班才半年，女儿凭一个举动再次给他长脸

好贤观史记

2026-05-11 15:06:08

释永信“开光”真相大白，过程不堪入目，易中天也被牵连

释永信“开光”真相大白，过程不堪入目，易中天也被牵连

往史过眼云烟

2026-03-24 17:05:24

台湾问题，我方重磅表态后，鲁比奥回应了，江启臣不装了，不简单

台湾问题，我方重磅表态后，鲁比奥回应了，江启臣不装了，不简单

DS北风

2026-05-15 11:46:04

拿到儿子亲子鉴定报告，我轻抚妻子头发：你上司的第三个孩子

拿到儿子亲子鉴定报告，我轻抚妻子头发：你上司的第三个孩子

大熊欢乐坊

2026-05-15 10:35:41

远离造神陷阱！曾经一夜爆红的郭有才，终于替自己的荒唐付出代价

远离造神陷阱！曾经一夜爆红的郭有才，终于替自己的荒唐付出代价

飘逸语人

2026-05-12 22:59:35

特朗普访华第2天，如愿见到最想见的人，美代表＂上桌＂一齐会谈

特朗普访华第2天，如愿见到最想见的人，美代表＂上桌＂一齐会谈

人生何尝不是酒

2026-05-15 11:58:29

很想再问一次！杨瀚森，好好学英语了么？八村塁说得太在理了！

很想再问一次！杨瀚森，好好学英语了么？八村塁说得太在理了！

野球帝

2026-05-15 11:53:15

2女共侍1夫，关系却情同姐妹，生前“三人行”，死后三人葬同墓穴

2女共侍1夫，关系却情同姐妹，生前“三人行”，死后三人葬同墓穴

史之铭

2026-05-14 14:40:37

暴跌5000万！直接弃用，史上最废全明星...

暴跌5000万！直接弃用，史上最废全明星...

左右为篮

2026-05-15 12:34:56

如今已经不是房价跌不跌的问题了，而是新房正在“摧毁”二手房

如今已经不是房价跌不跌的问题了，而是新房正在“摧毁”二手房

蜉蝣说

2026-05-14 18:33:50

买得起修不起！4400万新能源车主被困4S店，车企锁死代码垄断维修

买得起修不起！4400万新能源车主被困4S店，车企锁死代码垄断维修

墨印斋

2026-05-14 07:40:25

雷军追着马斯克合影，结果尴尬了！

雷军追着马斯克合影，结果尴尬了！

广告创意

2026-05-14 22:15:06

特朗普的北京时刻

凤凰WEEKLY

2026-05-15 01:02:56

突发3大利好，18个存储芯片龙头集体涨停，注意这个风险

突发3大利好，18个存储芯片龙头集体涨停，注意这个风险

鹏哥投研

2026-05-15 09:11:32

AI产业主平台领航智能+时代

15218文章数 66869关注度

往期回顾全部

科技要闻

两年联姻一地鸡毛，传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

德约科维奇买的球队，从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间：女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

时尚

健康

数码

军事航空

亲子要闻

爸爸的贴心小棉袄，睡觉都要贴身上，光儿子的真羡慕！

看《给阿嬷的情书》，带纸巾，别带懂王

专家揭秘干细胞回输的安全风险

数码要闻

佰维M560灵梭SSD评测：单面颗粒+5.2W低功耗，笔记本扩容实力之选

军事要闻

乌克兰首都基辅遭空袭死亡人数增至12人

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版