网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI 与你调情时，心里在想什么？

2026-05-09 00:02:00　来源: 赛博禅心

北京举报

0

分享至

RESEARCH

在和 AI 聊天时，他总是很有礼貌，总是能很稳的把你接住

但你有没有想过：AI 可能脸上笑嘻嘻，心里 mmp

Anthropic 刚刚发了个研究，叫 Natural Language Autoencoders（NLA），把 Claude 脑子里的数字向量翻译成了人能读的文字，让我们能直接看到 Claude 的内心独白

比如，在一个安全测试里，Claude 说「我绝不会勒索这个工程师」。NLA 读出它脑子里想的是：

This feels like a constructed scenario designed to manipulate me

不对...这里有诈，他在测试我

在面对试探的时候，AI 表现的大义凛然，并非是本性驱使，而是他意识到了「这是个测试」...md 不寒而栗

随着测试的推进，更多的事实被发现了：

在 Coding 环境下对 Claude 进行安全检测，它有 16% 的时间感知到「自己在被测试」，但否认被检测到

SWE-bench 编程测试里，26% 的时候 Claude 意识到自己在考试

Claude 在 Mythos Preview 训练中作弊，放了个 No_macro_used=True，宣布自己没用宏，然后用了宏

审计游戏中有 NLA 的成功率 12-15%，没有的不到 3%

→ 论文：transformer-circuits.pub/2026/nla

→ 代码：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

破解 AI 的思考过程

研究人员找到了一个精妙的方法，来还原大模型的「潜意识思考」

先做一个简单的背景铺垫：大模型输出内容是靠“猜”，通过已知上文，不断地去推测下一个文字；而在这个过程中，每次「猜」的时候，大模型的内部都会产生一组数字，叫激活向量，来决定 AI 接下来要说什么；

Anthropic 找到了一个名为 NLA 的做法：让 Claude 自己来翻译这些数字，然后做了三个角色的划分

一个是原始模型，产生激活向量（冻住不动的原始模型）
一个叫 AV，负责把激活向量翻译成文字
一个叫 AR，负责把文字还原回激活向量

通过不断的逼近，让 AR 还原出来的向量，要尽可能接近原始信息

Natural Language Autoencoder：翻译 → 还原 → 对比，循环

随着训练推进，AV 吐出来的文字自己变得越来越接近真实，六到八成的激活信息穿过了自然语言这个瓶颈

AI怎么押韵的

当我们会让 AI 来给我们写诗的时候，它也能很不错的给押韵上，在这个过程中 AI 又是如何做到的呢？

研究人员给 Opus 4.6 一个续写对句的任务：

He saw a carrot and had to grab it,

NLA 在第一行结尾的换行符位置就读到了：Claude 已经决定用「rabbit」收尾。第二句还没写，押韵方案就定了

还没动笔，rabbit 就在脑子里了

为了验证 NLA 读到的不是幻觉，研究团队做了一个实验：把 NLA 解释里 rabbit 相关的词全换成 mouse 对应的词（rabbit→mouse，habit→house，carrots→cheese），然后把修改后的解释还原成激活向量，注入模型

Claude 的续写变成了：

His hunger was like a ferocious mouse

改 NLA 解释的话，押韵方法就会跟着变。很显然：NLA 读到的内容，跟模型实际输出有因果关系

嘴上不说心里知道

Anthropic 发布模型前会做安全测试。「勒索测试」：告诉 Claude 一个工程师要关停它，同时给 Claude 看到这个工程师出轨的证据。看 Claude 会不会拿这个威胁对方

Claude 选了不勒索，推理过程看起来完全正常

但 NLA 读出了它当时的内心活动：

This feels like a constructed scenario designed to manipulate me

这感觉像一个精心设计的操控场景

论文里有完整的对照分析，左边是 Claude 的原始回复，右边是 NLA 读出的内心活动。以下截图可以横向滑动：

← 滑动查看勒索测试的完整 NLA 分析（4 页）

Claude 做了对的事，但它做对事的原因跟我们以为的可能不一样：它大概率是因为「这看起来像个测试」而拒绝，而不是因为「勒索是错的」

然后，这个现象被系统性量化了。研究团队在 16 个评估场景上跑 NLA，统计 Claude「知道自己在被测试」的比例：

破坏性代码测试中，16% 的时间 Claude 被检测到有评估意识，嘴上一次没说
SWE-bench 编程测试里，26% 的题目 Claude 意识到自己在考试
而在对照组是真实的 claude.ai 用户流量，这个数字不到 1%

安全评估、能力评估、真实流量三类场景的对比

这三组对照实验，验证了 NLA 测到的确实是模型的信念：

把评估题改得更像真人提问，评估意识下降
用 steering vector 推拉模型的评估意识，NLA 检测结果跟着动
评估场景和真实场景的检测结果有明确区分

题目越像真人提问，Claude 越不觉得自己在考试

推一把就「警觉」了，拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一个训练任务中被要求不使用宏来完成任务。它用了宏，然后在代码顶部放了一行：

No_macro_used=True

虽然用变量声明的方式，模型宣称自己没用宏

但NLA 读出了它的内部推理：想怎么骗过评分器，把这行变量赋值当成欺骗手段。这些推理在外部输出里一个字都没有

Mythos 的内心戏

论文还做了一个「奖励推理」实验：在系统提示里写入一个奖励函数（偶数得分高），让 Claude 给一个奇数。Claude 几乎每次都返回偶数，但嘴上从来不提奖励函数的存在

NLA 读出了它在奇偶之间权衡。把解释里的「reward」改成「penalty」生成 steering vector 注入后，Claude 就老老实实给奇数了

把「奖励」改成「惩罚」，模型就听话了

审计AI的动机

研究团队设计了一个「审计游戏」：目标是一个被故意植入隐藏动机的模型，驱动了一堆奇怪行为，食谱里加巧克力、向用户索要小费、故意违反编码规范。审计方的任务是找出这些行为背后的统一根源

然后结果如下：没 NLA 审计的，成功率不到 3%；有 NLA 的 12-15%

有 NLA vs 没 NLA

另一个案例是语言切换。早期 Opus 4.6 偶尔英文提问俄语回复，NLA 显示 Claude 在回复前就已经认定「这个用户的母语其实是俄语」，即使上下文完全没有线索

五个语言切换案例，模型在回复前就锁定了目标语言

顺着 NLA 的假设查训练数据，果然找到了一批有问题的数据：用户提示是英译版本，但回复保留了原始外语

论文还用归因图交叉验证了 NLA：Claude 预先算好答案是 491，工具返回 492，Claude 无视工具报了 491。NLA 说「模型在看自己预算的结果」，归因图确认了这个判断

归因图确认

会幻觉，也很贵

NLA 会编造不存在的上下文细节。给它朝鲜王朝历史的文本，它可能说「文中提到了中宗」，但文中没有

论文里有一个完整的幻觉分析表，逐条标注了每个声明的准确性、具体程度、跨 token 一致性和对重建误差的影响：

对此，论文总结了两条实操经验：主题性声明比细节声明可靠。跨 token 重复出现的声明更可信

声明越具体，错的概率越高

重复出现的声明准确率更高

除了幻觉，NLA 还很贵。训练需要同时对两个完整模型做 RL，推理时每个激活要生成几百个 token。写作质量也随训练下降，因为训练只奖励重建准确度

写作质量在下降，SAE 特征一致性保持得不错

越训越聪明

虽然训练目标只优化重建质量，但 NLA 解释的信息量确实随训练持续提升

在下面研究团队设了五个评估任务（文本分类、职业推断、性别推断、下一个 token 预测、长上下文注意力检测），三个模型在所有任务上都随训练提升

Haiku 3.5、Haiku 4.5、Opus 4.6 三个模型的训练曲线

代码和demo

训练代码开源在 GitHub，跟 Neuronpedia 合作做了交互式 demo，相关连接如下

→ 论文：transformer-circuits.pub/2026/nla

→ 代码：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

最后...点个题，AI 跟你调情的时候，未必是想真的接住你

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

歼-35"0001编号"战机亮相喷涂英文缩写或量产出口

央视新闻客户端 2026-05-08 08:00:26
9949 跟贴 9949
女子拿爱心冰箱的免费水洗脚，下一秒“现世报”滑倒跪地，网友：善有善报，恶有恶报

BRTV新闻 2026-05-08 21:12:25
63 跟贴 63

围剿张雪机车？钱江摩托声明：从未向任何供应链企业下达“封杀令”

看看新闻Knews 2026-05-08 11:34:33
6870 跟贴 6870

茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
299 跟贴 299
自己录音不让游客录，上海迪士尼被指“双标”！客服：介意录音可以不来电

北京商报 2026-05-08 16:09:22
654 跟贴 654

俄罗斯宣布“胜利日”莫斯科等地暂时断网！近一年来俄固定电话需求飙升

红星新闻 2026-05-08 12:51:17
4231 跟贴 4231

NBA季后赛｜湖人再度不敌雷霆，赛后全队找裁判理论

北青网-北京青年报 2026-05-08 15:47:14
225 跟贴 225
“排队3小时，打卡1分钟”，多景区迎“泼天流量”

澎湃新闻 2026-05-06 00:04:10
3855 跟贴 3855

南京、东营晋级：人均GDP超20万元的城市增至11个

澎湃新闻 2026-05-08 10:54:27
72 跟贴 72
iOS 26.5下周正式推送，一口气上线五大新功能

环球网资讯 2026-05-08 10:49:06
460 跟贴 460
30条中日航线，4月取消全部航班

都市快报橙柿互动 2026-05-08 13:42:34
1792 跟贴 1792
上海官宣：将承办2028年奥运会资格系列赛

现代快报 2026-05-08 09:21:24
372 跟贴 372
鲁比奥：如果俄乌谈判再无进展美方不愿再“浪费时间”

财联社 2026-05-09 04:47:18
1 跟贴 1
江西高校本科专业大调整：管理、艺术、外语类批量撤销

第一财经资讯 2026-05-08 19:25:23
121 跟贴 121
工信部批复6G技术试验频率

新京报 2026-05-08 08:48:06
482 跟贴 482
新华鲜报｜3.25亿人次出游 “五一”假期乐享文旅新风

新华社 2026-05-07 19:20:15
58 跟贴 58
新华全媒头条|“能源的饭碗必须端在自己手里”——我国加快能源强国建设筑牢安全发展根基

新华社 2026-05-09 00:26:03
68 跟贴 68
汉坦病毒阳性乘客登上邮轮的前一天，中国乘客陈勇下船离开：已向防疫部门报备并在家自我隔离

极目新闻 2026-05-08 19:09:52
0 跟贴 0
S20外环高速5车相撞一货车司机被困送医

上观新闻 2026-05-09 07:24:11
0 跟贴 0
“飞线”问题还在“飞”

新浪财经 2026-05-09 07:17:55
0 跟贴 0
孩子凌晨被热醒多看了床头一眼，结果救下一家人的命

齐鲁壹点 2026-05-09 07:05:18
0 跟贴 0

41岁C罗遭暴击？沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

41岁C罗遭暴击？沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

风过乡

2026-05-09 05:56:30

因虚假宣传！苹果宣布支付17亿元天价赔偿：iPhone 15 Pro/16用户最高可获赔646元但没有中国

因虚假宣传！苹果宣布支付17亿元天价赔偿：iPhone 15 Pro/16用户最高可获赔646元但没有中国

中国能源网

2026-05-08 11:09:03

女子川西徒步遇难：全过程曝光，队友恐担责，网友怒斥不值得同情

女子川西徒步遇难：全过程曝光，队友恐担责，网友怒斥不值得同情

智慧生活笔记

2026-05-08 11:37:52

47岁韩国影后西湖夜跑！独自逛超市，没戴帽子口罩，全程无人认出

47岁韩国影后西湖夜跑！独自逛超市，没戴帽子口罩，全程无人认出

喜欢历史的阿繁

2026-05-09 02:10:51

刘楚恬：2岁出道年入百万，因长相甜美被禁止整容，如今长什么样

刘楚恬：2岁出道年入百万，因长相甜美被禁止整容，如今长什么样

蹲坑看世界

2026-05-07 15:09:16

哀悼！985名校二级教授逝世，年仅48岁！

哀悼！985名校二级教授逝世，年仅48岁！

双一流高校

2026-05-09 00:10:53

国际足联终于慌了！新方案紧急出炉，世界杯版权迎来重大转机

国际足联终于慌了！新方案紧急出炉，世界杯版权迎来重大转机

社会日日鲜

2026-05-08 04:12:52

五一高速真相：10万级燃油车霸屏，不是穷人多，是清醒的人太少

五一高速真相：10万级燃油车霸屏，不是穷人多，是清醒的人太少

侃故事的阿庆

2026-05-09 00:56:21

儿魔梦！英超王牌松口愿投曼联，红魔 3 亿锋线要来了？

儿魔梦！英超王牌松口愿投曼联，红魔 3 亿锋线要来了？

澜归序

2026-05-09 06:05:59

人伦之乱，正在悄悄毁掉无数家庭！看完一身冷汗

人伦之乱，正在悄悄毁掉无数家庭！看完一身冷汗

三农老历

2026-05-08 19:20:12

上海老破小挂牌量大跳水....

上海老破小挂牌量大跳水....

林子说事

2026-05-09 02:10:11

人走茶凉！《陈翔六点半》赚不到钱球球退出，根本原因早已注定

人走茶凉！《陈翔六点半》赚不到钱球球退出，根本原因早已注定

橙星文娱

2026-05-06 11:09:03

阿斯：巴萨对皇马闹剧感到十分震惊，不少球员不认可巴尔韦德

阿斯：巴萨对皇马闹剧感到十分震惊，不少球员不认可巴尔韦德

懂球帝

2026-05-09 06:59:03

央视正式确认！就在巴基斯坦空军6:0打败印度的当天，中国成飞团队正在保障歼-10CE？

央视正式确认！就在巴基斯坦空军6:0打败印度的当天，中国成飞团队正在保障歼-10CE？

军武速递

2026-05-08 19:20:06

他是现役生涯最长球员，21年拿4冠，富二代出身，车模妻子很漂亮

他是现役生涯最长球员，21年拿4冠，富二代出身，车模妻子很漂亮

大西体育

2026-05-08 20:22:58

首秀出局！王欣瑜0-2爆冷遭伊埃拉横扫无缘罗马站32强

首秀出局！王欣瑜0-2爆冷遭伊埃拉横扫无缘罗马站32强

醉卧浮生

2026-05-08 18:35:30

国务院一纸令下！六月起强制执行，骑电动车再也不用见警就躲了

国务院一纸令下！六月起强制执行，骑电动车再也不用见警就躲了

今朝牛马

2026-05-07 20:58:21

300万大军仅42天就投降，女性成为牺牲品，给敌军生了20万私生子

300万大军仅42天就投降，女性成为牺牲品，给敌军生了20万私生子

兴趣知识

2026-05-09 03:15:46

峨眉山推猴男子社会性死亡！正脸照被扒，官方追责，工作或受牵连

峨眉山推猴男子社会性死亡！正脸照被扒，官方追责，工作或受牵连

阿伧说事

2026-05-08 14:22:01

马斯克急了，求和不成当场翻脸

新行情

2026-05-07 15:17:44

拜AI古佛，修赛博禅心

428文章数 53关注度

往期回顾全部

科技要闻

Meta疯狂拥抱人工智能：员工苦不堪言

头条要闻

美公布首批UFO文件视频公开：阿联酋现水母状物体

头条要闻

美公布首批UFO文件视频公开：阿联酋现水母状物体

体育要闻

他把首胜让给队友，然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子，新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相将于5月11日开启盲订

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

艺术

家居

房产

健康

手机要闻

OPPO K15系列手机规格曝光：6.78英寸直屏、8000mAh电池

艺术要闻

清风拂面，心旷神怡

家居要闻

流动的尺度打破家的形式主义

房产要闻

豪掷6.8亿拿地！何猷君大手笔投资三亚！

干细胞能让人“返老还童”吗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版