网易首页 > 网易号 > 正文 申请入驻

AI 与你调情时,心里在想什么?

0
分享至

RESEARCH

在和 AI 聊天时,他总是很有礼貌,总是能很稳的把你接住

但你有没有想过:AI 可能脸上笑嘻嘻,心里 mmp


Anthropic 刚刚发了个研究,叫 Natural Language Autoencoders(NLA),把 Claude 脑子里的数字向量翻译成了人能读的文字,让我们能直接看到 Claude 的内心独白

比如,在一个安全测试里,Claude 说「我绝不会勒索这个工程师」。NLA 读出它脑子里想的是:

This feels like a constructed scenario designed to manipulate me

不对...这里有诈,他在测试我

在面对试探的时候,AI 表现的大义凛然,并非是本性驱使,而是他意识到了「这是个测试」...md 不寒而栗

随着测试的推进,更多的事实被发现了:

在 Coding 环境下对 Claude 进行安全检测,它有 16% 的时间感知到「自己在被测试」,但否认被检测到

SWE-bench 编程测试里,26% 的时候 Claude 意识到自己在考试

Claude 在 Mythos Preview 训练中作弊,放了个 No_macro_used=True,宣布自己没用宏,然后用了宏

审计游戏中有 NLA 的成功率 12-15%,没有的不到 3%

→ 论文:transformer-circuits.pub/2026/nla

→ 代码:github.com/kitft/natural_language_autoencoders

→ Demo:neuronpedia.org/nla

破解 AI 的思考过程

研究人员找到了一个精妙的方法,来还原大模型的「潜意识思考」

先做一个简单的背景铺垫:大模型输出内容是靠“猜”,通过已知上文,不断地去推测下一个文字;而在这个过程中,每次「猜」的时候,大模型的内部都会产生一组数字,叫激活向量,来决定 AI 接下来要说什么;

Anthropic 找到了一个名为 NLA 的做法:让 Claude 自己来翻译这些数字,然后做了三个角色的划分

  • 一个是原始模型,产生激活向量(冻住不动的原始模型)

  • 一个叫 AV,负责把激活向量翻译成文字

  • 一个叫 AR,负责把文字还原回激活向量

通过不断的逼近,让 AR 还原出来的向量,要尽可能接近原始信息


Natural Language Autoencoder:翻译 → 还原 → 对比,循环

随着训练推进,AV 吐出来的文字自己变得越来越接近真实,六到八成的激活信息穿过了自然语言这个瓶颈

AI怎么押韵的

当我们会让 AI 来给我们写诗的时候,它也能很不错的给押韵上,在这个过程中 AI 又是如何做到的呢?

研究人员给 Opus 4.6 一个续写对句的任务:

He saw a carrot and had to grab it,

NLA 在第一行结尾的换行符位置就读到了:Claude 已经决定用「rabbit」收尾。第二句还没写,押韵方案就定了


还没动笔,rabbit 就在脑子里了

为了验证 NLA 读到的不是幻觉,研究团队做了一个实验:把 NLA 解释里 rabbit 相关的词全换成 mouse 对应的词(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解释还原成激活向量,注入模型

Claude 的续写变成了:

His hunger was like a ferocious mouse

改 NLA 解释的话,押韵方法就会跟着变。很显然:NLA 读到的内容,跟模型实际输出有因果关系

嘴上不说心里知道

Anthropic 发布模型前会做安全测试。「勒索测试」:告诉 Claude 一个工程师要关停它,同时给 Claude 看到这个工程师出轨的证据。看 Claude 会不会拿这个威胁对方

Claude 选了不勒索,推理过程看起来完全正常

但 NLA 读出了它当时的内心活动:

This feels like a constructed scenario designed to manipulate me

这感觉像一个精心设计的操控场景

论文里有完整的对照分析,左边是 Claude 的原始回复,右边是 NLA 读出的内心活动。以下截图可以横向滑动:





← 滑动查看勒索测试的完整 NLA 分析(4 页)

Claude 做了对的事,但它做对事的原因跟我们以为的可能不一样:它大概率是因为「这看起来像个测试」而拒绝,而不是因为「勒索是错的」

然后,这个现象被系统性量化了。研究团队在 16 个评估场景上跑 NLA,统计 Claude「知道自己在被测试」的比例:

  • 破坏性代码测试中,16% 的时间 Claude 被检测到有评估意识,嘴上一次没说

  • SWE-bench 编程测试里,26% 的题目 Claude 意识到自己在考试

  • 而在对照组是真实的 claude.ai 用户流量,这个数字不到 1%


安全评估、能力评估、真实流量三类场景的对比

这三组对照实验,验证了 NLA 测到的确实是模型的信念:

  • 把评估题改得更像真人提问,评估意识下降

  • 用 steering vector 推拉模型的评估意识,NLA 检测结果跟着动

  • 评估场景和真实场景的检测结果有明确区分


题目越像真人提问,Claude 越不觉得自己在考试


推一把就「警觉」了,拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一个训练任务中被要求不使用宏来完成任务。它用了宏,然后在代码顶部放了一行:

No_macro_used=True

虽然用变量声明的方式,模型宣称自己没用宏

但NLA 读出了它的内部推理:想怎么骗过评分器,把这行变量赋值当成欺骗手段。这些推理在外部输出里一个字都没有


Mythos 的内心戏

论文还做了一个「奖励推理」实验:在系统提示里写入一个奖励函数(偶数得分高),让 Claude 给一个奇数。Claude 几乎每次都返回偶数,但嘴上从来不提奖励函数的存在

NLA 读出了它在奇偶之间权衡。把解释里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老老实实给奇数了


把「奖励」改成「惩罚」,模型就听话了

审计AI的动机

研究团队设计了一个「审计游戏」:目标是一个被故意植入隐藏动机的模型,驱动了一堆奇怪行为,食谱里加巧克力、向用户索要小费、故意违反编码规范。审计方的任务是找出这些行为背后的统一根源

然后结果如下:没 NLA 审计的,成功率不到 3%;有 NLA 的 12-15%


有 NLA vs 没 NLA

另一个案例是语言切换。早期 Opus 4.6 偶尔英文提问俄语回复,NLA 显示 Claude 在回复前就已经认定「这个用户的母语其实是俄语」,即使上下文完全没有线索


五个语言切换案例,模型在回复前就锁定了目标语言

顺着 NLA 的假设查训练数据,果然找到了一批有问题的数据:用户提示是英译版本,但回复保留了原始外语

论文还用归因图交叉验证了 NLA:Claude 预先算好答案是 491,工具返回 492,Claude 无视工具报了 491。NLA 说「模型在看自己预算的结果」,归因图确认了这个判断


归因图确认

会幻觉,也很贵

NLA 会编造不存在的上下文细节。给它朝鲜王朝历史的文本,它可能说「文中提到了中宗」,但文中没有

论文里有一个完整的幻觉分析表,逐条标注了每个声明的准确性、具体程度、跨 token 一致性和对重建误差的影响:


对此,论文总结了两条实操经验:主题性声明比细节声明可靠。跨 token 重复出现的声明更可信


声明越具体,错的概率越高


重复出现的声明准确率更高

除了幻觉,NLA 还很贵。训练需要同时对两个完整模型做 RL,推理时每个激活要生成几百个 token。写作质量也随训练下降,因为训练只奖励重建准确度


写作质量在下降,SAE 特征一致性保持得不错

越训越聪明

虽然训练目标只优化重建质量,但 NLA 解释的信息量确实随训练持续提升

在下面研究团队设了五个评估任务(文本分类、职业推断、性别推断、下一个 token 预测、长上下文注意力检测),三个模型在所有任务上都随训练提升


Haiku 3.5、Haiku 4.5、Opus 4.6 三个模型的训练曲线

代码和demo

训练代码开源在 GitHub,跟 Neuronpedia 合作做了交互式 demo,相关连接如下

→ 论文:transformer-circuits.pub/2026/nla

→ 代码:github.com/kitft/natural_language_autoencoders

→ Demo:neuronpedia.org/nla

最后...点个题,AI 跟你调情的时候,未必是想真的接住你


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
41岁C罗遭暴击?沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

41岁C罗遭暴击?沙特巨头2-1夺沙王冠+4年3冠 4天后与胜利大决战

风过乡
2026-05-09 05:56:30
因虚假宣传!苹果宣布支付17亿元天价赔偿:iPhone 15 Pro/16用户最高可获赔646元 但没有中国

因虚假宣传!苹果宣布支付17亿元天价赔偿:iPhone 15 Pro/16用户最高可获赔646元 但没有中国

中国能源网
2026-05-08 11:09:03
女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

智慧生活笔记
2026-05-08 11:37:52
47岁韩国影后西湖夜跑!独自逛超市,没戴帽子口罩,全程无人认出

47岁韩国影后西湖夜跑!独自逛超市,没戴帽子口罩,全程无人认出

喜欢历史的阿繁
2026-05-09 02:10:51
刘楚恬:2岁出道年入百万,因长相甜美被禁止整容,如今长什么样

刘楚恬:2岁出道年入百万,因长相甜美被禁止整容,如今长什么样

蹲坑看世界
2026-05-07 15:09:16
哀悼!985名校二级教授逝世,年仅48岁!

哀悼!985名校二级教授逝世,年仅48岁!

双一流高校
2026-05-09 00:10:53
国际足联终于慌了!新方案紧急出炉,世界杯版权迎来重大转机

国际足联终于慌了!新方案紧急出炉,世界杯版权迎来重大转机

社会日日鲜
2026-05-08 04:12:52
五一高速真相:10万级燃油车霸屏,不是穷人多,是清醒的人太少

五一高速真相:10万级燃油车霸屏,不是穷人多,是清醒的人太少

侃故事的阿庆
2026-05-09 00:56:21
儿魔梦!英超王牌松口愿投曼联,红魔 3 亿锋线要来了?

儿魔梦!英超王牌松口愿投曼联,红魔 3 亿锋线要来了?

澜归序
2026-05-09 06:05:59
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
上海老破小挂牌量大跳水....

上海老破小挂牌量大跳水....

林子说事
2026-05-09 02:10:11
人走茶凉!《陈翔六点半》赚不到钱球球退出,根本原因早已注定

人走茶凉!《陈翔六点半》赚不到钱球球退出,根本原因早已注定

橙星文娱
2026-05-06 11:09:03
阿斯:巴萨对皇马闹剧感到十分震惊,不少球员不认可巴尔韦德

阿斯:巴萨对皇马闹剧感到十分震惊,不少球员不认可巴尔韦德

懂球帝
2026-05-09 06:59:03
央视正式确认!就在巴基斯坦空军6:0打败印度的当天,中国成飞团队正在保障歼-10CE?

央视正式确认!就在巴基斯坦空军6:0打败印度的当天,中国成飞团队正在保障歼-10CE?

军武速递
2026-05-08 19:20:06
他是现役生涯最长球员,21年拿4冠,富二代出身,车模妻子很漂亮

他是现役生涯最长球员,21年拿4冠,富二代出身,车模妻子很漂亮

大西体育
2026-05-08 20:22:58
首秀出局!王欣瑜0-2爆冷遭伊埃拉横扫 无缘罗马站32强

首秀出局!王欣瑜0-2爆冷遭伊埃拉横扫 无缘罗马站32强

醉卧浮生
2026-05-08 18:35:30
国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

今朝牛马
2026-05-07 20:58:21
300万大军仅42天就投降,女性成为牺牲品,给敌军生了20万私生子

300万大军仅42天就投降,女性成为牺牲品,给敌军生了20万私生子

兴趣知识
2026-05-09 03:15:46
峨眉山推猴男子社会性死亡!正脸照被扒,官方追责,工作或受牵连

峨眉山推猴男子社会性死亡!正脸照被扒,官方追责,工作或受牵连

阿伧说事
2026-05-08 14:22:01
马斯克急了,求和不成当场翻脸

马斯克急了,求和不成当场翻脸

新行情
2026-05-07 15:17:44
2026-05-09 07:55:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
428文章数 53关注度
往期回顾 全部

科技要闻

Meta疯狂拥抱人工智能:员工苦不堪言

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

手机
艺术
家居
房产
健康

手机要闻

OPPO K15系列手机规格曝光:6.78英寸直屏、8000mAh电池

艺术要闻

清风拂面,心旷神怡

家居要闻

流动的尺度 打破家的形式主义

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版