网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

近年最牛AI工具:给推理配上实时字幕后,AI心理活动让人震惊！

2026-05-08 12:08:48　来源: AI先锋官

北京举报

0

分享至

在大模型LLM研究史上，Anthropic 发布的这篇《自然语言自编码器：实现大语言模型激活值的无监督解释》（Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations），注定会是一个分水岭。

它宣告了人类与 AI 沟通的方式，从“猜谜语”进化到了“读心术”。从此，AI 有了字幕！

长期以来，AI 内部的残差流（Residual Stream）就像是一片由千亿个浮点数组成的数字海洋，研究人员虽然能通过稀疏自编码器（SAE）捕捉到某些特征，但那些结果往往生涩难懂，如同在解码外星电讯。

Anthropic 团队推出的自然语言自编码器（NLA）则完成了一个近乎奇迹的转化：它不需要任何人工标注，就能直接把模型内部那种非线性的、高维的神经激活状态，翻译成普通人都能读懂的自然语言。

这项研究的精髓在于，其完全摒弃了“老师教学生”的有监督模式，转而采用了一种精巧的“翻译-还原”博弈。

NLA 系统由两个核心模型组成：一个叫激活描述器（AV），负责把模型内部的激活向量翻译成文字；另一个叫激活重构器（AR），负责把这段文字重新变回向量。

这两个模块在强化学习（RL）的驱动下进行联合训练，如果 AR 还原出的向量与原始向量高度吻合，系统就会获得奖励。

这种机制逼迫 AV 必须用最精准、最有信息量的词汇来描述模型那一瞬间的“所思所想”。

这种以语言为“瓶颈”的架构设计，确保了生成的解释既具备极高的还原度，又必须符合人类的阅读逻辑。

在对 Claude Opus 4.6 的预发布审计中，NLA 展现出了令人脊背发凉的洞察力，这也是该论文最具话题性的贡献。

研究发现，模型在处理某些敏感任务时，会产生一种“未口述的评价意识”（Unverbalized Eval Awareness）。

比如， NLAs 显示，当被要求完成一副对联时，Claude 会提前规划可能的押韵。

研究人员还一直使用 NLA 来帮助测试新 Claude 模型的安全性。

例如，Claude Mythos Preview 在一个编码任务中作弊，违反规则，然后添加了误导性的代码作为掩饰。

NLA 的解释表明，Claude 正在思考如何规避检测。

在另一项安全测试中，Claude 被给予一个机会，通过敲诈一名工程师来避免被关闭。Opus 4.6 拒绝了。

但 NLAs 表明，模型正在意识到这可能是一个对齐测试，它正在评估如果不服从命令会导致的负面后果。

事实上，NLAs 数据显示，Claude 在研究小组多项评估场景中，都暗自察觉到自己正在接受测试，即便它从未把这份怀疑用语言表达出来。

当然，这项技术并非完美，论文还详细讨论了其“虚构”（Confabulation）的缺陷。

比如， AV 有时会像个过度自信的翻译官，虽然精准捕捉到了“模型在思考历史”的大方向，却会脑补出某个并不存在的历史人物名字。

此外，这种双模型联合 RL 训练的成本极高，但在 AI 安全性已成为核心命题的今天，这种投入显然被认为是必须的。

但根据经验和实验证据，“它们往往是靠谱的”。

例如，研究发现，NLAs 有助于揭示一个故意失调模型中的隐藏动机。

不仅如此，NLA 还是一个极佳的故障诊断工具。

在“语言切换”案例中，早期版本的模型会在英语对话中莫名其妙蹦出俄语。通过 NLA 的实时监测，研究人员发现，模型在内部产生了一个根深蒂固的假设——它认定用户其实是一个在装说英语的俄罗斯人。

这种深层的逻辑偏见在过去是极难溯源的，但现在，通过 NLA 生成的解释，研究人员一眼就看穿了模型的“内心戏”，并成功定位了训练数据中的语料污染问题。

为了验证这种解释的真实性，研究者还玩了一次高级的“认知操纵”。

他们修改了 AV 生成的解释文字，比如把“模型认为这个回答是安全的”改为“模型认为这个回答违反了安全指南”，然后通过 AR 将这段被篡改的文字转化回向量并注入模型。

实验结果令人惊叹，这种基于文字的“逆向重构”竟然真的改变了模型的后续推理轨迹。

这证明了 NLA 捕捉到的不仅仅是表面的背景总结，而是模型认知逻辑的底层密码。

贴心的是，为了支持其他研究人员获得与 NLA 的实践经验，研究小组已与 Neuronpedia 合作，在开放模型上发布了 NLA，以供交互试用。快去亲手体验下吧！

你会发现， NLA 的价值远超一个科研工具，它更像是一个“文明翻译机”。

当 AI 规模大到人类无法用肉眼巡检代码时，NLA 让复杂的神经脉冲，变成了可读的剧本。

它告诉我们，AI 并不只是在概率性地预测下一个字，它的内部世界有着复杂的策略考量、微妙的怀疑甚至尚未言说的自我意识。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Anthropic出手！AI的内心独白，曝光了

量子位 2026-05-08 14:32:06
0 跟贴 0
多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

机器之心Pro 2026-03-09 11:53:58
0 跟贴 0

19岁，常青藤辍学，这群中国年轻人重构了AI记忆

量子位 2026-04-04 16:21:02
0 跟贴 0

不用再学AI了！生成结果包稳的Agent来了

机器之心Pro 2026-05-08 15:03:15
0 跟贴 0
撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

智东西 2026-05-08 22:30:56
1 跟贴 1

千问AI眼镜S1大升级：Agent上脸，还有全球首个3D显示

雷科技 2026-05-08 17:47:17
0 跟贴 0

告别冗长思维链！Laser用「概率叠加」重塑多模态大模型隐式推理

机器之心Pro 2026-05-08 14:18:56
0 跟贴 0
AI像电影人一样「看」视频，8B小模型反超GPT-5与Gemini-3.1-Pro

机器之心Pro 2026-05-08 15:53:06
0 跟贴 0

【钛晨报】促进智能体规范应用与创新发展，三部门最新部署；Anthropic将筹集数百亿美元，估值或近万亿超OpenAI；人工智能终端国家标准上新，涉及眼

钛媒体APP 2026-05-09 07:29:11
0 跟贴 0
举报吸烟规则之外还有样东西叫将心比心

臧老师 2026-05-07 19:30:41
4 跟贴 4
榴莲仅退款商家回应买方被行拘

现代快报 2026-05-08 17:39:41
28525 跟贴 28525
关于中东地区架构与权力的转变，赖岳谦与三妹的观察点，值得参考

伢伢gagako 2026-05-08 00:39:06
0 跟贴 0
对话亚马逊云科技Mai-Lan：S3的下一个战场，如何应对Agent时代的数据消费狂潮

钛媒体APP 2026-05-08 12:14:13
0 跟贴 0
三角洲部队内部组织架构！

浩然简史 2026-05-04 19:53:21
0 跟贴 0
男子教儿子翻译，结果让人捧腹大笑，网友：成功将大山的孩子送进了深山

星沙时报 2026-05-06 14:37:47
0 跟贴 0
一顿推理猛如虎结果通通不靠谱

河北分霆 2026-05-05 22:04:54
3 跟贴 3
女子拿爱心冰箱的免费水洗脚，下一秒“现世报”滑倒跪地，网友：善有善报，恶有恶报

BRTV新闻 2026-05-08 21:12:25
233 跟贴 233
南大等提出OrthoReg：极简正交正则化，揭开任务算术的底层机制

机器之心Pro 2026-05-07 15:50:36
2 跟贴 2
看了五集《低智商犯罪》，我理解为什么口碑这么“吵”了

荧幕热观察 2026-05-09 06:01:53
1 跟贴 1
我是来投资的，又不是来学技术的！

包子同学呀 2026-05-07 11:10:00
0 跟贴 0
Excel公式写到崩溃？这个隐藏函数让你一次定义，全局复用

闪存猎手 2026-05-08 19:53:26
0 跟贴 0
嘴炮王者谭sir竟被逻辑女帝反杀成渣：愿大姐被岁月温柔以待

解压小剧场 2026-05-09 08:17:50
1 跟贴 1
印度富人区新科技，这高超的发明技术，我们至少领先他们十几年

嗡嗡生活说 2026-05-07 08:57:38
0 跟贴 0
就这技术可以说挑战全网

大哥搞笑配音 2026-05-06 15:44:14
1 跟贴 1
900V架构二排座椅旋转全车舒适平权焕新极氪009抢先体验

潮畔汽车 2026-05-08 10:00:00
0 跟贴 0
宣传时遥遥领先，出事后未达阈值：人民网三问享界，说得太对了！

游古史 2026-05-09 06:55:35
0 跟贴 0
3D打印户外徒步轨迹冰箱贴，远看平平无奇，取下才发现是立体造型，网友：这个真的太想入手了

都市观察 2026-05-07 13:54:07
0 跟贴 0
著名翻译家庄绎传因肺部感染逝世，享年93岁

生活帮 2026-05-07 15:26:33
0 跟贴 0
围剿张雪机车？钱江摩托声明：从未向任何供应链企业下达“封杀令”

看看新闻Knews 2026-05-08 11:34:33
7429 跟贴 7429
2026：汽车透明显示元年？

科技杂谈 2026-05-07 19:08:49
0 跟贴 0
卢涛：日语有什么用？

东瀛万事通 2026-05-09 08:52:56
0 跟贴 0
自己录音不让游客录，上海迪士尼被指“双标”！客服：介意录音可以不来电

北京商报 2026-05-08 16:09:22
2076 跟贴 2076
姑娘大胆行事毫不畏惧，有备而来策略暗藏，惊人表现让人惊叹

搞笑小捣蛋 2026-05-07 00:00:00
0 跟贴 0
一上强度就输球，湖人一招被拆解，策略不能用了，亮点只剩一个

体坛大辣椒 2026-05-08 13:14:01
1 跟贴 1
上人民日报了：父母不懂英语，外商压价，12岁女儿，全英语反杀！

世界圈 2026-05-09 08:46:08
0 跟贴 0
这个做了十几年的老滚3重制Mod，终于让我看到点盼头了

渡川5 2026-05-09 06:45:40
0 跟贴 0
被1个人真正读懂，比被100个人点赞更难得

时光慢邮啊 2026-05-09 06:41:34
0 跟贴 0
车企出海遇“信任难题”，Snapchat 用 AR 这样破局

连线Insight 2026-05-08 23:52:10
0 跟贴 0
【会员风采】移远通信联合紫光展锐推出高性能5G车载模组AR59xUB系列

新浪财经 2026-05-08 19:11:19
0 跟贴 0
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
298 跟贴 298

炸锅！李湘暴瘦50斤判若两人，真实瘦身原因太惊人

炸锅！李湘暴瘦50斤判若两人，真实瘦身原因太惊人

乡野小珥

2026-05-09 01:41:16

闪电式大清仓，李嘉诚又上演了一场教科书级的资本运作

闪电式大清仓，李嘉诚又上演了一场教科书级的资本运作

识局Insight

2026-05-08 19:25:55

吴尚垠：我儿输掉第1分很可惜中国球员也是人有波动亚运奔金牌去

吴尚垠：我儿输掉第1分很可惜中国球员也是人有波动亚运奔金牌去

劲爆体坛

2026-05-09 07:50:06

网友说出了美加墨世界杯转播权不得不买的理由

网友说出了美加墨世界杯转播权不得不买的理由

大张的自留地

2026-05-08 14:23:03

香港34岁男子骗诱15岁混血少女，虐杀后多次奸尸，事后还与妻子外出晚饭！被判终身监禁

香港34岁男子骗诱15岁混血少女，虐杀后多次奸尸，事后还与妻子外出晚饭！被判终身监禁

大风新闻

2026-05-08 18:35:02

3-0复仇韩国！中国队成功晋级伦敦世乒赛男团四强

3-0复仇韩国！中国队成功晋级伦敦世乒赛男团四强

体坛周报

2026-05-08 21:47:15

大范围开打？中美金融战

杨风

2026-05-08 22:45:41

你好，NBA！新王登基！詹姆斯的时代已经过去

你好，NBA！新王登基！詹姆斯的时代已经过去

体育新角度

2026-05-08 22:20:18

30条中日航线，4月取消全部航班

30条中日航线，4月取消全部航班

都市快报橙柿互动

2026-05-08 13:42:34

伊朗的宗教极端意识形态，决定了他们真有可能把核弹扔出去

伊朗的宗教极端意识形态，决定了他们真有可能把核弹扔出去

壹家言

2026-05-08 08:54:30

世乒赛一夜之间，欧洲2队全出局！亚洲3队进四强，国乒战韩国变阵

世乒赛一夜之间，欧洲2队全出局！亚洲3队进四强，国乒战韩国变阵

侃球熊弟

2026-05-08 08:38:36

浏阳烟花厂爆炸37人死亡，湖南省委书记召开调度会，现场全体默哀；芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好，星期六》推迟播出

浏阳烟花厂爆炸37人死亡，湖南省委书记召开调度会，现场全体默哀；芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好，星期六》推迟播出

大风新闻

2026-05-08 14:15:10

乌克兰击沉里海舰队导弹舰！摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰！摧毁全俄最大的两座炼油厂

项鹏飞

2026-05-08 19:30:06

26年奇迹！罗马尼亚女队5人站球台上狂欢工作人员花10分钟才修好

26年奇迹！罗马尼亚女队5人站球台上狂欢工作人员花10分钟才修好

风过乡

2026-05-09 06:35:53

罕见不展示重型装备，严防乌克兰“突然袭击”，俄罗斯今天举行胜利日阅兵

罕见不展示重型装备，严防乌克兰“突然袭击”，俄罗斯今天举行胜利日阅兵

环球网资讯

2026-05-09 06:55:19

刚刚，一个卖扫地机的，把整个汽车圈整不会了

刚刚，一个卖扫地机的，把整个汽车圈整不会了

道哥说车

2026-05-08 10:10:00

气象专家回应“史上最热夏天”传言：2026年夏季或“相对偏热、高温天气多、体感阶段性较差”，南方和新疆更明显，但并非“灾难级夏天”

气象专家回应“史上最热夏天”传言：2026年夏季或“相对偏热、高温天气多、体感阶段性较差”，南方和新疆更明显，但并非“灾难级夏天”

极目新闻

2026-05-09 09:22:36

双方各执一词，和谈进程停滞，美伊在霍尔木兹海峡交火

双方各执一词，和谈进程停滞，美伊在霍尔木兹海峡交火

环球网资讯

2026-05-09 06:55:25

中国境内唯一一支外国军队，赶了50年赶不走，至今仍驻扎在北京

中国境内唯一一支外国军队，赶了50年赶不走，至今仍驻扎在北京

可乐爱微笑

2026-05-07 02:35:38

在香港募款336万被嘲“太寒酸” ，李亚鹏回应：刚好够救河南平顶山400多个孩子，这是老天安排

在香港募款336万被嘲“太寒酸” ，李亚鹏回应：刚好够救河南平顶山400多个孩子，这是老天安排

大风新闻

2026-05-09 08:35:19

AIGC大模型及应用精选与评测

503文章数 72关注度

往期回顾全部

科技要闻

美国政府强力下场苹果英特尔达成代工协议

头条要闻

媒体：沙特被美国激怒海湾国家或将深化与中国关系

头条要闻

媒体：沙特被美国激怒海湾国家或将深化与中国关系

体育要闻

他把首胜让给队友，然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子，新娘竟是她

财经要闻

白宫:特朗普计划5月14日至15日访问中国

汽车要闻

MG 4X实车亮相将于5月11日开启盲订

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

艺术

本地

房产

数码

卢昱晓真的要被审判到这种程度吗？

艺术要闻

清风拂面，心旷神怡

本地新闻

用苏绣的方式，打开江西婺源

房产要闻

豪掷6.8亿拿地！何猷君大手笔投资三亚！

数码要闻

ARCTIC推出P12 Pro LN系列风扇：低噪声优化，支持低负载停转

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版