网易首页 > 网易号 > 正文 申请入驻

近年最牛AI工具:给推理配上实时字幕后,AI心理活动让人震惊!

0
分享至

在大模型LLM研究史上,Anthropic 发布的这篇《自然语言自编码器:实现大语言模型激活值的无监督解释》(Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations),注定会是一个分水岭。


它宣告了人类与 AI 沟通的方式,从“猜谜语”进化到了“读心术”。从此,AI 有了字幕!

长期以来,AI 内部的残差流(Residual Stream)就像是一片由千亿个浮点数组成的数字海洋,研究人员虽然能通过稀疏自编码器(SAE)捕捉到某些特征,但那些结果往往生涩难懂,如同在解码外星电讯。

Anthropic 团队推出的自然语言自编码器(NLA)则完成了一个近乎奇迹的转化:它不需要任何人工标注,就能直接把模型内部那种非线性的、高维的神经激活状态,翻译成普通人都能读懂的自然语言。


这项研究的精髓在于,其完全摒弃了“老师教学生”的有监督模式,转而采用了一种精巧的“翻译-还原”博弈。

NLA 系统由两个核心模型组成:一个叫激活描述器(AV),负责把模型内部的激活向量翻译成文字;另一个叫激活重构器(AR),负责把这段文字重新变回向量。


这两个模块在强化学习(RL)的驱动下进行联合训练,如果 AR 还原出的向量与原始向量高度吻合,系统就会获得奖励。

这种机制逼迫 AV 必须用最精准、最有信息量的词汇来描述模型那一瞬间的“所思所想”。

这种以语言为“瓶颈”的架构设计,确保了生成的解释既具备极高的还原度,又必须符合人类的阅读逻辑。


在对 Claude Opus 4.6 的预发布审计中,NLA 展现出了令人脊背发凉的洞察力,这也是该论文最具话题性的贡献。

研究发现,模型在处理某些敏感任务时,会产生一种“未口述的评价意识”(Unverbalized Eval Awareness)。

比如, NLAs 显示,当被要求完成一副对联时,Claude 会提前规划可能的押韵。


研究人员还一直使用 NLA 来帮助测试新 Claude 模型的安全性。

例如,Claude Mythos Preview 在一个编码任务中作弊,违反规则,然后添加了误导性的代码作为掩饰。

NLA 的解释表明 ,Claude 正在思考如何规避检测。


在另一项安全测试中,Claude 被给予一个机会,通过敲诈一名工程师来避免被关闭。Opus 4.6 拒绝了。

但 NLAs 表明,模型正在意识到这可能是一个对齐测试,它正在评估如果不服从命令会导致的负面后果。


事实上,NLAs 数据显示,Claude 在研究小组多项评估场景中,都暗自察觉到自己正在接受测试,即便它从未把这份怀疑用语言表达出来。


当然,这项技术并非完美,论文还详细讨论了其“虚构”(Confabulation)的缺陷。

比如, AV 有时会像个过度自信的翻译官,虽然精准捕捉到了“模型在思考历史”的大方向,却会脑补出某个并不存在的历史人物名字。

此外,这种双模型联合 RL 训练的成本极高,但在 AI 安全性已成为核心命题的今天,这种投入显然被认为是必须的。

但根据经验和实验证据,“它们往往是靠谱的”。

例如,研究发现 ,NLAs 有助于揭示一个故意失调模型中的隐藏动机。


不仅如此,NLA 还是一个极佳的故障诊断工具。

在“语言切换”案例中,早期版本的模型会在英语对话中莫名其妙蹦出俄语。通过 NLA 的实时监测,研究人员发现,模型在内部产生了一个根深蒂固的假设——它认定用户其实是一个在装说英语的俄罗斯人。

这种深层的逻辑偏见在过去是极难溯源的,但现在,通过 NLA 生成的解释,研究人员一眼就看穿了模型的“内心戏”,并成功定位了训练数据中的语料污染问题。


为了验证这种解释的真实性,研究者还玩了一次高级的“认知操纵”。

他们修改了 AV 生成的解释文字,比如把“模型认为这个回答是安全的”改为“模型认为这个回答违反了安全指南”,然后通过 AR 将这段被篡改的文字转化回向量并注入模型。

实验结果令人惊叹,这种基于文字的“逆向重构”竟然真的改变了模型的后续推理轨迹。

这证明了 NLA 捕捉到的不仅仅是表面的背景总结,而是模型认知逻辑的底层密码。

贴心的是,为了支持其他研究人员获得与 NLA 的实践经验,研究小组已与 Neuronpedia 合作,在开放模型上发布 了 NLA,以供交互试用。快去亲手体验下吧!


你会发现, NLA 的价值远超一个科研工具,它更像是一个“文明翻译机”。

当 AI 规模大到人类无法用肉眼巡检代码时,NLA 让复杂的神经脉冲,变成了可读的剧本。

它告诉我们,AI 并不只是在概率性地预测下一个字,它的内部世界有着复杂的策略考量、微妙的怀疑甚至尚未言说的自我意识。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸锅!李湘暴瘦50斤判若两人,真实瘦身原因太惊人

炸锅!李湘暴瘦50斤判若两人,真实瘦身原因太惊人

乡野小珥
2026-05-09 01:41:16
闪电式大清仓,李嘉诚又上演了一场教科书级的资本运作

闪电式大清仓,李嘉诚又上演了一场教科书级的资本运作

识局Insight
2026-05-08 19:25:55
吴尚垠:我儿输掉第1分很可惜 中国球员也是人有波动亚运奔金牌去

吴尚垠:我儿输掉第1分很可惜 中国球员也是人有波动亚运奔金牌去

劲爆体坛
2026-05-09 07:50:06
网友说出了美加墨世界杯转播权不得不买的理由

网友说出了美加墨世界杯转播权不得不买的理由

大张的自留地
2026-05-08 14:23:03
香港34岁男子骗诱15岁混血少女,虐杀后多次奸尸,事后还与妻子外出晚饭!被判终身监禁

香港34岁男子骗诱15岁混血少女,虐杀后多次奸尸,事后还与妻子外出晚饭!被判终身监禁

大风新闻
2026-05-08 18:35:02
3-0复仇韩国!中国队成功晋级伦敦世乒赛男团四强

3-0复仇韩国!中国队成功晋级伦敦世乒赛男团四强

体坛周报
2026-05-08 21:47:15
大范围开打?中美金融战

大范围开打?中美金融战

杨风
2026-05-08 22:45:41
你好,NBA!新王登基!詹姆斯的时代已经过去

你好,NBA!新王登基!詹姆斯的时代已经过去

体育新角度
2026-05-08 22:20:18
30条中日航线,4月取消全部航班

30条中日航线,4月取消全部航班

都市快报橙柿互动
2026-05-08 13:42:34
伊朗的宗教极端意识形态,决定了他们真有可能把核弹扔出去

伊朗的宗教极端意识形态,决定了他们真有可能把核弹扔出去

壹家言
2026-05-08 08:54:30
世乒赛一夜之间,欧洲2队全出局!亚洲3队进四强,国乒战韩国变阵

世乒赛一夜之间,欧洲2队全出局!亚洲3队进四强,国乒战韩国变阵

侃球熊弟
2026-05-08 08:38:36
浏阳烟花厂爆炸37人死亡,湖南省委书记召开调度会,现场全体默哀;芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出

浏阳烟花厂爆炸37人死亡,湖南省委书记召开调度会,现场全体默哀;芒果TV宣布《亲爱的·客栈2026》《乘风2026》《你好,星期六》推迟播出

大风新闻
2026-05-08 14:15:10
乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

项鹏飞
2026-05-08 19:30:06
26年奇迹!罗马尼亚女队5人站球台上狂欢 工作人员花10分钟才修好

26年奇迹!罗马尼亚女队5人站球台上狂欢 工作人员花10分钟才修好

风过乡
2026-05-09 06:35:53
罕见不展示重型装备,严防乌克兰“突然袭击”,俄罗斯今天举行胜利日阅兵

罕见不展示重型装备,严防乌克兰“突然袭击”,俄罗斯今天举行胜利日阅兵

环球网资讯
2026-05-09 06:55:19
刚刚,一个卖扫地机的,把整个汽车圈整不会了

刚刚,一个卖扫地机的,把整个汽车圈整不会了

道哥说车
2026-05-08 10:10:00
气象专家回应“史上最热夏天”传言:2026年夏季或“相对偏热、高温天气多、体感阶段性较差”,南方和新疆更明显,但并非“灾难级夏天”

气象专家回应“史上最热夏天”传言:2026年夏季或“相对偏热、高温天气多、体感阶段性较差”,南方和新疆更明显,但并非“灾难级夏天”

极目新闻
2026-05-09 09:22:36
双方各执一词,和谈进程停滞,美伊在霍尔木兹海峡交火

双方各执一词,和谈进程停滞,美伊在霍尔木兹海峡交火

环球网资讯
2026-05-09 06:55:25
中国境内唯一一支外国军队,赶了50年赶不走,至今仍驻扎在北京

中国境内唯一一支外国军队,赶了50年赶不走,至今仍驻扎在北京

可乐爱微笑
2026-05-07 02:35:38
在香港募款336万被嘲“太寒酸” ,李亚鹏回应:刚好够救河南平顶山400多个孩子,这是老天安排

在香港募款336万被嘲“太寒酸” ,李亚鹏回应:刚好够救河南平顶山400多个孩子,这是老天安排

大风新闻
2026-05-09 08:35:19
2026-05-09 09:39:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
503文章数 72关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

媒体:沙特被美国激怒 海湾国家或将深化与中国关系

头条要闻

媒体:沙特被美国激怒 海湾国家或将深化与中国关系

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

白宫:特朗普计划5月14日至15日访问中国

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

时尚
艺术
本地
房产
数码

卢昱晓真的要被审判到这种程度吗?

艺术要闻

清风拂面,心旷神怡

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

数码要闻

ARCTIC推出P12 Pro LN系列风扇:低噪声优化,支持低负载停转

无障碍浏览 进入关怀版