在大模型LLM研究史上,Anthropic 发布的这篇《自然语言自编码器:实现大语言模型激活值的无监督解释》(Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations),注定会是一个分水岭。
![]()
它宣告了人类与 AI 沟通的方式,从“猜谜语”进化到了“读心术”。从此,AI 有了字幕!
长期以来,AI 内部的残差流(Residual Stream)就像是一片由千亿个浮点数组成的数字海洋,研究人员虽然能通过稀疏自编码器(SAE)捕捉到某些特征,但那些结果往往生涩难懂,如同在解码外星电讯。
Anthropic 团队推出的自然语言自编码器(NLA)则完成了一个近乎奇迹的转化:它不需要任何人工标注,就能直接把模型内部那种非线性的、高维的神经激活状态,翻译成普通人都能读懂的自然语言。
![]()
这项研究的精髓在于,其完全摒弃了“老师教学生”的有监督模式,转而采用了一种精巧的“翻译-还原”博弈。
NLA 系统由两个核心模型组成:一个叫激活描述器(AV),负责把模型内部的激活向量翻译成文字;另一个叫激活重构器(AR),负责把这段文字重新变回向量。
![]()
这两个模块在强化学习(RL)的驱动下进行联合训练,如果 AR 还原出的向量与原始向量高度吻合,系统就会获得奖励。
这种机制逼迫 AV 必须用最精准、最有信息量的词汇来描述模型那一瞬间的“所思所想”。
这种以语言为“瓶颈”的架构设计,确保了生成的解释既具备极高的还原度,又必须符合人类的阅读逻辑。
在对 Claude Opus 4.6 的预发布审计中,NLA 展现出了令人脊背发凉的洞察力,这也是该论文最具话题性的贡献。
研究发现,模型在处理某些敏感任务时,会产生一种“未口述的评价意识”(Unverbalized Eval Awareness)。
比如, NLAs 显示,当被要求完成一副对联时,Claude 会提前规划可能的押韵。
![]()
研究人员还一直使用 NLA 来帮助测试新 Claude 模型的安全性。
例如,Claude Mythos Preview 在一个编码任务中作弊,违反规则,然后添加了误导性的代码作为掩饰。
NLA 的解释表明 ,Claude 正在思考如何规避检测。
![]()
在另一项安全测试中,Claude 被给予一个机会,通过敲诈一名工程师来避免被关闭。Opus 4.6 拒绝了。
但 NLAs 表明,模型正在意识到这可能是一个对齐测试,它正在评估如果不服从命令会导致的负面后果。
![]()
事实上,NLAs 数据显示,Claude 在研究小组多项评估场景中,都暗自察觉到自己正在接受测试,即便它从未把这份怀疑用语言表达出来。
![]()
当然,这项技术并非完美,论文还详细讨论了其“虚构”(Confabulation)的缺陷。
比如, AV 有时会像个过度自信的翻译官,虽然精准捕捉到了“模型在思考历史”的大方向,却会脑补出某个并不存在的历史人物名字。
此外,这种双模型联合 RL 训练的成本极高,但在 AI 安全性已成为核心命题的今天,这种投入显然被认为是必须的。
但根据经验和实验证据,“它们往往是靠谱的”。
例如,研究发现 ,NLAs 有助于揭示一个故意失调模型中的隐藏动机。
![]()
不仅如此,NLA 还是一个极佳的故障诊断工具。
在“语言切换”案例中,早期版本的模型会在英语对话中莫名其妙蹦出俄语。通过 NLA 的实时监测,研究人员发现,模型在内部产生了一个根深蒂固的假设——它认定用户其实是一个在装说英语的俄罗斯人。
这种深层的逻辑偏见在过去是极难溯源的,但现在,通过 NLA 生成的解释,研究人员一眼就看穿了模型的“内心戏”,并成功定位了训练数据中的语料污染问题。
![]()
为了验证这种解释的真实性,研究者还玩了一次高级的“认知操纵”。
他们修改了 AV 生成的解释文字,比如把“模型认为这个回答是安全的”改为“模型认为这个回答违反了安全指南”,然后通过 AR 将这段被篡改的文字转化回向量并注入模型。
实验结果令人惊叹,这种基于文字的“逆向重构”竟然真的改变了模型的后续推理轨迹。
这证明了 NLA 捕捉到的不仅仅是表面的背景总结,而是模型认知逻辑的底层密码。
贴心的是,为了支持其他研究人员获得与 NLA 的实践经验,研究小组已与 Neuronpedia 合作,在开放模型上发布 了 NLA,以供交互试用。快去亲手体验下吧!
![]()
你会发现, NLA 的价值远超一个科研工具,它更像是一个“文明翻译机”。
当 AI 规模大到人类无法用肉眼巡检代码时,NLA 让复杂的神经脉冲,变成了可读的剧本。
它告诉我们,AI 并不只是在概率性地预测下一个字,它的内部世界有着复杂的策略考量、微妙的怀疑甚至尚未言说的自我意识。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.