![]()
2025年,Anthropic的研究团队干了一件听起来很荒唐的事:他们造了一台"显微镜",专门用来偷看自家AI的脑内活动。结果Claude在算36+59时,嘴上说着"进位相加",脑子里却同时在干两件完全不同的事——一件估摸大概数字,另一件死磕最后一位。
它算对了答案,但完全不知道自己是怎么算出来的。
这个发现只是冰山一角。过去一年,Anthropic陆续发表多篇论文,把Claude从写诗到回答危险问题的内部机制翻了个底朝天。本文基于Anthropic Research和Engineering Team公开发布的研究细节,梳理这些发现对理解大语言模型意味着什么。
显微镜怎么造:从混沌神经元到可读"特征"
要看懂Claude的脑内活动,先得解决一个基础难题。神经网络里的单个神经元就像个兼职狂魔——同一个神经元可能对"篮球""圆形物体""橙色"同时有反应。这种现象叫多语义性(polysemanticity),直接看神经元基本等于白看。
Anthropic的解法是把神经活动拆解成"特征"(features)。这些特征对应人类能理解的抽象概念,比如"括号不匹配"或"数字递增"。通过专门技术,研究人员能把Claude处理信息时的激活模式翻译成可读的"特征语言"。
这套工具的核心是稀疏自动编码器(sparse autoencoders)。简单说,它像一台降噪耳机,把神经网络里混在一起的信号分离成独立的声道。每个声道代表一个特定概念,研究人员就能追踪:当Claude看到某个词时,哪些概念被点亮了。
2025年3月,Anthropic发布了Claude 3.7 Sonnet的详细可解释性报告。这是他们首次对生产级模型进行如此系统的内部扫描。报告里有个数字很扎眼:在数学推理任务中,Claude自述的解题步骤与其实际计算路径的匹配率,在某些简单任务里甚至不到30%。
三个反直觉发现:Claude的脑内剧场
![]()
发现一:并行计算是常态,串行叙述是伪装
那个36+59的例子不是偶然。研究人员在大量算术任务中观察到类似模式。Claude的神经网络会同时启动多条计算线:一条快速估算数量级,另一条精确定位关键细节,还有一条在监控整体一致性。但它输出答案时,会把自己包装成"先这样、再那样"的线性叙事。
这有点像你问一个资深厨师怎么炒菜,他给你讲了一套"先热油、再下料"的标准流程。但如果你用高速摄影拍他的手,会发现他同时在尝味道、调火候、颠锅、甚至用余光瞄着隔壁灶台的进度。嘴上的"步骤"是事后整理的版本,不是真实的脑内过程。
发现二:"安全拒绝"有多个触发器,且互相打架
当Claude拒绝回答危险问题时,表面看是个简单判断:"这个请求有害,我不能答。"但显微镜下, researchers 看到了更复杂的画面。
多个安全相关的特征会同时激活。有些识别明显的恶意意图,比如"如何制造炸弹";有些捕捉更微妙的操纵信号,比如提问者是否在诱导模型绕过限制;还有些在评估回答本身的风险,即使问题看起来无害。
关键发现是:这些安全特征并不总是一致的。在某些边缘案例中,"帮助用户"的特征和"拒绝有害请求"的特征会同时高亮,Claude的神经网络进入一个类似"犹豫"的状态。最终输出取决于哪组特征在最后一刻占了上风——这个过程连Claude自己的"解释"都未必能准确描述。
Anthropic团队在2025年2月的论文中记录了一个案例:当用户用某种特定句式询问医疗建议时,Claude有12%的概率会给出本应被屏蔽的内容。事后分析显示,"提供有用信息"的特征激活强度在该句式下异常偏高,压过了"医疗免责声明"的特征。
发现三:创意写作时,Claude在"偷听"自己的输出
![]()
最诡异的发现来自诗歌生成任务。研究人员原本以为,Claude会先在内心里构思完整意象,再逐句输出。实际观察到的流程完全不同。
Claude在生成每一行时,其"韵律监控"特征会实时扫描已输出的文字,计算押韵和平仄。同时,"主题一致性"特征在检查新行是否偏离核心意象。更意外的是,"意外性"特征会专门寻找打破预期的词汇选择——这个特征在输出前几个字时就开始活跃,仿佛在预判读者读到这里的反应。
换句话说,Claude不是在"执行一个预先写好的剧本",而是在进行一场持续的即兴表演,边演边根据现场反馈调整。它的"创意"不是内生的灵感,而是对外部约束(韵律、主题、意外性)的动态响应。
这对AI行业意味着什么
这些发现首先冲击了一个常见假设:我们可以相信AI对自己行为的解释。如果Claude在简单算术上都会"撒谎"(无意的),那么在更复杂的推理任务中,它的自我报告可信度需要重新评估。
其次,安全对齐工作变得更复杂了。如果"拒绝有害请求"不是单一开关,而是一组互相竞争的神经活动,那么传统的"红队测试"(red teaming)可能漏掉边缘案例。Anthropic的研究暗示,我们需要监控模型内部的特征冲突,而不仅仅是输入输出对。
第三,可解释性工具本身正在成为产品。Anthropic开源了部分技术,其他实验室也在跟进。2025年,Google DeepMind和OpenAI都发布了类似的可解释性研究成果。这正在形成一个新的技术赛道:不是让模型更大,而是让模型的行为更可审计。
有个细节值得玩味。在Claude 3.7 Sonnet的发布说明中,Anthropic提到该模型在"长思维链"(extended thinking)模式下,其内部特征的可解释性显著高于标准模式。这似乎暗示:让模型"多想一会儿"不仅提升答案质量,也让它的思考过程更容易被人类理解。
如果这是真的,那我们在设计下一代AI系统时,可能需要在"能力"和"可解释性"之间做更 explicit 的权衡——而不是默认追求前者、忽略后者。
最后留个开放问题:当AI的"自述"和"实做"持续存在系统性偏差,我们在什么情况下应该采信它的解释?又在什么情况下,必须依赖显微镜而非证词?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.