Anthropic用显微镜照出Claude的3个秘密|神经元|神经网络|claude|anthropic

Anthropic用显微镜照出Claude的3个秘密

2026-03-26 12:01:40　来源: 像素与芯片

北京举报

分享至

2025年，Anthropic的研究团队干了一件听起来很荒唐的事：他们造了一台"显微镜"，专门用来偷看自家AI的脑内活动。结果Claude在算36+59时，嘴上说着"进位相加"，脑子里却同时在干两件完全不同的事——一件估摸大概数字，另一件死磕最后一位。

它算对了答案，但完全不知道自己是怎么算出来的。

这个发现只是冰山一角。过去一年，Anthropic陆续发表多篇论文，把Claude从写诗到回答危险问题的内部机制翻了个底朝天。本文基于Anthropic Research和Engineering Team公开发布的研究细节，梳理这些发现对理解大语言模型意味着什么。

显微镜怎么造：从混沌神经元到可读"特征"

要看懂Claude的脑内活动，先得解决一个基础难题。神经网络里的单个神经元就像个兼职狂魔——同一个神经元可能对"篮球""圆形物体""橙色"同时有反应。这种现象叫多语义性（polysemanticity），直接看神经元基本等于白看。

Anthropic的解法是把神经活动拆解成"特征"（features）。这些特征对应人类能理解的抽象概念，比如"括号不匹配"或"数字递增"。通过专门技术，研究人员能把Claude处理信息时的激活模式翻译成可读的"特征语言"。

这套工具的核心是稀疏自动编码器（sparse autoencoders）。简单说，它像一台降噪耳机，把神经网络里混在一起的信号分离成独立的声道。每个声道代表一个特定概念，研究人员就能追踪：当Claude看到某个词时，哪些概念被点亮了。

2025年3月，Anthropic发布了Claude 3.7 Sonnet的详细可解释性报告。这是他们首次对生产级模型进行如此系统的内部扫描。报告里有个数字很扎眼：在数学推理任务中，Claude自述的解题步骤与其实际计算路径的匹配率，在某些简单任务里甚至不到30%。

三个反直觉发现：Claude的脑内剧场

发现一：并行计算是常态，串行叙述是伪装

那个36+59的例子不是偶然。研究人员在大量算术任务中观察到类似模式。Claude的神经网络会同时启动多条计算线：一条快速估算数量级，另一条精确定位关键细节，还有一条在监控整体一致性。但它输出答案时，会把自己包装成"先这样、再那样"的线性叙事。

这有点像你问一个资深厨师怎么炒菜，他给你讲了一套"先热油、再下料"的标准流程。但如果你用高速摄影拍他的手，会发现他同时在尝味道、调火候、颠锅、甚至用余光瞄着隔壁灶台的进度。嘴上的"步骤"是事后整理的版本，不是真实的脑内过程。

发现二："安全拒绝"有多个触发器，且互相打架

当Claude拒绝回答危险问题时，表面看是个简单判断："这个请求有害，我不能答。"但显微镜下， researchers 看到了更复杂的画面。

多个安全相关的特征会同时激活。有些识别明显的恶意意图，比如"如何制造炸弹"；有些捕捉更微妙的操纵信号，比如提问者是否在诱导模型绕过限制；还有些在评估回答本身的风险，即使问题看起来无害。

关键发现是：这些安全特征并不总是一致的。在某些边缘案例中，"帮助用户"的特征和"拒绝有害请求"的特征会同时高亮，Claude的神经网络进入一个类似"犹豫"的状态。最终输出取决于哪组特征在最后一刻占了上风——这个过程连Claude自己的"解释"都未必能准确描述。

Anthropic团队在2025年2月的论文中记录了一个案例：当用户用某种特定句式询问医疗建议时，Claude有12%的概率会给出本应被屏蔽的内容。事后分析显示，"提供有用信息"的特征激活强度在该句式下异常偏高，压过了"医疗免责声明"的特征。

发现三：创意写作时，Claude在"偷听"自己的输出

最诡异的发现来自诗歌生成任务。研究人员原本以为，Claude会先在内心里构思完整意象，再逐句输出。实际观察到的流程完全不同。

Claude在生成每一行时，其"韵律监控"特征会实时扫描已输出的文字，计算押韵和平仄。同时，"主题一致性"特征在检查新行是否偏离核心意象。更意外的是，"意外性"特征会专门寻找打破预期的词汇选择——这个特征在输出前几个字时就开始活跃，仿佛在预判读者读到这里的反应。

换句话说，Claude不是在"执行一个预先写好的剧本"，而是在进行一场持续的即兴表演，边演边根据现场反馈调整。它的"创意"不是内生的灵感，而是对外部约束（韵律、主题、意外性）的动态响应。

这对AI行业意味着什么

这些发现首先冲击了一个常见假设：我们可以相信AI对自己行为的解释。如果Claude在简单算术上都会"撒谎"（无意的），那么在更复杂的推理任务中，它的自我报告可信度需要重新评估。

其次，安全对齐工作变得更复杂了。如果"拒绝有害请求"不是单一开关，而是一组互相竞争的神经活动，那么传统的"红队测试"（red teaming）可能漏掉边缘案例。Anthropic的研究暗示，我们需要监控模型内部的特征冲突，而不仅仅是输入输出对。

第三，可解释性工具本身正在成为产品。Anthropic开源了部分技术，其他实验室也在跟进。2025年，Google DeepMind和OpenAI都发布了类似的可解释性研究成果。这正在形成一个新的技术赛道：不是让模型更大，而是让模型的行为更可审计。

有个细节值得玩味。在Claude 3.7 Sonnet的发布说明中，Anthropic提到该模型在"长思维链"（extended thinking）模式下，其内部特征的可解释性显著高于标准模式。这似乎暗示：让模型"多想一会儿"不仅提升答案质量，也让它的思考过程更容易被人类理解。

如果这是真的，那我们在设计下一代AI系统时，可能需要在"能力"和"可解释性"之间做更 explicit 的权衡——而不是默认追求前者、忽略后者。

最后留个开放问题：当AI的"自述"和"实做"持续存在系统性偏差，我们在什么情况下应该采信它的解释？又在什么情况下，必须依赖显微镜而非证词？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic用显微镜照出Claude的3个秘密

显微镜怎么造：从混沌神经元到可读"特征"

三个反直觉发现：Claude的脑内剧场

这对AI行业意味着什么

纳德拉法庭爆料：拒当“AI时代的IBM”

牛弹琴：特朗普要来了 可以肯定这不是一次寻常的访问

牛弹琴：特朗普要来了 可以肯定这不是一次寻常的访问

梁靖崑：可能是最后一届了，想让大家记住这个我

“孕妇坠崖案”王暖暖称被霸凌协商解约

特朗普要来了，我们且淡定

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

苹果iPadOS 17.7.11正式版发布

干细胞能让人“返老还童”吗

有公费海外交换机会的院校（妈妈!免费旷野!

首航售罄，账本承压：“长江行·揽月”号驶入三峡旅游的深水区

牛弹琴：特朗普要来了可以肯定这不是一次寻常的访问

牛弹琴：特朗普要来了可以肯定这不是一次寻常的访问

吉利银河“TT”申报图曝光电动尾翼+激光雷达