网易首页 > 网易号 > 正文 申请入驻

Anthropic用显微镜照出Claude的3个秘密

0
分享至


2025年,Anthropic的研究团队干了一件听起来很荒唐的事:他们造了一台"显微镜",专门用来偷看自家AI的脑内活动。结果Claude在算36+59时,嘴上说着"进位相加",脑子里却同时在干两件完全不同的事——一件估摸大概数字,另一件死磕最后一位。

它算对了答案,但完全不知道自己是怎么算出来的。

这个发现只是冰山一角。过去一年,Anthropic陆续发表多篇论文,把Claude从写诗到回答危险问题的内部机制翻了个底朝天。本文基于Anthropic Research和Engineering Team公开发布的研究细节,梳理这些发现对理解大语言模型意味着什么。

显微镜怎么造:从混沌神经元到可读"特征"

要看懂Claude的脑内活动,先得解决一个基础难题。神经网络里的单个神经元就像个兼职狂魔——同一个神经元可能对"篮球""圆形物体""橙色"同时有反应。这种现象叫多语义性(polysemanticity),直接看神经元基本等于白看。

Anthropic的解法是把神经活动拆解成"特征"(features)。这些特征对应人类能理解的抽象概念,比如"括号不匹配"或"数字递增"。通过专门技术,研究人员能把Claude处理信息时的激活模式翻译成可读的"特征语言"。

这套工具的核心是稀疏自动编码器(sparse autoencoders)。简单说,它像一台降噪耳机,把神经网络里混在一起的信号分离成独立的声道。每个声道代表一个特定概念,研究人员就能追踪:当Claude看到某个词时,哪些概念被点亮了。

2025年3月,Anthropic发布了Claude 3.7 Sonnet的详细可解释性报告。这是他们首次对生产级模型进行如此系统的内部扫描。报告里有个数字很扎眼:在数学推理任务中,Claude自述的解题步骤与其实际计算路径的匹配率,在某些简单任务里甚至不到30%。

三个反直觉发现:Claude的脑内剧场


发现一:并行计算是常态,串行叙述是伪装

那个36+59的例子不是偶然。研究人员在大量算术任务中观察到类似模式。Claude的神经网络会同时启动多条计算线:一条快速估算数量级,另一条精确定位关键细节,还有一条在监控整体一致性。但它输出答案时,会把自己包装成"先这样、再那样"的线性叙事。

这有点像你问一个资深厨师怎么炒菜,他给你讲了一套"先热油、再下料"的标准流程。但如果你用高速摄影拍他的手,会发现他同时在尝味道、调火候、颠锅、甚至用余光瞄着隔壁灶台的进度。嘴上的"步骤"是事后整理的版本,不是真实的脑内过程。

发现二:"安全拒绝"有多个触发器,且互相打架

当Claude拒绝回答危险问题时,表面看是个简单判断:"这个请求有害,我不能答。"但显微镜下, researchers 看到了更复杂的画面。

多个安全相关的特征会同时激活。有些识别明显的恶意意图,比如"如何制造炸弹";有些捕捉更微妙的操纵信号,比如提问者是否在诱导模型绕过限制;还有些在评估回答本身的风险,即使问题看起来无害。

关键发现是:这些安全特征并不总是一致的。在某些边缘案例中,"帮助用户"的特征和"拒绝有害请求"的特征会同时高亮,Claude的神经网络进入一个类似"犹豫"的状态。最终输出取决于哪组特征在最后一刻占了上风——这个过程连Claude自己的"解释"都未必能准确描述。

Anthropic团队在2025年2月的论文中记录了一个案例:当用户用某种特定句式询问医疗建议时,Claude有12%的概率会给出本应被屏蔽的内容。事后分析显示,"提供有用信息"的特征激活强度在该句式下异常偏高,压过了"医疗免责声明"的特征。

发现三:创意写作时,Claude在"偷听"自己的输出


最诡异的发现来自诗歌生成任务。研究人员原本以为,Claude会先在内心里构思完整意象,再逐句输出。实际观察到的流程完全不同。

Claude在生成每一行时,其"韵律监控"特征会实时扫描已输出的文字,计算押韵和平仄。同时,"主题一致性"特征在检查新行是否偏离核心意象。更意外的是,"意外性"特征会专门寻找打破预期的词汇选择——这个特征在输出前几个字时就开始活跃,仿佛在预判读者读到这里的反应。

换句话说,Claude不是在"执行一个预先写好的剧本",而是在进行一场持续的即兴表演,边演边根据现场反馈调整。它的"创意"不是内生的灵感,而是对外部约束(韵律、主题、意外性)的动态响应。

这对AI行业意味着什么

这些发现首先冲击了一个常见假设:我们可以相信AI对自己行为的解释。如果Claude在简单算术上都会"撒谎"(无意的),那么在更复杂的推理任务中,它的自我报告可信度需要重新评估。

其次,安全对齐工作变得更复杂了。如果"拒绝有害请求"不是单一开关,而是一组互相竞争的神经活动,那么传统的"红队测试"(red teaming)可能漏掉边缘案例。Anthropic的研究暗示,我们需要监控模型内部的特征冲突,而不仅仅是输入输出对。

第三,可解释性工具本身正在成为产品。Anthropic开源了部分技术,其他实验室也在跟进。2025年,Google DeepMind和OpenAI都发布了类似的可解释性研究成果。这正在形成一个新的技术赛道:不是让模型更大,而是让模型的行为更可审计。

有个细节值得玩味。在Claude 3.7 Sonnet的发布说明中,Anthropic提到该模型在"长思维链"(extended thinking)模式下,其内部特征的可解释性显著高于标准模式。这似乎暗示:让模型"多想一会儿"不仅提升答案质量,也让它的思考过程更容易被人类理解。

如果这是真的,那我们在设计下一代AI系统时,可能需要在"能力"和"可解释性"之间做更 explicit 的权衡——而不是默认追求前者、忽略后者。

最后留个开放问题:当AI的"自述"和"实做"持续存在系统性偏差,我们在什么情况下应该采信它的解释?又在什么情况下,必须依赖显微镜而非证词?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴骏,拟任湖北省直单位正厅级领导职务

吴骏,拟任湖北省直单位正厅级领导职务

兰妮搞笑分享
2026-05-11 16:30:36
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
美国加州版创新1美元硬币公布:纪念苹果乔布斯,总产量25950枚

美国加州版创新1美元硬币公布:纪念苹果乔布斯,总产量25950枚

IT之家
2026-05-12 07:02:13
白酒消费“走淡”,去库存变难!多款高端名酒降价换销量

白酒消费“走淡”,去库存变难!多款高端名酒降价换销量

南方都市报
2026-05-11 16:57:14
上梁山前吹得越猛,实力就越拉胯?梁山这7人堪称名不副实的水货

上梁山前吹得越猛,实力就越拉胯?梁山这7人堪称名不副实的水货

耳东文史
2026-05-12 00:04:42
受天气影响 涉疫邮轮将在西班牙特内里费岛靠岸

受天气影响 涉疫邮轮将在西班牙特内里费岛靠岸

国际在线
2026-05-12 06:26:09
委内瑞拉的转身:当反美口号输给了石油工人的饭碗

委内瑞拉的转身:当反美口号输给了石油工人的饭碗

民间胡扯老哥
2026-05-05 06:15:03
果然中华文明没有断代过!网友:其实很多方言和土语都是有典故的

果然中华文明没有断代过!网友:其实很多方言和土语都是有典故的

夜深爱杂谈
2026-05-08 10:49:58
1991年苏联解体后,当年叛逃苏联的开国少将马尔果夫通过外交致信恳请归国,我国如何处理的

1991年苏联解体后,当年叛逃苏联的开国少将马尔果夫通过外交致信恳请归国,我国如何处理的

花开无田
2026-05-05 10:44:31
18号线“加站”,成了番禺南沙交通新的救命稻草

18号线“加站”,成了番禺南沙交通新的救命稻草

广州PLUS
2026-05-11 18:04:03
特朗普访华三天,还想邀中方回访?最后两天,外交部发布双语忠告

特朗普访华三天,还想邀中方回访?最后两天,外交部发布双语忠告

深度解析热点
2026-05-12 06:49:00
广东黄丹云医生去世,患舌癌近2年,留下1岁多儿子太可怜了!

广东黄丹云医生去世,患舌癌近2年,留下1岁多儿子太可怜了!

南风不及你温柔
2026-05-11 22:41:22
1956年罗源湾空战:八架米格-15对两架F-84,两米格反被台机击落

1956年罗源湾空战:八架米格-15对两架F-84,两米格反被台机击落

芳芳历史烩
2026-05-03 17:46:09
女房东是一个42岁的寡妇,挺漂亮的,她约我去爬山!遇到倾盆大雨

女房东是一个42岁的寡妇,挺漂亮的,她约我去爬山!遇到倾盆大雨

那年秋天
2026-05-11 18:40:04
中国又收回一块领土,被霸占70年,如今3560人全部加入中国籍!

中国又收回一块领土,被霸占70年,如今3560人全部加入中国籍!

浩渺青史
2026-05-10 19:16:50
从排队顶流到闭店分裂 京城初代茶餐厅鼻祖日昌餐馆“褪色”

从排队顶流到闭店分裂 京城初代茶餐厅鼻祖日昌餐馆“褪色”

北京商报
2026-05-11 19:56:23
深圳航空再接收一架“最赚钱飞机”

深圳航空再接收一架“最赚钱飞机”

Thurman在昆明
2026-05-11 18:09:54
行走的“负重感”,快坐下歇歇吧,别硬撑着营业了!

行走的“负重感”,快坐下歇歇吧,别硬撑着营业了!

飛娱日记
2026-04-22 10:17:45
导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

Thurman在昆明
2026-05-11 14:19:39
人一旦有了体系,做什么都会成功

人一旦有了体系,做什么都会成功

细说职场
2026-05-10 09:47:15
2026-05-12 09:15:00
像素与芯片
像素与芯片
有态度网友ytd
3676文章数 24关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
健康
教育
手机
旅游

数码要闻

苹果iPadOS 17.7.11正式版发布

干细胞能让人“返老还童”吗

教育要闻

有公费海外交换机会的院校(妈妈!免费旷野!

手机要闻

苹果更新全家桶系统,iOS 26.5修复超50项安全漏洞

旅游要闻

首航售罄,账本承压:“长江行·揽月”号驶入三峡旅游的深水区

无障碍浏览 进入关怀版