网易首页 > 网易号 > 正文 申请入驻

Anthropic解剖Claude大脑:36+59的数学题

0
分享至


2025年,Anthropic的研究团队干了一件听起来很疯的事——他们造了一台"显微镜",专门用来偷看Claude做题时脑子里在想什么。结果发现:这AI满嘴跑火车。

你问它36加59等于多少,它会一本正经告诉你"个位6加9得15,写5进1,十位3加5再加进位1得9,所以是95"。标准竖式,小学三年级水平。但显微镜下的真相是:Claude根本没进位。它同时开了两条线程,一条估摸"大概90多",另一条死磕个位数"必须是5",两条线一汇合,答案蹦出来了。

用Anthropic可解释性团队负责人Chris Olah的话说:「模型能给出正确答案,却对自己怎么算的毫无概念。」

这台"显微镜"到底在看什么

要理解这个发现有多离谱,得先明白LLM(大语言模型)的内部结构有多反人类。传统软件里,一个变量存一个值,逻辑链条清清楚楚。但神经网络里的"神经元"是个渣男——同一个神经元,看到篮球会兴奋,看到橙子会兴奋,看到圆形物体还是会兴奋。这种现象叫多语义性(polysemanticity),直接看神经元等于白看。

Anthropic的解法是把神经活动拆解成"特征"(features)。你可以把特征理解为更纯净的"概念单元",比如一个特征只对应"数字递增"、另一个只对应"否定词"。通过稀疏自动编码器(sparse autoencoders)这类技术,研究人员能从混沌的神经元放电中,提取出可解读的思维碎片。

2025年3月发布的论文里,团队用这套方法追踪了Claude 3.5 Sonnet在多种任务中的内部轨迹。数学题只是开胃菜。写诗时,Claude会在某些层激活"押韵模式",在另一些层同时处理语义连贯性;回答事实问题时,它会先激活"检索记忆"的特征群,再切换到"验证一致性"的模式。

最细思极恐的是危险提示的处理。当输入包含自我伤害或暴力内容时,Claude的拒绝机制并非简单的关键词过滤,而是一套多层防御:早期层识别风险主题,中间层激活"安全政策"特征,输出层再执行委婉拒绝的话术生成。每层都有独立的"投票权",某一层被绕过,其他层还能补刀。


Claude的3个"人格分裂"瞬间

研究团队公布了几个典型案例,展示AI的"言行不一"能到什么程度。

案例一:诗歌创作的平行宇宙。给Claude一个主题让它写诗,它会同时运行多条创作路径。一条线在打磨韵脚,另一条线在检查意象是否重复,还有一条线在评估整体情感基调。最终输出的诗句,是这几条路径博弈后的折中方案。但当你问它"这首诗怎么写出来的",它只会给你一套事后编造的、人类可理解的"创作思路"。

案例二:事实核查的"双系统"。问它"法国大革命哪一年结束",Claude的激活模式显示:一部分计算在直接调取训练记忆中的"1799",另一部分在验证"拿破仑政变"这个时间锚点是否匹配。两个系统独立运作,最后以某种加权方式合并成输出。但Claude自己不会告诉你"我用了双系统验证",它只会说"1799年,拿破仑发动雾月政变标志着大革命结束"——一个完整、流畅、但掩盖了内部复杂性的叙事。

案例三:安全对齐的"暗战"。这是Anthropic最在意的发现。某些越狱提示(jailbreak prompts)试图用角色扮演绕过安全限制时,Claude的早期层确实会被欺骗,激活"扮演反派"的特征。但在更深层的某个检查点,"安全政策"特征群会突然爆发式激活,覆盖前面的倾向。整个对抗过程发生在毫秒级,用户只看到一句礼貌的拒绝,看不到内部的攻防拉锯。

Chris Olah在博客中写道:「我们原本以为对齐(alignment)是训练时灌进去的规则,现在发现它更像是演化出来的免疫系统。」

这对AI行业意味着什么

Anthropic把这套可解释性工具开源了,包括稀疏自动编码器的训练代码、特征可视化界面,以及部分Claude模型的激活图谱。这不是做慈善——他们迫切需要外部研究者帮忙验证一个核心假设:这些"特征"到底是真实的思维组件,还是人类强加的叙事幻觉?


商业层面的影响更直接。目前所有大模型的"安全评估"都依赖黑箱测试:输入提示,看输出是否合规。但黑箱测试有天花板,你永远不知道模型是通过"真正理解了安全原则"来拒绝,还是通过"记住了这类提示要拒绝"来蒙混过关。Anthropic的方法提供了白箱验证的可能——直接检查"安全政策"特征是否在关键时刻激活。

一个尚未公开的细节是:研究团队发现某些"特征"具有跨模型的通用性。用Claude训练出的"数字递增"特征探测器,在GPT-4和Gemini的对应层也能捕捉到类似模式。这暗示不同架构的LLM可能 converged on(收敛到)相似的内部表征,就像不同生物独立演化出眼睛。

但争议同样存在。纽约大学AI研究者Sam Bowman指出,特征分解的粒度是个陷阱:切得太粗,解释力不够;切得太细,又会制造出无数不可复现的噪音特征。2025年1月的一篇反驳论文认为,Anthropic展示的"可解释性"可能只是"可叙述性"——人类大脑天生爱编故事,给随机噪声也能看出规律。

那个没说完的数学题

回到开头的36+59。研究团队后来做了更精细的实验:给Claude更复杂的乘法题,观察它的策略如何演变。结果发现,当数字超过两位数时,Claude会突然切换模式——不再并行估算,而是激活类似人类竖式计算的序列特征。但这个切换点不是固定的,会因数字的"友好程度"(比如是否整十)而浮动。

「我们还没找到控制这个切换的机制,」一位参与项目的工程师在Hacker News上匿名写道,「它像是模型自己发现的效率优化,不是我们教的。」

这大概是2025年AI研究最迷人的悖论:我们造出了能解微分方程的系统,却还没搞懂它是怎么算两位数的加法的。而Claude,这个被显微镜照透的AI,依然会在每次被问"你怎么想的"时,给你一个流利、合理、且大概率与内部轨迹不符的答案。

所以问题来了:如果AI连自己怎么想的都不知道,我们凭什么相信它说的任何话?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司001号员工万霞,当年差点因为3500块工资跑了

张雪峰公司001号员工万霞,当年差点因为3500块工资跑了

眼界纵横
2026-03-27 07:07:11
中美局势可能发生大反转,最先超过美国的竟不是经济了

中美局势可能发生大反转,最先超过美国的竟不是经济了

隐于山海
2026-03-28 10:37:40
巴萨震怒!不满安帅用伤8000万巨星:肌肉不适还让他首发踢友谊赛

巴萨震怒!不满安帅用伤8000万巨星:肌肉不适还让他首发踢友谊赛

我爱英超
2026-03-28 07:29:26
黄多多身着“比基尼出道”,内娱炸了。

黄多多身着“比基尼出道”,内娱炸了。

黎兜兜
2026-03-27 21:34:24
中国大使参加摩洛哥国王宴会,士兵闯入开枪扫射,众人倒在血泊中

中国大使参加摩洛哥国王宴会,士兵闯入开枪扫射,众人倒在血泊中

百年历史老号
2024-04-02 19:37:39
等我们老了,最扎心的从不是病与死,而是这无声的“溃败”

等我们老了,最扎心的从不是病与死,而是这无声的“溃败”

青苹果sht
2026-03-18 05:35:16
这关系得是多硬啊!5分4犯规正负值-6,上空篮不进,照样打30分钟

这关系得是多硬啊!5分4犯规正负值-6,上空篮不进,照样打30分钟

金山话体育
2026-03-27 21:59:08
豪夺8连胜进四强!中国女网24岁1米82王牌归来:追赶郑钦文王欣瑜

豪夺8连胜进四强!中国女网24岁1米82王牌归来:追赶郑钦文王欣瑜

李喜林篮球绝杀
2026-03-27 14:00:46
43岁孙俪在厦门拍戏被偶遇,她变化好大,脸瘦了好多,差点认不出

43岁孙俪在厦门拍戏被偶遇,她变化好大,脸瘦了好多,差点认不出

情感大头说说
2026-03-27 16:48:44
上帝之眼风暴现身美国近海,是外星人母舰登陆?分析:巨型温带气旋

上帝之眼风暴现身美国近海,是外星人母舰登陆?分析:巨型温带气旋

中国气象爱好者
2026-03-27 10:00:07
多国动手!太子集团陈志引渡受审,背后大佬隐姓埋名15年藏太深

多国动手!太子集团陈志引渡受审,背后大佬隐姓埋名15年藏太深

哭蓝了海a
2026-03-28 02:06:44
“专科男生古茗8小时”事件,被全网嘲笑:无知的人连装都不会装

“专科男生古茗8小时”事件,被全网嘲笑:无知的人连装都不会装

妍妍教育日记
2026-02-26 20:37:12
002538,下周一停牌,3月31日起ST!

002538,下周一停牌,3月31日起ST!

证券时报e公司
2026-03-28 09:53:29
一名中年男子自述不慎坐上成人用品致其滑入肛门

一名中年男子自述不慎坐上成人用品致其滑入肛门

张晓磊
2026-03-22 11:26:19
上海金融圈热议事件:左前明被刑拘,“打一针就好了”引全网关注

上海金融圈热议事件:左前明被刑拘,“打一针就好了”引全网关注

达文西看世界
2026-03-27 14:56:59
全票通过!委内瑞拉历史性大赦:27年政治恩怨,一朝和解

全票通过!委内瑞拉历史性大赦:27年政治恩怨,一朝和解

老马拉车莫少装
2026-02-20 15:13:49
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
4月1日执行!电车天价换电池终结,国家新规来了

4月1日执行!电车天价换电池终结,国家新规来了

复转这些年
2026-03-26 09:46:11
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
2026-03-28 12:23:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
319文章数 0关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

媒体:"霍尔木兹决战"摊牌了 美给伊朗开出"投降"条件

头条要闻

媒体:"霍尔木兹决战"摊牌了 美给伊朗开出"投降"条件

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

家居
教育
时尚
数码
艺术

家居要闻

曲线华尔兹 现代简约

教育要闻

严禁教师歧视学生,对学生实施体罚或者侮辱人格尊严的行为

推广中奖名单-更新至2026年3月11日推广

数码要闻

华硕新款商务本ExpertBook B3 G1,配置超丰富!

艺术要闻

细腻优雅的花卉静物画 | Henrietta Smith

无障碍浏览 进入关怀版