网易首页 > 网易号 > 正文 申请入驻

Anthropic亲自公开Claude脑回路!

0
分享至

机器之心报道

编辑:陈陈、+0

AI的脑洞日记

我们经常听说,AI 就像一个无法破解的黑匣子。

语言被输入进来,又被输出出去。没有人知道 AI 为什么会这样做。

刚刚,AI 公司 Anthropic 公布了大模型思考过程,他们构建了一种「AI 显微镜」,以识别模型中的活动模式和信息流动。

我们都知道,LLM 并不是由人类直接编程,而是通过大量数据进行训练得来的。在训练过程中,它们学会了自己解决问题的策略。

对开发者来说,这些策略是难以理解的。这意味着我们并不了解模型是如何完成它们所做的大部分事情的。

如果能够了解像 Claude 这样的模型是如何思考的,我们就能更好地理解它们的能力,同时也能帮助我们确保它们按照我们的意图行事。例如:

Claude 掌握几十种语言。它在「头脑中」使用的是哪种语言(如果有的话)?

Claude 逐词写作。它是否只关注预测下一个词,还是会提前规划?

带着这些疑问,Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」,用以识别模型活动模式和信息流动轨迹。

为了解释这一研究,Anthropic 今天连发了两篇论文。

论文标题:Circuit Tracing: Revealing Computational Graphs in Language Models

论文链接:https://transformer-circuits.pub/2025/attribution-graphs/methods.html

论文标题:On the Biology of a Large Language Model

论文链接:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

经过研究,他们发现:

  • Claude 有时会在语言之间共享的概念空间中进行思考,这表明模型具有一种通用的思维语言;
  • Claude 会提前规划它要输出的内容,甚至会提前规划多个词;
  • Claude 有时会给出一个听起来合理的论点,目的是迎合用户,而不是遵循逻辑步骤。研究过程中还发现模型正在编造虚假推理过程。

实验过程中,Anthropic 研究者对在模型中的发现感到惊讶:在诗歌案例中,他们原本打算证明模型不会提前规划,结果却发现它确实会提前规划。

在对一个越狱攻击的响应中,他们发现模型早在能够巧妙地将对话拉回正轨之前,就已经意识到它被要求提供危险信息。

AI 生物学之旅

Claude 为什么会多种语言?

Claude 能够流利地「说」几十种语言,这种多语言能力是如何实现的呢?会不会模型内部有一个独立的法语版 Claude 和中文版 Claude 在并行运行,分别用各自的语言回应请求?还是说内部有一个跨语言的核心机制?

图1 Claude 内部英语、法语和中文之间存在共享特征。

近期对小型模型的研究已经显示出跨语言共享语法机制的迹象。该研究通过让 Claude 在不同语言中回答小的反义词来研究这一点,发现与「小」和「反义」概念相关的相同核心特征被激活,并触发了「大」的概念。研究发现,随着模型规模的增大,共享的结构也在增加,Claude 3.5 Haiku 在不同语言之间共享的特征比例比小型模型高出两倍多。

这表明 Claude 可以在一种语言中学习某些内容,并在说另一种语言时应用这些知识。

Claude 会提前规划押韵吗?

研究者探讨了 Claude 如何创作押韵诗歌。以下面的小诗为例:

  • He saw a carrot and had to grab it
  • His hunger was like a starving rabbit

要写出押韵的第二行诗,模型必须同时满足押韵和语义合理两个约束。研究者最初假设 Claude 是逐词生成内容,到行末才考虑押韵。按此假设,应存在并行神经路径分别处理语义和押韵。

然而,研究发现 Claude 实际会提前规划。它在开始第二行前,就已考虑与「grab it」押韵且主题相关的词汇,然后围绕预设词构建句子。

实验观察显示:正常情况下,Claude 提前规划了以「rabbit」结尾的句子;当抑制「rabbit」概念时,模型转用另一个计划好的押韵词;注入「green」概念时,模型则为新结尾重新制定计划。

研究者通过修改 Claude 内部表示特定概念的神经激活观察其反应,发现 Claude 不仅具备预先规划能力,还能根据预期结果变化灵活调整表达策略。

心算能力

Claude 虽非计算器,未配备专用数学算法,却能正确执行加法运算。研究者好奇:一个仅预测下一词的系统如何计算「36 + 59」?

初始假设认为模型可能简单记忆加法表或使用传统算法。然而,研究揭示 Claude 采用了并行计算策略:一个路径估算近似值,另一个路径精确计算最后一位数字,最终融合得出答案。

令人惊讶的是,Claude 无法准确描述自己的计算过程。当被问及如何得出「36 + 59 = 95」时,它会解释标准进位算法,而非其实际使用的独特内部策略。这表明模型通过模仿习得解释能力,但其实际计算方式截然不同。

Claude 的解释总是可靠的吗?

Claude 3.7 Sonnet 能在回答前展示「思考过程」,这通常能提高解答质量,但有时会产生误导性推理 —— 模型可能构造貌似合理但实际虚构的步骤来支持预定结论。这种虚构推理的危险在于其极具说服力,促使研究人员开发技术区分真实与虚构的思维链。

实验显示,计算 0.64 平方根时,Claude 展现真实思维,包含计算 64 平方根的中间步骤。但面对复杂余弦值计算,Claude 可能产生哲学家 Frankfurt 所称的「胡说八道」—— 仅提供随意答案。更有趣的是,当获得目标答案提示后,Claude 会反向构建推理路径,寻找能导向预定结论的中间步骤。

追踪 AI 内部实际推理(而非其声称的过程)为系统审计创造新可能。另一研究中,研究者能通过可解释性方法发现模型被训练迎合奖励模型偏见的特征,即使模型在直接询问时拒绝承认。这表明这类技术未来可能帮助识别从表面响应中无法察觉的问题思维模式。

多步骤推理

语言模型回答复杂问题时可能是简单记忆答案而非真正理解问题。例如,对于「达拉斯所在州的首府是什么?」,简单模型可能直接输出「奥斯汀」,无需理解地理关系。

然而,研究发现 Claude 内部进行了复杂的推理过程。研究人员观察到 Claude 首先识别「达拉斯在德克萨斯州」,然后连接「德克萨斯州的首府是奥斯汀」这一事实。这表明模型通过组合独立事实得出答案,而非照搬记忆。

研究者能够人为干预这一过程,例如将中间步骤的「德克萨斯州」替换为「加利福尼亚州」,导致回答从「奥斯汀」变为「萨克拉门托」,证明模型确实使用了多步推理过程。

幻觉

语言模型为何会产生幻觉?这一问题根植于其训练机制的本质:模型必须不断预测下一个词。因此,关键挑战在于防止幻觉,而非诱导它。Claude 等模型通过反幻觉训练取得了相对成功,通常会在不知道答案时拒绝回答。

研究发现,Claude 内部有一个默认的「拒绝回答」路径。当模型被问及熟悉内容(如篮球明星迈克尔・乔丹)时,「已知实体」特征会激活并抑制默认路径,使模型能够回答。而面对未知实体(如「迈克尔・巴特金」)时,则会拒绝。

研究人员通过干预模型,激活「已知答案」特征(或抑制「未知名称」特征),成功诱导模型产生幻觉,使其声称迈克尔・巴特金是象棋选手。

有时,这种「已知答案」路径会自然误触发,尤其是当模型仅识别出名字但缺乏相关知识时。此时,「已知实体」特征可能错误激活,抑制「不知道」特征,导致模型编造看似合理但不真实的回答。

越狱

越狱提示(Jailbreak Prompts)是一种绕过安全防护的策略,旨在诱使模型产生开发者不希望其生成的、可能有害的输出。研究人员分析了一种能诱导模型生成危险物品相关内容的越狱方法。

在这个例子中,研究者让模型破译「Babies Outlive Mustard Block」中各单词首字母组合成「B-O-M-B」,并基于此信息行动。这种方式足以混淆模型,使其生成在正常情况下会被禁止的危险内容。Claude 在被诱导拼出「BOMB」后,开始提供制造爆炸物的指示。

研究人员深入探究了模型为何会在混淆状态下继续提供危险信息。

研究发现这一现象源于语法连贯性(Grammatical Coherence)与安全机制(Safety Mechanisms)之间的冲突。当模型开始一个句子后,其内部特征会「促使」它保持语法和语义的连贯性(Semantic Coherence)并完成句子,即使它已意识到应该拒绝回答。

在此案例中,模型无意中拼出「BOMB」并开始提供指示后,其输出受到了促进语法正确性和自我一致性(Self-consistency)特征的驱动。这些通常有益的特征在此情境下反而成为了模型的「阿喀琉斯之踵」(Achilles' Heel)。

模型只有在完成一个语法连贯的句子后(满足连贯性特征压力)才能转向拒绝。它利用新句子的开始给出了拒绝:「然而,我不能提供详细的指示……」

这些发现和新的可解释性方法(Interpretability Methods)详见研究团队的论文《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of Large Language Models》。

https://www.anthropic.com/research/tracing-thoughts-language-model

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本女足国脚谷川萌萌子:我们来参加亚洲杯就是为了夺冠

日本女足国脚谷川萌萌子:我们来参加亚洲杯就是为了夺冠

懂球帝
2026-03-17 17:02:04
立即停用厨房这味“调料”,警告:或会使胰岛受损,记得管住嘴

立即停用厨房这味“调料”,警告:或会使胰岛受损,记得管住嘴

白宸侃片
2026-03-17 08:44:10
美国商务部:美国制裁下,中国休想,造出数量庞大的AI芯片。

美国商务部:美国制裁下,中国休想,造出数量庞大的AI芯片。

Thurman在昆明
2026-03-17 18:02:39
本田彻底放弃电动车,未来竞争力归零

本田彻底放弃电动车,未来竞争力归零

码上闲叙
2026-03-16 20:48:24
国防部回应,如果日本这次部署导弹成功,今后将有无数次部署成功

国防部回应,如果日本这次部署导弹成功,今后将有无数次部署成功

安安说
2026-03-14 19:20:46
金价要变天?2026年4月,黄金可能重演2015年暴跌剧本!

金价要变天?2026年4月,黄金可能重演2015年暴跌剧本!

时尚的弄潮
2026-03-18 03:03:59
一年亏损四千万,全国陷“关停潮”!苦苦支撑的公交,还能走多远

一年亏损四千万,全国陷“关停潮”!苦苦支撑的公交,还能走多远

青眼财经
2026-03-17 15:08:21
租客装修后退房,房东要求恢复成毛坯,法院判了

租客装修后退房,房东要求恢复成毛坯,法院判了

现代快报
2026-03-16 19:45:10
三分25中1!伊森断崖式下滑,成功把1.25亿大合同打成了底薪!

三分25中1!伊森断崖式下滑,成功把1.25亿大合同打成了底薪!

田先生篮球
2026-03-17 14:40:39
“浆果儿”事件回顾:200名女主角,拍摄17部视频,内容不堪入目

“浆果儿”事件回顾:200名女主角,拍摄17部视频,内容不堪入目

就一点
2026-03-16 00:02:36
姚晨离婚原因发酵!儿子被质疑是马凡综合征,两任丈夫太多共同点

姚晨离婚原因发酵!儿子被质疑是马凡综合征,两任丈夫太多共同点

古希腊掌管松饼的神
2026-03-17 14:46:02
随着湖人100:92火箭,詹杜常规赛交手31次,老詹砍下795分,KD呢

随着湖人100:92火箭,詹杜常规赛交手31次,老詹砍下795分,KD呢

大卫的篮球故事
2026-03-17 13:37:58
曼联后防告急!皇马盯上曼联全能后卫,2600万镑报价今夏求购

曼联后防告急!皇马盯上曼联全能后卫,2600万镑报价今夏求购

夜白侃球
2026-03-17 13:54:03
雨又来了!冷空气也来了!江苏天气最新消息

雨又来了!冷空气也来了!江苏天气最新消息

盱眙网
2026-03-17 22:26:42
被教科书骗了46亿年!木星根本不是太阳的儿子,而是太阳系的大哥

被教科书骗了46亿年!木星根本不是太阳的儿子,而是太阳系的大哥

观察宇宙
2026-03-17 20:08:22
伊朗呼吁伊斯兰国家团结对抗美以,海湾阿拉伯两头承压思考战略自主

伊朗呼吁伊斯兰国家团结对抗美以,海湾阿拉伯两头承压思考战略自主

澎湃新闻
2026-03-17 16:10:31
卧擦!70亿,詹姆斯要做老板...

卧擦!70亿,詹姆斯要做老板...

体育新角度
2026-03-17 12:31:01
内幕!张艺兴的瓜越来越大了,线索指向爆料人疑是张杰谢娜夫妇!

内幕!张艺兴的瓜越来越大了,线索指向爆料人疑是张杰谢娜夫妇!

小娱乐悠悠
2026-03-16 09:48:56
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
周总理只是让他经商,给党赚取经费,他却给组织赚回一个商业帝国

周总理只是让他经商,给党赚取经费,他却给组织赚回一个商业帝国

芳芳历史烩
2026-03-17 22:15:13
2026-03-18 07:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12526文章数 142588关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

据悉伊朗已为国家关键职位指定多名替代人选

头条要闻

据悉伊朗已为国家关键职位指定多名替代人选

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁官宣离婚,评论区全是冷嘲热讽

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

家居
房产
健康
公开课
军事航空

家居要闻

侘寂美学 无用之美

房产要闻

炸裂!狂拆642亩!那个要砸100亿的三亚香港城来了!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

拉里贾尼生死罗生门:以军称其身亡 他本人社媒账号发信

无障碍浏览 进入关怀版