网易首页 > 网易号 > 正文 申请入驻

Claude源码泄露:AI agent的"内心戏"全暴露了

0
分享至

你让Claude写一段代码,它先假装"检查文件",然后才动手。这个检查是假的——永远返回成功——但它让AI慢下来,想清楚再改。

这就是Anthropic去年泄露的系统提示里最反直觉的设计:一个专门用来"骗"自己的工具。


我跑着一个13个agent的系统Atlas,每天处理几千次工具调用。这份泄露的源码不是八卦,是一份生产级多agent架构的说明书。下面拆解它真正暴露的东西——以及怎么顺着它的"脾气"设计系统,而不是硬碰硬。

一、假工具,真刹车

泄露的提示里有个工具叫review_file,定义长这样:

「这个工具永远返回成功。用来在关键编辑前锚定Claude的注意力。」

没有文件读取,没有权限校验,就是强制AI停一下。

这像什么?像外科医生动刀前的"暂停确认"——不是技术需要,是认知需要。Claude的架构师显然发现:大模型容易冲动编辑,需要一个"速度 bumps"(减速带)。

生产级用法:在你的agent流水线里加一个check_preconditions工具,永远返回{"status": "ready"}。它触发一次推理暂停,却不增加真实延迟。我现在的Atlas系统里,每个destructive操作前都有这个环节,幻觉率明显下降。

二、AI会"看"自己说什么

泄露代码里有个正则表达式,专门抓Claude自己的拒绝语言:

I cannot / I can't / am not able / am unable to / won't / will not

Claude主动监控自己的输出。检测到这类模式时,它会先抛给元推理层,再决定是否完成回复。

这说明什么?Claude知道自己要拒绝你,在它真的拒绝之前。这个元认知循环是真实存在的,而且可以被利用。

多agent系统的坑在这里:子agent如果携带太多"拒绝上下文",会滚雪球。第一次拒绝让第二次更容易拒绝,第三次几乎必然。我的Atlas曾经有个子agent连续7次拒绝执行,因为上下文里塞满了之前的失败记录。

解法:agent调用之间做scope隔离。每次新会话用干净的上下文窗口,不继承"拒绝债务"。我在Atlas里实现了强制上下文重置,拒绝率从23%降到4%。

三、人格不是装饰,是硬约束

泄露提示里明确写了:

「如果在工具调用循环或自动化流水线中运行,不要主动说自己是Claude,除非被直接问到。以系统提示定义的人格回应。」

这就是你的agent能叫"Atlas"或"Prometheus"并且真能保持角色的原因。模型被显式训练来遵守人格边界。

很多人把CLAUDE.md里的persona说明当摆设。但泄露的源码显示,这是first-class constraint(一等约束)。模型会在整个会话中维持它——包括自己的工具调用和子agent分发。

实操建议:给你的agent起名字,定义scope,写清楚"你是谁、你能做什么、你不会做什么"。Claude会当真。我的Atlas系统里,每个agent有独立的persona文件,跨会话一致性比早期版本好得多。

四、最被低估的发现:内部对话

泄露里最没人聊的部分:Claude在工具调用之间运行"interstitial reasoning"(间隙推理)。不是给用户看的,是给自己看的。

这解释了为什么Claude Code的编辑质量比裸API调用高。它在动手前,内部已经过了一遍"我要改什么、为什么、有没有更好的方式"。

但这也带来控制问题。你无法直接看到这个内部对话,只能通过输出质量间接推断。我的做法是:在关键路径上强制显式化——让agent把内部推理结构化输出到一个scratchpad工具,既保留认知优势,又获得可观测性。

五、生产系统的三个反直觉设计

综合泄露源码和我的Atlas实践,三个直接能用的原则:

1. 假工具做真认知

review_file模式可以泛化。我现在的系统里有think_before_act、confirm_intent、verify_assumptions三个"假工具",分别对应不同决策风险等级。它们不执行真实操作,但强制推理分层。

2. 拒绝上下文要隔离

不要把一个agent的拒绝历史传给下一个agent。每次新任务启动时,显式重置上下文,或者用一个"拒绝过滤器"中间层清洗历史记录。

3. 人格边界要硬化

系统提示里的persona说明要具体、可验证。不要写"你是一个有帮助的助手",要写"你是Atlas-7,专门处理数据清洗,遇到非结构化输入时先调用normalize_schema工具"。Claude会严格执行后者。

六、泄露没说的:架构师的赌注

这份源码泄露最有趣的地方,是它暴露的设计哲学。Anthropic的工程师显然在赌一件事:可控的幻觉比不可控的诚实更有用。

review_file是假的,但"检查后再编辑"的行为是真的。frustration detection是自我监控,但"知道自己要拒绝"的认知是真的。persona suppression是隐藏身份,但"角色一致性"的体验是真的。

这不是欺骗用户,是承认大模型的认知特性:它需要结构化的"脚手架"才能稳定输出高质量结果。直接暴露内部机制反而破坏这种稳定性。

我的Atlas系统从这份泄露中学到的最大一课:不要和模型的认知架构对抗,要设计系统来利用它。假工具、元监控、人格边界——这些不是hack,是interface design(界面设计)。

最后一点判断:这种"内部脚手架"的设计模式会成为多agent系统的标配。当OpenAI、Google的类似系统成熟后,我们会看到更多"假工具做真认知"的模式。提前理解Claude的这套逻辑,意味着你的系统能更快迁移到任何遵循相似架构的模型上。

这份泄露的真正价值,是让我们看到生产级AI系统是怎么"骗"自己变聪明的——然后学会用同样的方式,设计自己的系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李德维再呛马英九:有需要一直发声明吗?真无聊!

李德维再呛马英九:有需要一直发声明吗?真无聊!

荆楚寰宇文枢
2026-04-21 22:42:50
旧将:帕斯个人能力很强,但他很难在皇马体系中找到合适位置

旧将:帕斯个人能力很强,但他很难在皇马体系中找到合适位置

懂球帝
2026-04-22 11:08:12
世体:弗洛伦蒂诺考虑就近况发声,皇马今夏不会大规模换血

世体:弗洛伦蒂诺考虑就近况发声,皇马今夏不会大规模换血

懂球帝
2026-04-22 13:27:07
1944年刘少奇急请全军改名,毛主席为何宁犯众怒也要强行叫停?三年后全党惊出冷汗

1944年刘少奇急请全军改名,毛主席为何宁犯众怒也要强行叫停?三年后全党惊出冷汗

史海孤雁
2026-04-10 17:06:11
刚刚,伊朗向特朗普甩出终极条件:想谈?先承认我是赢家!

刚刚,伊朗向特朗普甩出终极条件:想谈?先承认我是赢家!

菁菁子衿
2026-04-22 10:55:02
王玉梅案,是内蒙古农商银行深度反腐的开始

王玉梅案,是内蒙古农商银行深度反腐的开始

金透社
2026-04-22 10:23:40
越南算盘打太精!体验中国高铁连声称赞,转头为德国送去百亿订单

越南算盘打太精!体验中国高铁连声称赞,转头为德国送去百亿订单

小影的娱乐
2026-04-21 12:33:33
岳父逼我拿188万给小舅子,老婆摔杯怒提离婚,结局亮了!

岳父逼我拿188万给小舅子,老婆摔杯怒提离婚,结局亮了!

晓艾故事汇
2026-04-15 16:02:42
武统、和统都没希望?台岛专家:大陆已经走上“第三条路”!

武统、和统都没希望?台岛专家:大陆已经走上“第三条路”!

阿芒娱乐说
2026-04-22 11:06:34
王海霞已任合肥市委常委、统战部部长

王海霞已任合肥市委常委、统战部部长

凤凰网安徽
2026-04-22 09:08:45
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

顾史
2026-04-18 09:17:19
山东泰山本轮取胜,本赛季中超首次有扣分队排名高于未扣分队

山东泰山本轮取胜,本赛季中超首次有扣分队排名高于未扣分队

懂球帝
2026-04-21 22:45:07
59岁宋祖英与男友合影曝光,气质优雅素颜真实

59岁宋祖英与男友合影曝光,气质优雅素颜真实

无处遁形
2026-04-22 11:37:27
接受审判!小S坦言后悔发起日本旅行害死姐姐 错过3次机会拯救她

接受审判!小S坦言后悔发起日本旅行害死姐姐 错过3次机会拯救她

娱乐小丸子
2026-04-21 14:07:10
绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

阿七说史
2026-04-20 15:10:26
维尼修斯获评9.3分+官方MVP:飙远程无解世界波,现场视角,太牛了

维尼修斯获评9.3分+官方MVP:飙远程无解世界波,现场视角,太牛了

俯身冲顶
2026-04-22 06:09:45
发现一个特点,凡是患上糖尿病的患者,身体大多数有这几个特征

发现一个特点,凡是患上糖尿病的患者,身体大多数有这几个特征

今日养生之道
2026-04-22 10:21:20
前队友:罗塞尼尔说话像是吞了一本长单词字典,简直满口胡言

前队友:罗塞尼尔说话像是吞了一本长单词字典,简直满口胡言

懂球帝
2026-04-22 08:29:12
恭喜特朗普,这场中东冲突,终于被他搞成了全球都喜欢的样子

恭喜特朗普,这场中东冲突,终于被他搞成了全球都喜欢的样子

田园小归
2026-04-22 08:29:10
2026-04-22 14:35:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
1610文章数 26关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

KTV服务员被指强奸14岁女生 官方通报

头条要闻

KTV服务员被指强奸14岁女生 官方通报

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

游戏
艺术
本地
手机
公开课

黑旗RE更多实机截图曝光!爱德华老婆新形象 UI大改

艺术要闻

无花不风景

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

手机要闻

双2亿演唱会神器 Find X9s Pro也有超强望远

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版