网易首页 > 网易号 > 正文 申请入驻

从41%暴跌至3%!Claude和Hermes用户必看的效率规则

0
分享至

这两天某知名网站上有一篇文章挺火,标题很抓人:Karpathy (就是那个创造了llm-wiki的大神) 的 4 条 CLAUDE.md 规则,把 Claude 的出错率从 41% 降到 11%;作者又在 30 个代码库里测试了 6 周,继续补了 8 条规则,最后把错误率压到 3%。

这个数字很吸引人,先不看这个它的真实与否,真正值得看的也不是“3%”这个数字本身,而是它把很多 Claude Code 和 Hermes 用户都会遇到的问题讲透了。

很多人刚开始用 Claude Code 或 Hermes 写代码时,最关心的是它能不能写出来。用一段时间后,真正烦人的问题会慢慢出现:它不是不会写,而是经常写得像完成了,实际却在某些地方悄悄跑偏。

比如你让它修一个小问题,它顺手改了旁边几个文件;你让它补测试,它确实补了,但测试没有覆盖真正的业务逻辑;你让它跑迁移,它说完成了,过几天才发现有一部分数据被跳过;你让它遵守项目风格,它看到两种旧写法,最后混出第三种更奇怪的写法。

这些问题比直接报错更麻烦。报错至少会告诉你哪里坏了,假完成会让你以为事情已经结束,直到后面更难收拾的时候才暴露。

这篇文章的价值就在这里。它不是再教你写一段更花哨的提示词,而是在讨论一件更底层的事:如果你经常让 AI Agent 进项目、改代码、跑命令、做多步任务,就不能只给它任务,还要给它工作纪律。




CLAUDE.md 到底有什么用?

CLAUDE.md 可以理解成 Claude Code 进入项目后会看的项目规则文件。它不是让你每次都在聊天框里重复“请谨慎一点”“请不要乱改”,而是把一些长期有效的协作规则写下来,让 Claude 每次处理这个项目时都有基本约束。

Hermes 用户也可以用同样思路。文件名不一定叫 CLAUDE.md,你可以把这些规则放进项目规则、Skill 说明,或者常用的代码任务约束里。关键不是文件名,而是让 Agent 在动手之前先看到这些规矩。

原文提到,Karpathy 当时吐槽过 Claude 写代码的几个典型问题:默默做错误假设,把简单问题搞复杂,顺手破坏不该碰的代码。后来 Forrest Chang 把这些问题整理成 4 条规则,放进一个 CLAUDE.md 文件,项目迅速走红。作者后面在真实代码库里继续测试,认为这 4 条规则能解决早期常见问题,但现在 Claude Code 的使用已经变成多步骤 Agent 工作流,问题也变多了,所以他又补了 8 条。

这条脉络很有意思。它说明项目规则不是装饰,也不是“写给 AI 看看的礼貌提示”。好的规则应该来自真实错误,每一条都对应一个具体失败模式。

最基础的 4 条,解决的是“别乱写”

最早那 4 条规则,其实都很朴素。

第一,写之前先想清楚。需求有歧义时,不要默认猜一个答案就开工,要把假设说出来,必要时先问。

第二,简单优先。能用最小改动解决的问题,不要为了显得高级去加抽象、加框架、加未来可能用到的扩展。

第三,只做必要修改。你让它修一个问题,它就修那个问题,不要顺手美化旁边代码,不要重排无关格式,不要改没坏的地方。

第四,按目标执行。不要只机械执行步骤,要知道成功标准是什么,做完后要能验证。

这 4 条对新手已经很有帮助。很多 AI 写代码的翻车,根本不是技术能力不够,而是边界没守住。它不是改不了,而是改太多;不是不会想,而是默默替你做假设;不是不会测试,而是没把“什么算完成”讲明白。

如果你只想给 Claude Code 或 Hermes 加一份最短规则,这 4 条就可以作为底线。

为什么还需要后面 8 条?

原文更有价值的部分,是它指出现在的问题已经不只发生在“写代码”那一刻。

早期你可能只是让 AI 改一个函数、补一段逻辑。现在 Claude Code、Hermes 这类工具会读文件、跑命令、调用工具、写测试、多轮推进,甚至参与长任务和跨文件重构。任务形态变了,风险也跟着变了。

原来的 4 条规则,主要防止 AI 在局部写代码时乱猜、乱加、乱改。但长任务里还会出现别的问题:上下文越来越长,Agent 开始绕圈;某一步错了,它继续在错误基础上往下做;项目里存在两套冲突风格,它试图折中;测试虽然通过,但其实没有测到真实意图;迁移或脚本跳过了异常数据,却用一句“完成”带过去。

这些问题都需要更具体的约束。

最值得抄的几条

我个人不建议所有人无脑复制完整 12 条。规则越多,越容易变成噪音。更好的做法是先看自己最常遇到什么问题,再把对应规则加进去。

如果你的 Agent 总是把简单逻辑做复杂,就加“简单优先”。如果它总是顺手改旁边文件,就加“只做必要修改”。如果它总是写测试但测不到重点,就加“测试必须验证业务意图”。规则要服务于真实问题,不要为了显得专业把所有东西都塞进去。

原文补充的 8 条里,有几条尤其值得 Claude 和 Hermes 用户借鉴。

第一条是:确定性的事不要交给模型判断。

这条很容易被忽略。现在很多人会把一切都交给 AI,连“收到 503 要不要重试”“状态码怎么处理”“这个字段怎么路由”这类明确规则,也让模型来判断。短期看能跑,长期就会变得不稳定。状态码、重试、路由、固定格式转换,这些更适合用确定性代码。模型更适合处理分类、总结、解释、从非结构化文本里提取信息这类任务。

第二条是:长任务要有预算。

Agent 很容易在一个问题上绕很久。尤其是调试任务,跑一次命令,看到一个错误,改一下,再跑,再看到另一个错误,继续改。这个循环如果没有预算,很容易把上下文拖得很长,最后模型开始忘记前面试过什么。更好的做法是,到一定长度就停下来总结当前状态:已经试过什么,哪些方向排除了,剩下什么问题,下一步怎么做。Claude Code 用户可以结合 /compact 和 /clear,Hermes 用户也可以在长任务里要求阶段性总结。

第三条是:遇到冲突不要平均。

很多代码库都有历史包袱。一个模块一种写法,另一个模块另一种写法。AI 最容易犯的错,是试图讨好两边,最后写出一个混合版本。比如一边用显式 try/catch,一边用全局错误边界,它可能两个都用,结果错误被处理两次。正确做法应该是选一种更近、更稳定、更有测试覆盖的模式,并说明理由;另一种冲突模式可以标出来,留给后续清理。

第四条是:写之前先读。

很多 AI 写错,不是因为不会写,而是没读够。它在文件里加了一个新函数,却没有发现同一个文件里已经有类似函数;它新增了工具方法,却没有看调用方和共享工具。结果项目里出现重复逻辑,甚至因为导入顺序影响原有行为。这个规则很简单:改文件之前,先读当前文件、直接调用方和相关共享工具。看清楚已有结构,再动手。

第五条是:测试要验证意图。

“测试通过”听起来很安全,但这句话有时会骗人。AI 可能写出一堆很浅的测试,只证明函数返回了某个东西,没有证明它符合业务要求。比如认证函数返回了一个用户对象,测试只检查“返回不为空”,但没有检查权限、过期、错误输入和边界条件。这样的测试通过了,也不能说明功能真的对。以后让 AI 补测试时,不要只说“补测试”,要问它:这个测试验证了什么业务意图?如果业务逻辑错了,这个测试会不会失败?

第六条是:长任务要有检查点。

多步骤任务最怕中间一步错了还继续往下做。比如 6 步重构,第 4 步已经方向不对,AI 还继续做第 5、6 步,最后你要回滚的就不是一步,而是一串。更稳的方式是每完成一个重要阶段,都让它说明做了什么、验证了什么、还剩什么。如果它自己也说不清当前状态,就应该先停下来整理,而不是继续往前冲。

第七条是:项目约定优先于模型品味。

AI 经常会写出看起来更现代的代码,但已有项目不一定需要“更现代”,更需要一致。如果项目一直用 class component,它突然引入 hooks;如果项目一直用 snake_case,它突然改成 camelCase;如果项目已有固定错误处理方式,它又加一套自己的处理方式,后面维护会很痛苦。项目里的局部新风格,往往比旧风格本身更糟。

第八条是:失败要说出来。

这是我觉得最值得放进所有规则的一条。AI 最贵的失败不是报错,而是看起来像成功。迁移跳过了一部分数据,却说完成;测试有一部分没跑,却说通过;边界情况没验证,却说功能可用。以后一定要明确要求:不确定就说不确定,跳过了就说跳过了,没有验证就不能说完成。

规则别写成愿望清单

这篇文章还提到一个很重要的点:规则不是越多越好。作者测试过更多规则,超过一定数量后,遵守率会明显下降。他还发现,“小心点”“认真思考”“专注”这类话基本没用,因为它们不可检查;“像高级工程师一样工作”也没什么用,因为模型本来就会表现得像自己很懂,真正缺的是具体行为约束。

这对很多人很有提醒意义。

很多项目规则写着写着,就变成了愿望清单:

请认真。
请谨慎。
请高质量。
请全面思考。
请像专家一样。

这些话看起来对,但约束力很弱。真正有效的规则要能回答一个问题:它防止哪一种具体错误?

“只改必要文件”防止范围失控。“写之前先读调用方”防止重复造轮子。“测试要验证业务意图”防止假测试。“长任务要有检查点”防止跑偏。“失败要说出来”防止假完成。

这种规则才值得留下。

给 Claude 和 Hermes 用户的中文简化版

下面这份我做了压缩,尽量保持可执行。Claude Code 用户可以放进项目根目录的 CLAUDE.md。Hermes 用户可以放进项目规则、Skill 说明,或者作为代码任务的长期约束。你不需要全用,可以先挑最适合自己项目的几条。

# AI 代码协作规则这些规则适用于本项目的代码修改、排错、测试和重构任务。## 1. 写代码前先说明假设如果需求不清楚,先列出你的理解和不确定点。不要默默猜测。明显有歧义时,先问我。## 2. 简单优先只写解决当前问题需要的最小代码。不要添加未要求的功能,不要为了未来可能用到而提前抽象。## 3. 只改必须改的地方不要顺手优化相邻代码、注释、格式或目录结构。不要重构没坏的部分。保持项目现有风格。## 4. 按完成标准推进开始前先明确成功标准。完成后必须说明如何验证。不能只说“应该可以”。## 5. 确定性逻辑用代码处理模型适合分类、总结、解释和判断。状态码处理、重试策略、路由、固定格式转换,优先用确定性代码。## 6. 控制上下文和 token如果任务变长,先总结当前状态,再继续。不要在同一个会话里无限循环。接近预算时,要主动提醒并建议新会话或压缩上下文。## 7. 遇到冲突不要混合如果项目里存在两种冲突写法,不要折中拼接。选择更近、更稳定、更有测试覆盖的一种,并说明理由。## 8. 写之前先读修改文件前,先读当前文件、直接调用方和相关共享工具。如果已有工具能复用,不要新造一套。## 9. 测试要验证真实意图测试不能只验证“有返回”。要验证业务逻辑、边界情况和错误路径。如果测试不能在逻辑出错时失败,它就是无效测试。## 10. 长任务要有检查点每完成一个重要步骤,说明做了什么、验证了什么、还剩什么。如果你自己说不清当前状态,就先停下来整理。## 11. 项目约定优先于个人偏好命名、组件写法、目录结构、错误处理方式,优先匹配项目现有习惯。如果你认为现有约定有问题,先提出来,不要偷偷引入新风格。## 12. 失败要说出来不确定就写不确定。跳过了任何文件、记录、测试或边界情况,都必须说明。没有验证的内容,不能说完成。

如果你觉得 12 条太多,可以先保留 6 条:只改必须改的地方、写之前先读、测试验证真实意图、长任务检查点、项目约定优先、失败要说出来。它们覆盖了最容易让人付出代价的几类错误。

怎么用到自己的项目里?

Claude Code 用户最简单,直接在项目根目录创建或更新 CLAUDE.md。不要把这个文件写得太长。官方和很多实践经验都指向同一个问题:规则太长以后,模型并不会认真执行每一句,反而容易只知道“这里有很多规则”,但抓不住重点。

Hermes 用户可以把这套规则转成项目约束。如果你有固定项目,可以放进 AGENTS.md、项目说明、Skill 规则,或者你平时让 Hermes 进入项目时会读取的文件。做代码任务前,也可以把其中最相关的几条贴进去。

关键是不要把规则当摆设。每次 Agent 犯错后,都可以回头问一句:这个错误能不能变成一条更具体的规则?

如果它乱改范围,就加强“只改必要部分”。如果它测试写得浅,就加强“测试验证意图”。如果它长任务跑偏,就加检查点。如果它假装完成,就要求失败必须显式说明。

这样规则才会越用越贴合你的项目,而不是从网上复制一份就放在那里吃灰。

最后

Claude Code 和 Hermes 这类 Agent 工具,真正厉害的地方是能连续做事。它们可以读文件、改代码、跑命令、看测试结果,再继续修正。可越能连续做事,越需要边界和纪律。

这篇热文最值得借鉴的,不是那份 12 条规则原封不动复制过去,而是它背后的方法:先观察 AI 在你项目里真实犯过什么错,再把这些错误改写成明确、可执行、可检查的项目规则。

AI 写代码越来越快,但快不等于省心。

真正省时间的,是让它少跑偏,少假完成,少把小问题改成大问题。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0:3詹姆斯再上热搜,里夫斯5000万身价打没了!列湖人G3三大罪人

0:3詹姆斯再上热搜,里夫斯5000万身价打没了!列湖人G3三大罪人

蛋疼体育
2026-05-11 17:14:25
公交集团正式员工已经躺平不了了,想要混到退休不太可能

公交集团正式员工已经躺平不了了,想要混到退休不太可能

娱乐圈见解说
2026-05-09 00:23:44
国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

迷世书童H9527
2026-05-10 10:10:43
汪小菲飞抵台北过母亲节,玥儿姐弟罕露面,一家人游公园好惬意!

汪小菲飞抵台北过母亲节,玥儿姐弟罕露面,一家人游公园好惬意!

娱乐团长
2026-05-11 16:47:41
凤凰卫视著名主持人沈星,在母亲节当天晒出了自己孕期产检的照片

凤凰卫视著名主持人沈星,在母亲节当天晒出了自己孕期产检的照片

岁月有情1314
2026-05-11 15:07:23
状元签到手却要卖?奇才交易状元签理由曝光,神思路性价比拉满

状元签到手却要卖?奇才交易状元签理由曝光,神思路性价比拉满

夜白侃球
2026-05-11 11:10:16
CBA消息!徐昕完成新签约,辽宁四外援全部不留,潘江用人遭质疑

CBA消息!徐昕完成新签约,辽宁四外援全部不留,潘江用人遭质疑

中国篮坛快讯
2026-05-11 08:55:19
实战出真知!乌克兰靠真实战场数据,在中东赚麻了

实战出真知!乌克兰靠真实战场数据,在中东赚麻了

寰球经纬所
2026-05-10 10:10:20
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
想不到的广东:全国最富的省份,7成城市却在平均线以下

想不到的广东:全国最富的省份,7成城市却在平均线以下

风向观察
2026-05-10 19:34:45
武大用力过猛!

武大用力过猛!

梳子姐
2026-05-10 21:46:30
公安局交管大队队长被举报在KTV违规饮酒与女性举止亲密?当事人:喝茶水,涉事女士突然过来,我下意识推开

公安局交管大队队长被举报在KTV违规饮酒与女性举止亲密?当事人:喝茶水,涉事女士突然过来,我下意识推开

观威海
2026-05-11 09:30:04
揪心!文班肘击里德喉部遭驱逐,联盟深夜官宣,马刺终于松了口气

揪心!文班肘击里德喉部遭驱逐,联盟深夜官宣,马刺终于松了口气

宝哥精彩赛事
2026-05-11 16:09:48
18.98万起!长城新车官宣:超强续航1000公里,5月15日上市

18.98万起!长城新车官宣:超强续航1000公里,5月15日上市

科技堡垒
2026-05-10 11:23:22
公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

潋滟晴方DAY
2026-05-11 06:31:37
汪峰母亲节晒15张照缅怀母亲,称赞章子怡是难得好儿媳

汪峰母亲节晒15张照缅怀母亲,称赞章子怡是难得好儿媳

流云随风去远方
2026-05-11 12:42:11
马扎尔正式就任匈牙利总理!欧尔班何时出逃莫斯科?

马扎尔正式就任匈牙利总理!欧尔班何时出逃莫斯科?

项鹏飞
2026-05-10 21:05:09
男子要求鱼香肉丝不放盐,店员一句“做不了”,掀翻餐饮业的底裤

男子要求鱼香肉丝不放盐,店员一句“做不了”,掀翻餐饮业的底裤

天天热点见闻
2026-05-11 15:04:16
功夫巨星新片惨败,三天没有票房统计,观众差评如潮

功夫巨星新片惨败,三天没有票房统计,观众差评如潮

影视高原说
2026-05-10 13:09:18
比利时将向乌克兰提供全部F-16战机

比利时将向乌克兰提供全部F-16战机

参考消息
2026-05-11 14:37:08
2026-05-11 18:52:49
呼呼历史论
呼呼历史论
分享有趣的历史
505文章数 16983关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

外交部介绍特朗普访华具体安排和中方期待

头条要闻

外交部介绍特朗普访华具体安排和中方期待

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

多重催化剂共振,人民币汇率升破6.8

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

房产
健康
数码
艺术
旅游

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

干细胞能让人“返老还童”吗

数码要闻

曜越CT120 EX INFINITY ARGB系列风扇发售,三联包售499元

艺术要闻

陆抑非写竹,笔力遒劲

旅游要闻

从看热闹到掏腰包,文商旅体融合进入“深水区”

无障碍浏览 进入关怀版