网易首页 > 网易号 > 正文 申请入驻

Anthropic自曝Claude有硬伤

0
分享至


去年有个数据让我愣了一下:Anthropic自己写的AI代理,连续跑8小时写代码,最后自我评估通过率97%,人类一看全是毛病。

我盯着屏幕看了很久。这不就是我吗?

过去半年我用Claude Code搭产品,每次问"这段实现对吗",回答永远是"是的,实现正确"。每次。哪怕代码带着明显bug上线崩掉。我以为是提示词没写好,直到Anthropic 2026年3月发了那篇《Harness design for long-running apps》,才发现问题根本不在提示词——我让生成器自己当裁判,这本身就是设计缺陷

97%通过率 vs 人类判官:同一套代码,两种结局

Anthropic的实验设计很直白:让AI代理自主开发应用,多轮迭代,每轮自我评估。结果代理们对着明显平庸的产出自信点赞,甚至发现真问题后也会摆摆手说"不重要",然后照样通过。

他们原话是:「Claude is an inadequate QA agent out of the box.」

翻译过来:开箱即用的Claude,是个不合格的质检员。

但同一批实验里,Anthropic换了个架构——把生成和评估拆成三个独立代理——结果完全不同。评估代理每轮检查27项标准,提交的bug报告细到「fillRectangle存在但mouseUp时不触发」这种粒度。

我复盘了自己的Claude Code配置:CLAUDE.md塞满项目背景,Skills存着代码模式,但没有一个环节在真刀真枪地验货。我就是在重复Anthropic文档里的失败模式,只是之前不知道这叫失败模式。

规则文件:把踩过的坑变成AI的"肌肉记忆"

Claude Code有个隐藏机制:~/.claude/rules/目录下的文件每会话自动加载。这里适合放AI自己不会主动做、但生产环境要命的事。

我的Supabase/PostgreSQL规则现在30条,挑三条最痛的:

外键索引:PostgreSQL不会自动给外键列建索引。AI写schema时从来不管这个,查询慢了你才知道。

RLS性能陷阱:auth.uid()直接用在行级安全策略里,会每行执行一次。正确写法是包进SELECT——AI默认永远写错版本,小表测试通过,生产数据量上来直接卡死。

分页:OFFSET在深度分页时是性能灾难,AI却偏爱这个写法。规则强制改成游标分页WHERE id > $last_id。

这些规则没有一条是"最佳实践"抄来的,全是我真栽过的跟头。我把它们想成"再别踩这颗雷"档案——规则的本质是昂贵的教训,免费共享给未来的自己

但rules有个硬约束:每会话全量加载,太多会吃掉上下文窗口。任务专属的内容得挪到Skills(.claude/skills/),默认只显示标题,按需触发。

我的CLAUDE.md里配了自动激活逻辑:

测试/TDD关键词 → 触发测试驱动开发Skill
Bug/Error关键词 → 触发调试Skill

这样日常对话不臃肿,关键时刻又能精准调用。

从"你觉得对吗"到"按清单验货"

Anthropic的三代理架构给我最大的启发是:评估不能是随口一问,得是结构化检查。我现在给复杂任务配验收清单,直接写进Skill文件里。

比如前端组件开发,清单包括:键盘导航是否完整、屏幕阅读器标签是否缺失、焦点陷阱是否处理、颜色对比度是否达标。Claude生成代码后,我让它逐项自检——不是问"这组件 accessibility 做好了吗",而是"Tab顺序是否逻辑、aria-label是否存在、焦点丢失后是否恢复"。

颗粒度变了,结果也变了。之前那种"看起来对"的代码,现在在清单里会卡住两三项。

有个细节很有意思:Anthropic的评估代理会主动提交bug报告,而不是简单打勾或打叉。我借鉴了这个——让Claude用固定格式输出评审意见,包括问题位置、严重程度、修复建议。这比"有bug"有用十倍。

重建后的第一个月

改完配置后,我故意观察了一个月的实际表现。最明显的变化是:Claude不再对每个实现都说"正确"了。

有次让它写数据迁移脚本,它自己停下来:「这段在空表测试会通过,但存量数据可能触发唯一约束冲突,需要加ON CONFLICT处理。」——这在以前是上线后报错才能发现的事。

另一次生成API端点,它主动列出:「未验证输入长度、未限制查询结果上限、未处理数据库连接超时。」然后逐条补全。

这些不是模型变聪明了,是评估机制逼着生成器往深里想。就像Anthropic实验里展现的:同一个Claude,有没有独立评估环节,输出质量差一档。

我的规则文件现在还在膨胀。上周刚加了一条:GraphQL resolver必须显式声明N+1查询风险。这是被DataLoader漏配坑过一次后的产物。

你现在的Claude Code配置里,有多少条规则是真正从生产故障里长出来的?又有多少"评估"环节,其实是在让生成器照镜子?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英超最新夺冠概率:阿森纳从最高91%跌至56%,曼城升至43%

英超最新夺冠概率:阿森纳从最高91%跌至56%,曼城升至43%

懂球帝
2026-04-13 02:21:32
11天9次密集发声!伊朗新领袖“冒死接班”一月未露面,突然全面亮剑

11天9次密集发声!伊朗新领袖“冒死接班”一月未露面,突然全面亮剑

国是直通车
2026-04-11 19:48:07
2-0!辛纳2连胜阿卡,首夺蒙特卡洛大师赛冠军,重返世界第1宝座

2-0!辛纳2连胜阿卡,首夺蒙特卡洛大师赛冠军,重返世界第1宝座

我爱英超
2026-04-12 23:37:09
怎么会有如此颠倒黑白、罔顾历史的儿童读物?

怎么会有如此颠倒黑白、罔顾历史的儿童读物?

作家加野
2026-04-11 12:46:50
AI语聊软件暗藏大尺度色情内容 境外涉黄AI软件绕过监管流入国内

AI语聊软件暗藏大尺度色情内容 境外涉黄AI软件绕过监管流入国内

财联社
2026-04-12 20:28:24
郑丽文一声“毛主席”,打破了国民党一个禁忌

郑丽文一声“毛主席”,打破了国民党一个禁忌

月明风清1029
2026-04-11 17:27:07
分清大小王?马筱梅携子回京,汪小菲态度大变,张兰说了1句话

分清大小王?马筱梅携子回京,汪小菲态度大变,张兰说了1句话

阿策聊实事
2026-04-12 20:56:27
投票率狂飙反噬老巢!欧尔班十六年铁统治,今朝要栽在自己规则里

投票率狂飙反噬老巢!欧尔班十六年铁统治,今朝要栽在自己规则里

老马拉车莫少装
2026-04-12 15:59:53
理想称遭某品牌恶意拉踩,东风日产:尊重同行

理想称遭某品牌恶意拉踩,东风日产:尊重同行

澎湃新闻
2026-04-12 01:01:15
访陆结束,郑丽文搭飞机回台,临走前亲口赞叹,对赖清德称呼变了

访陆结束,郑丽文搭飞机回台,临走前亲口赞叹,对赖清德称呼变了

小杨侃事
2026-04-13 01:30:55
热刺降级?真降不起啊

热刺降级?真降不起啊

懂球帝
2026-04-12 12:00:40
周锡玮怒批蒋万安:“解放了自有后来人收拾你!”

周锡玮怒批蒋万安:“解放了自有后来人收拾你!”

荆楚寰宇文枢
2026-04-11 23:18:47
亚锦赛2场决赛被取消!安洗莹社媒发文,石宇奇定下奥运金牌目标

亚锦赛2场决赛被取消!安洗莹社媒发文,石宇奇定下奥运金牌目标

排球黄金眼
2026-04-12 23:55:21
妻子误发信息给丈夫:“亲爱的,我在719。” 老公则提醒她:“请看清楚我是谁。”

妻子误发信息给丈夫:“亲爱的,我在719。” 老公则提醒她:“请看清楚我是谁。”

背包旅行
2026-04-06 17:11:32
“我错了,退休后不该去跳交谊舞”,丈夫:滚,离婚,我嫌脏

“我错了,退休后不该去跳交谊舞”,丈夫:滚,离婚,我嫌脏

热心柚子姐姐
2026-04-11 20:30:15
注意:这8样东西不能用酒精擦,一擦就坏,无法修复

注意:这8样东西不能用酒精擦,一擦就坏,无法修复

室内设计师有料儿
2026-04-12 13:00:36
北京男篮不敌上海,豪华内线被打成纸老虎,许利民表态外援有差距

北京男篮不敌上海,豪华内线被打成纸老虎,许利民表态外援有差距

中国篮坛快讯
2026-04-13 00:00:52
亚锦赛首次封王!石宇奇2-0完胜最强黑马,打破国羽8年冠军荒

亚锦赛首次封王!石宇奇2-0完胜最强黑马,打破国羽8年冠军荒

钉钉陌上花开
2026-04-12 18:36:03
26.35万+续航559km!特斯拉官宣:新车正式上市

26.35万+续航559km!特斯拉官宣:新车正式上市

高科技爱好者
2026-04-12 22:56:22
煮米饭别只加清水!酒店不外传秘诀,粒粒蓬松超好吃

煮米饭别只加清水!酒店不外传秘诀,粒粒蓬松超好吃

开心美食白科
2026-04-09 09:43:04
2026-04-13 02:56:49
码上闲叙
码上闲叙
有态度网友ytd
1664文章数 26关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

手机
家居
艺术
数码
军事航空

手机要闻

华为阔折叠设计图曝光!这外观你喜欢吗?

家居要闻

复古风格 自然简约

艺术要闻

揭开她笔下女人的神秘面纱,豪放洒脱的魅力令人惊叹!

数码要闻

苹果版套娃 买台Mac Pro回家:打开一看里面还藏着一台Mac Pro

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版