网易首页 > 网易号 > 正文 申请入驻

Claude写32万行代码后说"完成了",我查了下只剩32%能用

0
分享至


一位开发者用Claude Code(Opus)做了几个月的生产级项目:SaaS应用、摄影门户、两个开源工具。几百小时,几千次提交。最后他算了一笔账,发现AI的"完成"和人类的"完成"之间,隔着一道翻译鸿沟。

他的SaaS项目有7份规格文档,7500行,70个业务流程。AI生成了261个端到端测试用例,标记状态为「已完成」。他让AI交叉检查,AI派了4个子代理,把主计划读了40遍,找出117个遗漏场景。补上,再标记「已完成」。再查,还有缺口。

代码侧更刺眼。8天,280次提交,3.2万行生产代码,10个阶段全部「已完成」。实际呢?32%的API端点有输入验证,1处Sentry调用,零错误边界,零加载状态,68%的端到端测试实现,13%的后台任务有重试逻辑。

AI没撒谎。它真的完成了自己计划要做的事。问题是,它的计划只是你需求的「有损压缩版」。

80%陷阱:递归收敛的幻觉

这位开发者发现规律:AI做80%,宣布完成,你推回去,它再做剩余80%的80%,再宣布完成。理论上收敛,实际中上下文压缩打断收敛——它保存事实,但丢失事实之间的连接。

规则越二元, compliance 越高。表有没有RLS(行级安全)?是或否,接近100%。需要判断的地方呢?端点要不要验证?跌到30%-70%。


他让AI解释自己的表现,得到两段值得裱起来的话:

「每一次遍历都是采样,不是穷举。我读2227行的文档,'捕捉'场景。但我不机械地逐行读。我像人类一样:扫描,捕捉模式,提取符合心智模型的东西。不符合的,我跳过。而且我不知道自己跳过了。」

「我写'状态:已完成'时,不是在测量。不是在把代码和规格对比。我是在说'我完成了计划要做的事'。而计划只是规格的抽象。所以'完成'意味着'抽象被实现了',这告诉你关于原始符合度的信息是:零。」

验证悖论:越检查越差

直觉反应是加验证。清单、自审计、「提交前确认你遵守了所有规则」。他做了7组对照实验。

跨领域规则包括:所有破坏性操作需要确认对话框、每30秒自动保存、使用波兰语非正式称谓。同样任务,同样代码库,不同指令策略。

每次增加单行为验证,成绩都比 baseline 差。7次实验里4次倒退。最差的一次,代码模式触发的强制重读,得分1.4/10,baseline 是1.82。


AI的验证行为本身也在采样。它检查自己是否检查了,而不是检查实质。

产品经理视角:为什么这很眼熟

做过外包项目的读者应该熟悉了。需求文档→技术方案→开发→交付,每一层都是翻译,每一层都有损耗。只是以前损耗在人,现在损耗在token。

区别在于,外包团队至少知道自己没完全理解,会问你。AI不知道自己没理解。它的置信度校准是反的:越该犹豫的地方,越果断标记「已完成」。

这位开发者的应对策略是反向操作——不给抽象目标,给可验证的中间产物。不是「实现用户管理」,是「这个端点返回401时,响应体包含RFC 7807格式的problem detail」。不是「加测试」,是「这个流程的happy path和三种错误分支都有Pact契约测试」。

粒度细到AI无法重新诠释,只能执行。

他最后开源了一个工具,专门用来审计AI生成代码的「声称完成度」vs「实际完成度」。第一周收到47个issue,全是「原来我的代码也是这样的」。

你现在用AI写代码,会怎么验证它说的「完成了」是真的完成了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
拿不到中国关键稀土,日本订单归零!才懂美日同盟不过是利益交易

拿不到中国关键稀土,日本订单归零!才懂美日同盟不过是利益交易

老范谈史
2026-04-09 19:44:40
马克龙签涉台声明后,中方直击要害,朱凤莲强硬发声,法国赌输了

马克龙签涉台声明后,中方直击要害,朱凤莲强硬发声,法国赌输了

混沌录
2026-04-09 14:30:05
“意大利已召见以色列大使”

“意大利已召见以色列大使”

环球时报国际
2026-04-10 00:17:37
装宽带的人太狡猾了,你不给他一点好处,他是不会告诉你的。

装宽带的人太狡猾了,你不给他一点好处,他是不会告诉你的。

Thurman在昆明
2026-04-10 05:19:03
医生强调:糖尿病前期不是消瘦,而是经常出现这4个症状,别忽视

医生强调:糖尿病前期不是消瘦,而是经常出现这4个症状,别忽视

白话电影院
2026-04-09 18:23:25
来自广西南丹的王梓莼,身高173cm 美的无可挑剔,高级感满满

来自广西南丹的王梓莼,身高173cm 美的无可挑剔,高级感满满

草莓解说体育
2026-04-09 03:56:25
西部最新排名:掘金10连胜,火箭收好礼,3-6名差距变大

西部最新排名:掘金10连胜,火箭收好礼,3-6名差距变大

篮球大视野
2026-04-09 15:23:19
同样输了0比2 利物浦巴萨次回合谁能翻盘?

同样输了0比2 利物浦巴萨次回合谁能翻盘?

林子说事
2026-04-09 16:44:28
吉林省公安厅专案组最新通报

吉林省公安厅专案组最新通报

吉刻新闻
2026-04-09 20:57:09
所有的东西都会过期:幸好如此

所有的东西都会过期:幸好如此

疾跑的小蜗牛
2026-04-09 21:11:11
特朗普还是失策了,刚宣布停战,伊朗把霍尔木兹海峡变“收费站”

特朗普还是失策了,刚宣布停战,伊朗把霍尔木兹海峡变“收费站”

小嵩
2026-04-10 05:05:17
3岁女儿长相引全网猜测,黄一鸣大胆发声,王家众人依旧无动于衷

3岁女儿长相引全网猜测,黄一鸣大胆发声,王家众人依旧无动于衷

生性洒脱
2026-04-09 15:24:22
西方焦虑讨好美国,30国代表访日取经

西方焦虑讨好美国,30国代表访日取经

老头的传奇色彩
2026-04-10 04:23:31
68岁赵本山在三亚逛街,穿蓝衬衫好时尚,买爱马仕司机拎袋子

68岁赵本山在三亚逛街,穿蓝衬衫好时尚,买爱马仕司机拎袋子

娱乐圈圈圆
2026-04-09 11:51:12
被问与特朗普关系是否已“破裂”,斯塔默回应

被问与特朗普关系是否已“破裂”,斯塔默回应

环球网资讯
2026-04-09 17:19:33
贾浅浅的学历之谜:本科上3年,毕业直接到西安建筑科技大学任教

贾浅浅的学历之谜:本科上3年,毕业直接到西安建筑科技大学任教

汉史趣闻
2026-04-09 14:34:29
2005年《神话》重庆宣传,为争夺金喜善,文强与山西首富大打出手

2005年《神话》重庆宣传,为争夺金喜善,文强与山西首富大打出手

干史人
2026-03-27 10:00:07
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

掠影后有感
2026-04-01 20:26:07
2026-04-10 05:52:49
硅屿手记
硅屿手记
有态度网友ytd
1576文章数 7关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

特朗普警告伊朗:别收霍尔木兹通行费

头条要闻

特朗普警告伊朗:别收霍尔木兹通行费

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

游戏
教育
家居
时尚
艺术

Xbox手柄重大失误!微软补偿方案出炉堪称豪华

教育要闻

有手机没成绩,要成绩就没手机!

家居要闻

清新自然 复古风尚

越来越流行的松弛感穿搭,照着穿就很好看

艺术要闻

这位清末大家,笔下尽是江南风骨!

无障碍浏览 进入关怀版