一个开源工具让AI写代码先过测试：作者称通过率90%|编程|工作流|自然语言

一个开源工具让AI写代码先过测试：作者称通过率90%

2026-05-12 06:17:39　来源: 硬核玩家2哈

北京举报

分享至

写代码之前先写测试，这个老派的开发原则正在被AI重新演绎。一位开发者最近开源了一款叫Spec Kit的工具，它能把 plain-English 规格说明（自然语言描述的需求）直接转成测试套件，再让Claude Code自动迭代代码直到测试通过。作者在自己的项目上宣称，这种"规格驱动"的工作流实现了90%的首次通过率。

这个数字尚未经过独立验证，但工作流本身的设计值得关注。传统开发是"先写代码，再补测试"，AI辅助编程时代变成了"写提示词，AI生成代码"。Spec Kit走了一条中间路线：开发者先用自然语言写清楚规格，工具自动生成测试，然后Claude Code在agentic loop（智能体循环）里反复改代码，直到所有测试绿灯。这有点像测试驱动开发（TDD），但把写测试和改代码的体力活都交给了AI。

作者提到一个具体收获：这种方法抓到了一些手动编码容易漏掉的边界情况。这触及了当前AI编程工具的一个痛点——提示词越模糊，代码质量越不可控。Cursor、Copilot这类工具优化的是"边写边补"的流畅感，但开发者如果没想清楚需求，AI就会顺着模糊的意思一路跑偏。Spec Kit强制先定契约（规格说明），理论上能减少"垃圾进、垃圾出"的问题。

不过限制也很明显。整个链条的可靠性完全取决于那份自然语言规格的质量。规格写得潦草，生成的测试就潦草，最终代码可能测试全过、生产环境却崩溃。另外，Claude Code反复迭代的过程可能吃掉大量token预算，复杂项目尤其如此。Anthropic自己在2026年4月23日的复盘里承认，Claude Code近期出现了推理努力和上下文保持能力的退化，这对依赖其agentic loop的工作流不是好消息。

Spec Kit已在GitHub开源，但作者没有透露下载量或贡献者数量，也没有说明测试生成背后用的是什么大模型。值得注意的是，它是为Claude Code的智能体循环设计的，而Anthropic官方另有一个Claude Agent框架——后者协调多个Claude模型处理复杂任务，定位似乎更偏"重型"。

接下来值得观察的几个点：有没有第三方在标准软件工程任务上复现那个90%的通过率；Anthropic会不会把规格驱动的工作流原生集成进Claude Code；以及GitHub上的star数和贡献者增长情况。开源社区通常用90天周期判断一个新工具是真有生命力还是昙花一现。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.