写代码之前先写测试,这个老派的开发原则正在被AI重新演绎。一位开发者最近开源了一款叫Spec Kit的工具,它能把 plain-English 规格说明(自然语言描述的需求)直接转成测试套件,再让Claude Code自动迭代代码直到测试通过。作者在自己的项目上宣称,这种"规格驱动"的工作流实现了90%的首次通过率。
这个数字尚未经过独立验证,但工作流本身的设计值得关注。传统开发是"先写代码,再补测试",AI辅助编程时代变成了"写提示词,AI生成代码"。Spec Kit走了一条中间路线:开发者先用自然语言写清楚规格,工具自动生成测试,然后Claude Code在agentic loop(智能体循环)里反复改代码,直到所有测试绿灯。这有点像测试驱动开发(TDD),但把写测试和改代码的体力活都交给了AI。
![]()
作者提到一个具体收获:这种方法抓到了一些手动编码容易漏掉的边界情况。这触及了当前AI编程工具的一个痛点——提示词越模糊,代码质量越不可控。Cursor、Copilot这类工具优化的是"边写边补"的流畅感,但开发者如果没想清楚需求,AI就会顺着模糊的意思一路跑偏。Spec Kit强制先定契约(规格说明),理论上能减少"垃圾进、垃圾出"的问题。
不过限制也很明显。整个链条的可靠性完全取决于那份自然语言规格的质量。规格写得潦草,生成的测试就潦草,最终代码可能测试全过、生产环境却崩溃。另外,Claude Code反复迭代的过程可能吃掉大量token预算,复杂项目尤其如此。Anthropic自己在2026年4月23日的复盘里承认,Claude Code近期出现了推理努力和上下文保持能力的退化,这对依赖其agentic loop的工作流不是好消息。
Spec Kit已在GitHub开源,但作者没有透露下载量或贡献者数量,也没有说明测试生成背后用的是什么大模型。值得注意的是,它是为Claude Code的智能体循环设计的,而Anthropic官方另有一个Claude Agent框架——后者协调多个Claude模型处理复杂任务,定位似乎更偏"重型"。
接下来值得观察的几个点:有没有第三方在标准软件工程任务上复现那个90%的通过率;Anthropic会不会把规格驱动的工作流原生集成进Claude Code;以及GitHub上的star数和贡献者增长情况。开源社区通常用90天周期判断一个新工具是真有生命力还是昙花一现。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.