![]()
去年这时候,我还在"写代码→测试→骂AI→重写"的死循环里打转。直到发现一组数据:让AI自己检查AI,关键缺陷拦截率能提到传统流程的3倍以上。
这不是理论。日本工程师Takahashi用这套方法,45分钟搭完一个功能完整的地震地图站点,其中只有10分钟需要人工介入。剩下的时间,6个AI代理在互相掐架——不是内耗,是质检。
AI写代码的陷阱:一个人干所有活
传统AI编程的问题很隐蔽。你让ChatGPT写功能,测出bug再扔回去修,修完再测——表面是人机协作,实际是AI在单打独斗。
Takahashi在实践里发现,这和人类团队的老毛病一模一样。一个人包干设计、编码、测试,质量必然塌方。AI不会累,但会幻觉,会固执地重复同一种错误。
他的解法很直接:把软件生命周期拆成6个独立阶段,每个阶段配一个专职AI代理。需求代理写规格,设计代理出方案,编码代理动手,然后三个检查代理轮番上阵——静态分析、测试生成、最终验收。
关键设计在这里:阶段之间设硬闸门。检查代理用IEEE 1028标准的正式审查流程,带检查清单、严重等级、通过/失败标准。Critical或High级别问题没清零,下一阶段门都不让进。
这不是"看看代码行不行",这是工厂流水线的来料检验。
规格是地基,但人类那套AI用不了
SDD(规格驱动开发)的核心是"规格先行"。但Takahashi踩的第一个坑,是直接把人类用了几十年的IEEE 830模板塞给AI。
![]()
这套标准给人类读的,章节结构太重,粒度飘忽。喂给AI等于开幻觉工厂——同一句话,每次解析结果都不一样。
他重新设计了ANMS(AI原生最小规格模板)。结构上偷师Clean Architecture的稳定依赖原则:上层(目的、需求)尽量不动,下层(设计、测试)随便改。AI读得懂,改起来不炸。
但规格本身也有写法讲究。Takahashi举了个典型翻车案例:
需求写"按地震大小改标记颜色"。AI懵了:什么叫"大小"?震级还是烈度?阈值多少?颜色具体哪个色值?每次生成都随机发挥。
换EARS(简易需求语法)重写:
「FR-05: 系统应以震级决定标记颜色:3.0以下绿色,3.0-5.0黄色,5.0-7.0橙色,7.0及以上红色。」
主语、动词、条件、阈值全锁死。AI没有自由发挥空间,输出稳定性从抽奖变成 clockwork。
45分钟实战:10分钟人工,35分钟AI互掐
Takahashi开源了实现这套流程的框架gr-sw-maker。他用地震地图项目做了计时演示:
0-5分钟:人类用ANMS模板写核心需求。不是写文档,是填结构化字段——AI能直接解析的格式。
![]()
5-15分钟:需求代理扩写完整规格,设计代理同步产出技术方案。人类只审不操刀。
15-35分钟:编码代理动手,静态分析代理实时扫描。发现一处潜在空指针,当场打回重修。
35-45分钟:测试代理生成用例,验收代理做最终检查。绿灯全亮,自动部署。
全程人类干预两次:确认需求字段,批准最终设计。其余时间在看AI互相挑刺。
这套流程的隐藏成本是前期规格时间。Takahashi承认,头几次用ANMS,写需求比直接让AI coding慢得多。但第三次之后,返工率断崖下跌,总耗时开始碾压传统模式。
当AI开始管AI,人的角色怎么摆
A-SDLC(代理式软件生命周期)有个反直觉的设定:人类从执行者变成法官。不写代码,不写测试,只写规格和拍板。
Takahashi把这比作飞机驾驶舱。AI是自动驾驶系统,处理90%的常规操作。人类盯着仪表盘,在异常情况下接管。区别是,这里的"异常"不是引擎起火,是规格模糊导致的AI集体跑偏。
他的经验是,AI代理越专业,人对规格的要求越高。因为AI执行太忠实,规格里的漏洞会被放大而不是掩盖。
gr-sw-maker目前在GitHub开源,Star数刚过千。Takahashi在文档里埋了个细节:框架默认的检查清单,是他从自己过去一年AI编程翻车记录里一条条抠出来的。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.