网易首页 > 网易号 > 正文 申请入驻

Copilot把3个issue判了死刑

0
分享至


4月9日,瑞士开发者Nicolas Fränkel在博客记录了一次真实的AI协作实验:让Copilot分析代码库,生成12条改进建议,结果3条直接被证伪——版本号根本不存在。剩下的9条里,又有一半经人工复核后关闭。最终4条存活,他用sub-agents(子代理)在4小时内全部落地成PR。

这不是演示视频,是带血的生产日志。

Fränkel的实验戳中了一个正在蔓延的痛点:当AI coding assistant从"聊天框里的顾问"变成"能动手改代码的执行者",中间那道质量闸门该怎么设?他的答案是——别指望AI自我纠错,把 triage(分类筛选)和 execution(执行)拆成两个独立阶段,中间必须有人工介入。

这篇文章的价值不在于"sub-agents很酷",而在于记录了一套可复现的协作流程:如何让AI在自主执行前,先经过足够严格的事实核查。Fränkel本人是资深Java开发者、Apache Maven提交者,现任Datadog开发者倡导者。他的实验环境是Copilot CLI + GitHub MCP Server + git worktree,目标代码库是一个他离开数月后重新接手的项目。

第一阶段:让Copilot"自由发挥",收获12条建议

Fränkel的初始prompt极其简单:"analyze the following codebase and report to me improvements and possible bugs." 这种模糊性是故意的——既给AI留出发现意外问题的空间,也接受它会产出垃圾。

Copilot返回了12条。Fränkel没有直接执行,而是要求它为每条创建GitHub issue,附带标签和优先级。这一步本身就在测试AI的上下文理解:能否把模糊描述转化为可追踪的工作项?

结果很快暴露问题。3条issue被标记为"版本不存在",但Fränkel实际使用的版本比Copilot的训练数据更新。他直接关闭,标注"won't fix"。这不是AI的"幻觉",是知识截止日期的硬边界——一个所有LLM产品都无法回避的约束。

剩下的9条进入人工复核。Fränkel逐条独立判断,同时用Copilot辅助交叉验证。最终5条被关闭,4条通过。存活率33%,但Fränkel认为这个比例"相当健康"——AI的价值不是替代判断,而是把人的注意力压缩到值得深入的区域。

这里的关键动作是"triage"(分类筛选)。Fränkel在另一篇文章《How I Use Claude Code》中详细阐述过他的"Annotation Cycle":每次与AI协作时,必须留下足够的审查痕迹,确保后续执行者(无论是人还是另一个AI)能复现决策依据。这次实验中,triage阶段产出的上下文——为什么接受、为什么关闭、每条issue的验证过程——直接成为sub-agents的输入燃料。

第二阶段:sub-agents的启动条件与致命陷阱

4条存活issue进入执行阶段。Fränkel选择用sub-agents并行处理,但他的prompt设计暴露了一个反直觉的约束:sub-agents的自主性越高,前置的triage就必须越重。

新手常犯的错是"信息过载式prompt"——因为担心AI做错,就把所有可能的背景、约束、例外情况塞进初始指令。Fränkel尝试过这种路径,发现效率极低。sub-agents的价值在于减少人工干预,如果每步都要人确认,还不如自己写代码。

他的解决方案是把"信息收集"前置到triage阶段。当人工复核决定接受某条issue时,其实已经完成了深度调查:代码位置、相关依赖、潜在副作用、测试覆盖情况。这些上下文被结构化地附加到issue描述中,成为sub-agent的启动包。

Fränkel公开的prompt模板包含6个连续动作:

1. 用gh工具获取issue详情
2. 用git worktree创建独立工作目录
3. 实现功能或修复
4. 必要时补充测试
5. 全量测试通过
6. 推送分支并按命名规范创建PR

每个动作都是原子化的,但依赖关系清晰。Fränkel特别强调git worktree的作用:常规git branch会让多个sub-agents在同一个目录冲突,worktree把每个分支映射到独立文件夹,实现真正的并行。

技术细节需要展开。Copilot CLI默认连接GitHub MCP Server,但只读。要创建或更新issue,必须在终端用gh完成认证,然后在同一终端运行Copilot CLI,才能继承完整权限。这是一个容易被忽略的集成点——很多开发者卡在"AI说没权限"的环节,其实是认证流程没打通。

第三阶段:4小时产出的真实成本

Fränkel没有公开4条PR的具体内容,但提供了足够判断效率的线索:从triage完成到全部PR创建,耗时约4小时。这个时间包含sub-agents的执行、测试运行、以及必要的人工复核。

对比传统工作流:人工分析代码库→识别问题→创建issue→分配优先级→开发修复→测试→PR。Fränkel的实验把前两步交给AI,中间插入严格的人工筛选,最后把执行再次外包给AI。总人时投入集中在triage阶段,但避免了执行阶段的上下文切换损耗。

一个值得注意的细节是测试策略。Fränkel要求"all tests must pass before you continue",但没有说"必须创建新测试"。他的判断标准是:如果issue本身涉及测试覆盖不足,才强制补充;如果是纯逻辑修复,现有测试通过即可。这种弹性避免了过度测试的官僚成本,也保留了关键路径的质量底线。

PR命名规范是另一个被明确写入prompt的约束。Fränkel没有透露具体模式,但强调"using the following naming pattern"——说明他在组织层面有统一的branch/PR管理规则,sub-agents只是执行者。这暗示了一个更深层的设计原则:AI协作的有效性,取决于组织流程的标准化程度。如果每个开发者有自己的命名习惯,sub-agents就无法规模化复用。

Fränkel没说的:什么情况下这套流程会崩

博客文章是成功案例,但Fränkel的叙述中埋了几个警示信号。

首先是知识截止日期问题。3条"版本不存在"的误报,说明Copilot的训练数据滞后于实际依赖版本。这不是个例,是系统性风险。如果代码库大量使用前沿库或内部私有依赖,AI的分析基座就不稳。Fränkel的应对是人工复核,但这在规模扩大时会成为瓶颈。

其次是triage的质量依赖。Fränkel能高效筛选,因为他熟悉代码库历史。如果是全新接手的项目,或者issue涉及跨模块的复杂交互,人工复核的时间成本会急剧上升。33%的存活率在他手里是"健康",在缺乏经验的开发者手里可能是"漏判"或"误判"的温床。

第三是sub-agents的故障恢复。Fränkel提到"you can still technically interact with the sub-agents when they work, but it drops their value significantly"——技术上有干预能力,但会大幅贬值。这意味着一旦sub-agent走入歧途(比如错误理解issue描述、选了错误的实现路径),纠正成本可能高于重启。他没有记录4条PR中是否出现这种干预,但"significantly"这个词暗示了负面经验。

最后是权限与安全的张力。gh认证在同一终端继承,是便利也是风险。如果sub-agent被prompt注入攻击,或者执行了意外的 destructive 操作,权限边界就是最后一道防线。Fränkel的实验是单人项目,但推广到团队场景时,这个问题会放大。

这些不是否定sub-agents的价值,而是划定适用边界。Fränkel的实验发生在"离开数月后重新接手"的上下文——代码库有历史积累,但相对稳定;issue规模可控(4条并行);开发者本人是资深工程师,能快速判断AI产出的质量。这三个条件缺一不可。

行业参照:sub-agents正在从demo走向工具链

Fränkel的实验不是孤例。2024年以来,主流AI coding工具都在向"agentic"方向演进:Claude Code的"computer use"、OpenAI的Operator、Devin的端到端开发承诺。但生产环境的落地节奏明显滞后于演示视频——问题恰恰卡在Fränkel记录的这些环节:triage质量、权限管理、故障恢复、组织流程适配。

一个可对比的案例是Anthropic在2024年10月发布的Claude 3.5 Sonnet with computer use。官方演示中,Claude能自主浏览网页、填写表单、执行多步骤任务。但早期用户反馈显示,在真实业务系统中,Claude的"自主"往往卡在权限边界或异常处理——它能处理happy path,但对edge case的恢复能力有限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
交了750万美元和解金,比亚迪还是没躲过这一劫。问题出在哪?

交了750万美元和解金,比亚迪还是没躲过这一劫。问题出在哪?

哄动一时啊
2026-04-13 11:32:20
中年返贫4件套,一个也不要碰!

中年返贫4件套,一个也不要碰!

细说职场
2026-04-13 12:36:59
和刘翔离婚后,她离开上海,和母亲相依为命,如今35岁仍是单身

和刘翔离婚后,她离开上海,和母亲相依为命,如今35岁仍是单身

洲洲影视娱评
2026-04-13 18:38:15
卸下“第一女儿”铠甲,45岁伊万卡罕见哽咽:父亲让我知道,我不属于政治

卸下“第一女儿”铠甲,45岁伊万卡罕见哽咽:父亲让我知道,我不属于政治

留学生日报
2026-04-13 21:08:58
女子被香港机场刁难,百万元雕塑被捏毁,机票作废,第二天更气人

女子被香港机场刁难,百万元雕塑被捏毁,机票作废,第二天更气人

米果说识
2026-04-11 22:20:53
忍无可忍!25万捷克人上街怒吼:我们拒绝成为下一个匈牙利

忍无可忍!25万捷克人上街怒吼:我们拒绝成为下一个匈牙利

阿凫爱吐槽
2026-03-24 17:59:04
尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

史之铭
2026-04-06 17:12:29
河北某地发现重大新闻,一位老人去世后,家里居然留下大量古董

河北某地发现重大新闻,一位老人去世后,家里居然留下大量古董

观察鉴娱
2026-04-14 10:15:54
“你喊那么大声干嘛?”00后强势回怼领导,场面一度失控!

“你喊那么大声干嘛?”00后强势回怼领导,场面一度失控!

一丝不苟的法律人
2026-04-14 10:37:26
曝普京住所周围被迫再安装8套防空系统!俄财政赤字超两倍

曝普京住所周围被迫再安装8套防空系统!俄财政赤字超两倍

项鹏飞
2026-04-13 16:11:56
霍尔木兹海峡又变天了,三个国家的巨轮在通行,特朗普不高兴了

霍尔木兹海峡又变天了,三个国家的巨轮在通行,特朗普不高兴了

老赳说历史
2026-04-14 08:58:10
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

医诺维
2026-04-12 12:35:26
布耶27+9卡尔森26+10 太阳客场大胜雷霆

布耶27+9卡尔森26+10 太阳客场大胜雷霆

北青网-北京青年报
2026-04-13 20:48:02
建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

掠影后有感
2026-04-12 10:08:51
白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

网络易不易
2026-01-20 10:17:46
索博斯洛伊:我已经做好了明天死在球场上的准备

索博斯洛伊:我已经做好了明天死在球场上的准备

懂球帝
2026-04-14 00:23:19
莫文蔚的腿真不是开玩笑的,连超模奚梦瑶坐在她旁边都被比下去了

莫文蔚的腿真不是开玩笑的,连超模奚梦瑶坐在她旁边都被比下去了

动物奇奇怪怪
2026-04-12 19:57:04
张水华大方承认差距:我能力不够!心率150真的拼了

张水华大方承认差距:我能力不够!心率150真的拼了

老王谈跑步
2026-04-14 10:04:50
一张网上疯传的“三人合影”,其实谁也没见过,也没人拿得出原件

一张网上疯传的“三人合影”,其实谁也没见过,也没人拿得出原件

小椰的奶奶
2026-04-13 14:10:17
2026-04-14 13:23:00
硅屿手记
硅屿手记
有态度网友ytd
1949文章数 8关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

教育
家居
健康
手机
数码

教育要闻

“父亲的心已经死了!”10后女孩职高报到,父亲用沉默诠释了心死

家居要闻

复古风格 自然简约

干细胞抗衰4大误区,90%的人都中招

手机要闻

2026一季度手机销量报告出炉,OPPO位列前三

数码要闻

雷神推出黑武士·猎刃 Pro台式机 i5-14400F+RTX 5060 国补价7999

无障碍浏览 进入关怀版