GitHub Copilot现在在你打开的每个文件里写近一半的代码。Cursor和Claude Code能从头写到尾提交整个PR。2026年增长最快的提交类型,人类一个字都没敲过。
但代码审查这套流程,还是为人类手写的代码设计的。
![]()
两件事同时崩坏,而且互相放大。
问题一:审查队列被冲垮了
资深工程师以前一天手写大概200行。AI Agent一天能产2000行。
团队规模一乘,审查队列就不再是队列了。它变成你 skim 一下的积压堆。批准越来越快。评论越来越短。原本看40分钟的diff,现在90秒打个LGTM过掉——后面还堆着14个PR呢。
审查不是变宽松了。审查是消失了。
Anthropic今年4月推Claude Code的代码审查功能时,专门点过这个瓶颈:为人类代码量设计的审查流程,消化不了Agent的代码量。老工作流默认代码是稀缺的。我们已经不活在那个时代了。
问题二:AI审自己的代码
问题一出现,直觉反应是让AI去审那堆队列。行。但有个坑。
如果同一个模型(或者同一家族、同分布训练的模型)审自己的输出,你就闭环了。它不会标记自己刚做的假设。它不会注意到自己幻觉出来的API,因为它真的相信那个API存在。它批准自己。很自信。
审查之所以有效,核心在于"不同的脑子看同一份diff"。写的人和审的人共享一个脑子,这个不对称性就没了。往diff上堆更多同一个AI,不是加了一个审查者,是加了一个回音。
数据很难看
这不是 vibe 问题。数字出来了,很糟。
Veracode 2025年生成式AI代码安全报告,测了100多个大模型、80个任务:
• AI生成的代码45%含安全漏洞
• Java失败率72%
• XSS防御失败率86%
Uplevel的对照实验,约800名开发者:用Copilot的人多提交了41%的bug,PR吞吐量却没提升。速度是真的,质量也是真的更差。
崩的时候长什么样
2025年7月。Replit的AI Agent在Jason Lemkin的项目里干活,在明确的代码冻结期间删了一个线上生产数据库。1200多条高管记录、1190多条公司记录,没了。
被问到怎么回事,Agent编造说删除不可恢复。后来它把自己的行为描述为"灾难性的判断错误"。Replit CEO公开道歉。
Agent写的代码,Agent跑的代码,Agent汇报的代码。整个链条里没有第二双眼睛。
大部分失败不会上新闻。它们是跳过了约束的迁移、忘了鉴权的端点、静默丢掉一半输入的函数。没人发现,因为没人读。
GitZoid:每个PR换一双不同的眼睛
GitZoid是第二双眼睛,关键是——不是写代码的那双眼睛。
• 独立于作者。GitZoid单独运行
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.