![]()
你有没有这种感觉——用 Claude Code 或 Codex 写代码越来越顺手,但每次要合 PR,手就悬在鼠标上?
不是代码不对,是你不知道它到底对不对。
Spotify 最近爆了一组数据,我看完直接后背一凉。他们在 2000 万行代码的 monorepo 里跑 Claude Code,生成了 1500 多个 AI PR——但 25% 的改动被内部 LLM judge 直接否决了 。不是格式问题,是 逻辑跑偏了 。
Block 更让人恍惚。 95% 的工程师都在用 AI 编程工具 ,token 哗哗地烧,但面向用户的功能交付并没有变快。
问题出在哪?我研究了一圈,发现答案比"模型不够强"要深刻得多。
真正卡脖子的,不是模型,是验证回路
Spotify 的架构师 Niklas Gustavsson 有句话说得特别透: 智能体能不能跑得快,取决于周围的工程系统够不够强 ——CI、测试、自动合并、组件归属,缺一环,智能体就不敢放手干活。
他们做了个叫 Honk 的内部平台。核心不是说让 Claude Code 写得多快,而是给它套了一层 验证回路 :每次生成改动→自动跑构建→自动跑测试→再用一个 LLM judge 检查这次改动有没有跑出边界→ 全部绿灯才放行 PR 。
这个设计太关键了。它意味着你不需要一行行肉眼审 AI 代码—— 系统帮你验了 。
而且有意思的是,25% 被否决的 PR 里,智能体能自己纠错回来一半。等于它在你合代码之前,已经自我迭代一轮了。
![]()
Block 的教训更贴近普通团队
Block 的工程负责人 Angie Jones 把 AI 采用分了三个阶段:
Experimentation (试试看)→ Adoption (用起来了)→ Impact (真产出)。
她说 Block 卡在了第二阶段——九成工程师在用 Goose 和 Claude Code,但交付没变快。为什么?工程师把 AI 用在提问、补全、写样板代码上,却 没把它接入完整的交付系统 。
翻译成人话:你用 AI 写了代码,但 CI 流水线、测试覆盖、代码审查、灰度发布这套东西,还停在原地。
她给了个 六阶段成熟度模型 ,我对着我们自己的状态走了一遍,非常实用。一个值得记住的细节: 从关键团队里挑 50 个 champion,每人 30% 时间专门做 AI 仓库适配 ,三个月 AI 生成代码占比提升了 69%。
核心杠杆不是"让更多人用 AI",而是 把知识沉淀进仓库 ——AGENTS.md 里写清楚架构规则、测试命令、代码约定,让每个工程师和智能体都能复用。
![]()
真正拉开差距的,是工程基建的成熟度
我踩过这个坑。
刚用 Codex 的时候兴奋得不行,写代码飞快。结果呢——写了不敢合、合了怕出事、出了事排查半天。直到我把 CI、lint、测试这些都接进 agent 的工作流,才真正觉得它不是"写作辅助",是 可靠的协作者 。
Spotify 的做法给我最大的启发很简单: 好的工程系统先帮到了人,现在同样帮智能体 。标准化代码库、统一框架、对齐工具链——这些听起来无聊的基本功,恰恰是智能体能不能放手干活的前提。
所以现在拼的不是谁模型用得新,是 谁的验证回路搭得牢 。
![]()
时代变了。以前是人指挥工具,以后是工具在人的基建上自主干活。你的工程系统,准备好接智能体了吗?
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.