Coinbase工程师：60%程序员卡在AI中级|调用|上下文|代码库|电子表格

Coinbase工程师：60%程序员卡在AI中级

2026-04-10 09:09:48　来源: 灰度测试中

北京举报

分享至

去年QCon旧金山有个现场投票，60%的开发者自认AI编码水平是"中级"——会用Copilot，但远没到让AI写代码自己只负责审查的程度。Coinbase机器学习工程师Sepehr Khosravi当时在现场，他教伯克利学生用AI开发产品，发现多数人其实困在同一个瓶颈：工具换了三四款，效率提升却卡在25%以下。

问题不在AI能力，而在工作流设计。Khosravi把AI编码工具分成两条进化路线：一条是"副驾驶"模式，代码补全、聊天问答；另一条是"代理"模式，AI能自主规划、调用工具、完成多步骤任务。现在市面上的产品，正从第一条路往第二条路狂奔。

Cursor的Composer：把AI从"打字员"变成"项目经理"

Cursor的Composer功能是这条进化路线的典型样本。传统AI编码是单行补全或选中代码块让AI改写，Composer则允许用户用自然语言描述完整需求，AI自动生成多文件修改方案。

关键区别在于上下文管理。普通AI工具像金鱼，窗口一关就忘；Composer能记住整个代码库的架构关系，修改A文件时自动检查B文件的依赖冲突。Khosravi演示过一个案例：让AI"给所有API调用加上重试逻辑"，Composer不是简单在每处插入try-catch，而是先读取项目已有的错误处理规范，再统一生成符合风格的代码。

这种"规划-执行-验证"的闭环，把AI从被动响应者变成主动协作者。但代价是上下文窗口的消耗速度翻倍，Khosravi建议把MCP（模型上下文协议）集成作为必选项——让AI能调用外部工具获取实时信息，而不是把所有背景知识塞进对话历史。

Claude Code的研究模式：当AI开始"查资料"

Anthropic的Claude Code走了另一条路。它的研究功能允许AI主动浏览文档、搜索代码库、甚至读取网页来回答问题。Khosravi对比过两个场景：让Cursor和Claude Code分别处理"这个开源库的某个函数为什么在我项目里报错"。

Cursor会基于已有上下文推测，准确率取决于你喂了多少背景信息；Claude Code则会主动爬取该库的GitHub issue、Stack Overflow讨论、官方文档变更记录，像人类工程师一样"做功课"再回答。这种能力在处理陌生技术栈时差距明显——Khosravi的学生用Claude Code调试Rust代码，效率比纯用GPT-4高出40%。

但研究模式的延迟是硬伤。一次完整查询可能耗时2-3分钟，适合复杂问题，不适合快速迭代。Khosravi的用法是"分层"：简单重构用Cursor Composer秒回，架构级问题扔给Claude Code慢慢研究。

从写代码快，到"流程时间"短

现场有个数据让Khosravi意外：自认"高级"AI用户的开发者，AI生成代码占比超过75%，但项目交付周期只比"中级"用户短15%。瓶颈卡在代码之外——需求澄清、评审反馈、测试调试这些"流程时间"没被AI触及。

他观察过Coinbase内部的高效团队，发现他们把AI注入完整开发链路：用AI生成技术方案草稿加速评审，用AI自动分析测试失败日志，用AI把代码变更翻译成产品经理能看懂的摘要。这些环节的优化，比单纯让AI多写20%代码更有杠杆效应。

Khosravi在伯克利教的一门课，期末项目是两周内用AI工具从零开发产品。去年学生平均提交3.2个功能完整的应用，今年这个数字涨到4.7——不是因为AI变强了，而是学生学会了把AI部署在正确的手动环节。

现场投票里那个2%的"无AI"群体，Khosravi后来专门聊了聊。其中一位是20年经验的老工程师，理由很具体："我现在维护的代码库，AI生成的单元测试覆盖率只有60%，但我要的是100%分支覆盖，补那40%的时间比自己写还长。"

这个反馈指向一个未解决的问题：当AI从"写代码"进化到"管流程"，谁来定义"足够好"的标准？工具厂商默认的优化目标，和具体团队的工程规范，间隙正在变大。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.