2025年2月,前特斯拉AI总监Andrej Karpathy造了个新词——"氛围编程"(vibe coding)。一年后,他自己给这个词加了条注释:拿来玩可以,真要认真做项目,这是技能退化的高速通道。
这不是打脸,是进化。当AI代理(agent,指能自主执行任务的AI程序)写得越来越快,人类工程师的角色正在剧烈重构。不是写代码的人变少了,是"写代码"这件事的定义彻底变了。
![]()
本文梳理5个正在2025-2026年一线实践者身上验证的工作习惯。每个习惯对应一个具体的失败模式,每个都指向同一个问题:当AI成为主力生产者,人类到底该守住什么?
一、从"三顶帽子"开始:规范、路由、审查
智能体工程师(operator)的核心工作不再是写代码,而是三顶帽子的轮换:规范(specify)、路由(route)、审查(review)。
缺了任何一顶,所谓的"智能体工程"就会坍缩回提示词工程——而这恰恰是大型语言模型(LLM,指GPT/Claude等生成式AI)最擅长替代的领域。
规范,是把模糊的需求翻译成可验证的约束。不是"做个登录功能",而是"支持邮箱+密码登录,密码需符合NIST 800-63B标准,错误三次触发验证码,会话有效期24小时"。
路由,是决定哪个任务该走哪个代理流。有些需要深度协作,有些该丢给异步执行。选错路径,要么人被困在琐事里,要么关键节点失控。
审查,是保留对最终输出的判断力。不是每行代码都读,但关键决策点必须人工确认。Karpathy警告的"审查肌肉萎缩",说的就是这里——长期不审,会丧失识别错误的能力。
三顶帽子必须"有意识地轮换"。很多人失败不是因为不会做,是因为没意识到自己此刻该戴哪一顶。
二、双文档起点:规范文档+计划文档
每个代理驱动的任务,启动时必须是两个markdown文件:规范文档(spec doc)和计划文档(plan doc)。
代理按计划执行;工程师审查计划,而非逐行代码。这是Reed的实战流程:头脑风暴(idea.md)→ 规划(plan.md)→ 执行(Aider按plan.md运行)。
这里有个反直觉的洞察:可复用的资产是规范+计划,不是代码。代码会腐烂,规范会跨项目复利。
具体操作层面,要求代理写任何代码之前,工程师手里必须有一个{feature}-plan.md文件,内含:输入输出契约(I/O contract)、验证用的测试用例、验收标准、回滚方案。
如果计划没写,规范没共享,审查权就流失了。这是第一道防线,也是最容易被跳过的步骤——因为"让代理直接写更快"。
更快,但不可控。很多团队的代理试点死在第三周,就是因为前期省了这一步,后期陷入 endless debugging loop(无尽调试循环)。
三、双轨并行:A流与B流的纪律
任何时候,手里同时跑两条代理流。
A流:深度配对模式。工程师和代理并肩工作,实时讨论、即时修正。适合架构决策、复杂调试、需要大量上下文切换的任务。
B流:异步执行模式。工程师抛出任务,代理独立完成,工程师只验收结果。适合明确边界、标准流程、可自动化验证的工作。
Litt指出的典型失败模式,是把所有事都当B流处理:狂发提示词,疯狂切上下文,什么都不深度审查。结果是表面效率高,关键错误漏过。
对称的失败是全部走A流:跟代理配对做本该异步执行的琐碎重构。人成了瓶颈,代理的并行能力被浪费。
双轨的关键是"主动选择",不是默认习惯。每个任务启动前问一句:这该走A还是B?这个简单问题能过滤掉大量效率损耗。
四、三种多代理模式:按任务形状匹配
多代理协作有三种可复用模式。选错模式,成本和故障率指数级上升。
流水线模式(Assembly-line)。顺序管道:代理1阶段1,代理2阶段2。典型场景:提取→验证→转换→加载。易调试,每阶段单一输入单一输出。
呼叫中心模式(Call-center)。路由代理把任务分发给专业代理。典型场景:分流客服查询到支持/账单/技术部门。路由代理是瓶颈和故障点。
经理-工人模式(Manager-worker)。经理代理拆解任务、分派工人、聚合结果。典型场景:Claude Code用子代理做独立研究流。
反模式是把经理-工人当默认。这是最贵、最脆弱的方案——状态扩散、部分失败隐藏、聚合错误累积。
很多团队一上来就搞"智能体 swarm(集群)",就是因为听起来先进。实际运行中,状态管理复杂度压垮收益。简单任务用流水线,复杂决策用经理-工人,中间地带用呼叫中心——按形状选,不炫技。
五、审查肌肉的刻意训练
Karpathy一年后的修正,核心就一句话:审查能力用进废退。
当代理输出越来越流畅,人类会本能地放松警惕。不是故意偷懒,是认知负荷管理——全部细读不现实,抽样检查又容易漏掉系统性错误。
解决方案是"结构化审查":不是读代码,是验证计划中的检查点。输入输出契约是否满足?测试用例是否通过?边界条件是否覆盖?
这比逐行读更高效,也更难被代理的"流畅废话"欺骗。代理擅长生成看起来合理的输出,尤其是当训练数据里有大量相似模式时。审查肌肉的价值,是识别"合理但错误"的能力。
长期依赖氛围编程的人,会逐渐丧失这种能力。不是道德批判,是神经可塑性——大脑会适应你让它做的事。
为什么这很重要
这五个习惯的本质,是在重新定义"编程"的边界。代码从产出物变成中间态,工程师从生产者变成策展人。
策展人的核心能力不是知道多少语法,是判断什么是好的、什么是错的、什么时候该介入。这些能力无法被代理替代,因为它们需要跨项目的上下文、业务目标的深层理解、以及对"正确"的直觉。
2025年的分水岭正在于此:一边是技能退化、只能喊提示词的"氛围编程者";一边是建立新工作流、把代理当杠杆的"智能体工程师"。两者的差距,会在18个月内拉大到难以跨越。
工具已经摆在那里。问题是,你打算用它做什么?
(完)
附注:本文工作流参考自claude-code-agent-skills-framework框架中的agentic-engineering.md规则,以及claude-code-mcp-qa-automation的QA自动化实践。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.