![]()
去年2月,Anthropic推出Claude Code;8月,OpenAI的Codex CLI用gpt-5(thinking-high)大幅升级;9月又迭代gpt-5-codex(high)。不到一年,终端智能体从"能跑通"变成"能干活"。Emotion Machine团队已经把bug修复、UI功能、后端更新、全面测试甚至架构重构都丢给这些代理。一个人一天开10到20个会话,成了日常。
但这引出一个问题:代理再强,如果和团队的计划、设计、技术文档脱节,就只是高级自动补全。Simon Willison把从"vibe coding"到"vibe engineering"的转变,核心正是把软件工程实践重新塞回终端代理的工作流——详细规划、多方上下文、部署流水线里的正经测试。要规模化,代理必须从产品讨论、设计决策、技术规格所在的同一个上下文池里捞信息。
Overnight的解法:把Linear当发射台
Overnight是Emotion Machine开源的新工具。逻辑很直接:在Linear里给issue打标签,Overnight就启动一个Modal沙盒(便宜、隔离、用完即弃),把代码库克隆到独立分支,让Codex或Claude Code带着完整代码库权限跑起来。
代码库克隆被缓存在Modal卷里,和主分支保持同步。你不需要每次等git操作。第一遍跑规划:代理读issue、探索代码、写实现计划,回帖到Linear等你审。你评论改需求或回个"go",它就在全新沙盒里跑第二遍,实现全部内容并开PR。
Modal沙盒的意义在于隔离。你的密钥留在容器里,代理动不了你的真实基础设施。这对"让AI随便跑代码"这件事,是底线保障。
为什么偏偏是Linear
Jira、Asana、Notion都能存issue,但Linear有个被低估的优势:工程师和设计师本来就在里面堆上下文。描述、评论、贴的设计稿、文档链接,全在那儿。而且它的移动端真的能用——意味着你可以在地铁上审代理写的实现计划,或批准一个"go"。
没有后端要维护。Linear的webhook事件直接触发Modal端点,端点拉起沙盒。整个流程的管理界面就是Linear本身。
团队计划开源Overnight,前提是"确定它不会吃掉任何人的代码库"。这个谨慎本身也说明问题:代理写代码的可靠性,还没到能闭眼信任的地步。
从"vibe"到工程的断层
2024年的"vibe coding"热潮,本质是降低门槛——不用懂太多,描述需求,AI生成,能跑就行。但企业级开发要的是可维护、可回滚、可审计。Overnight的设计试图桥接这个断层:规划阶段强制人工介入,实现阶段自动化,但保留在熟悉工具(Linear)里的审查节点。
一个细节:缓存的代码库克隆。这解决了终端代理的痛点——每次从零clone大型仓库,时间和带宽都是浪费。Modal的卷存储让沙盒启动时间从分钟级降到秒级,成本也随之下降。
Emotion Machine团队的数据是,一个人一天跑10-20个代理会话。按传统开发流程,这是不可能的任务量。但"量"不等于"质":代理生成的PR仍需人工review,测试仍需通过流水线,架构决策仍需人做。代理吃掉的是重复探索、样板代码、文档同步这些高耗时低认知负荷的工作。
开源前的最后一个问题
Overnight还没开源。团队的原话是:"once we feel confident it won't eat anyone's codebase"——一旦确定它不会吃掉任何人的代码库。这个表述半开玩笑,但指向真实的信任鸿沟。
代理写代码的事故已经不少。幻觉引入的bug、对安全边界的误判、对业务逻辑的曲解,都可能让"自动化提效"变成"自动化埋雷"。Overnight的隔离沙盒是技术层面的保险,但规划阶段的人工审查、PR阶段的人工merge,才是组织层面的保险。
工具的设计透露了团队的判断:完全自动化的代码生成还不现实,但"人机回环"(human-in-the-loop)的密度可以大幅降低。以前工程师写一行代码要配十行沟通,现在代理承担执行层,人聚焦决策层。
Linear的移动端支持被专门提到,这有点反直觉——谁会在手机上审代码?但想想场景:产品经理在通勤时看到代理回复的实现计划,点一下"go",代理开始跑第二遍;设计师在会议间隙确认代理理解了Figma链接的意图。这些碎片时间的利用,累积起来是流程效率的质变。
Overnight的架构也值得关注:没有自建后端,全靠Linear webhook + Modal serverless。这是2024-2025年SaaS工具的典型模式——不重复造轮子,把编排逻辑做薄,核心能力(沙盒执行、代码代理)托管给专业厂商。维护成本低了,迭代速度才能快。
团队提到"templates for FAQs and snippets",这是为规模化准备的。代理会话多了,重复问题也会多——如何快速初始化一个标准类型的issue,如何让代理理解公司的技术债优先级,这些都需要模板化。
一个尚未回答的问题是:当代理生成的PR占比超过一定比例,代码审查的范式会不会变?现在人类审代码,默认作者是人类,关注逻辑、风格、边界情况。如果作者是代理,审查重点可能转向意图对齐——代理是否正确理解了issue的上下文,是否在规划阶段遗漏了关键约束。
Overnight把规划和实现拆成两个阶段,强制在规划阶段停一下,正是为了意图对齐。但这个"停一下"是瓶颈:如果团队响应慢,代理的优势就被抵消。工具提供了异步协作的可能,但组织能不能跟上,是另一回事。
Emotion Machine团队计划开源Overnight,但还没给时间表。他们的谨慎可以理解——代码库是公司的核心资产,"吃掉代码库"不只是技术故障,更是信任崩塌。开源前的测试和边界情况覆盖,决定了这个工具是成为新标准,还是又一个实验性项目。
当代理一天能开20个PR,人类审查者一天能看几个?这个错配,会是下一个要解的题。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.