我在Codex应用里折腾了两天自动化,烧光了一个Pro账户,几乎毫无进展。切换到Codex CLI的/goal功能后,一切立刻顺畅起来。
起初这感觉很反直觉。同一个模型,同一个任务——换个命令行界面怎么会有这么大差别?两天后我想明白了:不是应用的错。智能体(agent)的产品形态还在过渡中,应用正在做"大众市场"的推进,跑在了模型实际能力的前面。
![]()
比烧账户更让我意外的是另一件事:心态。
一个谜题
最近有个问题我一直没想通,拿出来讨论。
同一个编程智能体,在终端和官方应用里的表现差异大到不像同一个东西。它在终端里运行得很漂亮,移到应用里就明显"降智"。
理论上不该有这么大差距。应用只是个外壳——包个框架,换套视觉,行为应该一致。但一线的重度用户已经用脚投票了:绝大多数人还是泡在终端里。应用推了这么久,始终没有真正起飞。
自己测试之后,我发现问题可能比表面看起来更复杂。
Codex应用"自动化":两天踩遍所有坑
事情始于GPT-5.5发布后的那种"这模型已经足够强了"的感觉。
5.5把Codex的端到端执行能力又往上提了一档。在长周期任务中,它会自发选择"先验证,再推进"。我的体感是,一个循环大概能撑30分钟左右,然后会自然停在一个里程碑处。观察了几天之后,我意识到在终端里我基本上就是在重复说"继续"。它的下一步判断已经够靠谱了。
那既然如此,为什么不把它高度自动化呢?反正也就是"继续"而已。
我记得Codex应用之前有个Routines功能——正合适。下载之后发现Routines没了,改名成了"Automations"。看了文档,功能看起来差不多,就开始动手。
第一个坑是触发模式。它支持定时执行或间隔触发。我设了自定义间隔,每30分钟触发一次,让它围绕单一目标连续跑两天。
我最初想模拟终端体验:同一会话反复"继续",每几轮检查结果,跑偏了就拉回来。在应用里,这对应的是会话自动化——给当前会话挂一个心跳式的定时唤醒。
听起来合理,但测试暴露了一个隐藏限制:单一会话内,自动化只能成功触发一次。第一次运行后,系统会吞掉后续的心跳,理由是防止无限循环。这让连续迭代变得不可能。
退一步,我切换到了另一种模式:按间隔触发新会话。每次触发都是全新的上下文,没有历史包袱。这解决了无限循环的问题,却带来了更大的麻烦——上下文断裂。
智能体每次都要重新理解项目状态。我试过在自动化配置里塞入文件路径和工作目录,希望它能快速进入状态。但实际运行中,它频繁迷路:找不到文件、误解任务目标、重复已经做过的工作。
两天下来,我的Pro账户额度消耗殆尽,实际产出却接近于零。
CLI的/goal:为什么它行
转投Codex CLI的/goal功能后,体验截然不同。
/goal的核心设计是:你描述一个目标,智能体自主规划、执行、验证,直到完成或遇到需要人工决策的节点。它不会假装自己能处理一切——遇到权限问题、需要确认的操作,它会停下来问。
关键差异在于会话的连续性。CLI里的一次/goal调用,智能体在同一个shell会话中保持状态,文件系统、环境变量、执行历史都是连续的。它不需要每30分钟重新认识世界。
另一个隐藏优势是观察粒度。CLI的输出是完整的执行日志,我可以随时打断、检查、修正。应用的自动化则是黑箱:触发之后,你只能等通知,中间发生了什么无从得知。等发现跑偏时,往往已经浪费了大量token。
我逐渐理解了这个反直觉现象的根源:终端和应用的差异,不只是"外壳"那么简单。
终端是同步、透明、可干预的。你在场,你看着,你随时能喊停。这种"人在回路"的设计,恰恰给了智能体犯错的空间——你知道它会犯错,所以不指望它一次性跑完。
应用自动化是异步、黑箱、批量化的。它假设模型足够可靠,可以无人值守。但现在的模型还没到那个程度。5.5很强,但30分钟无人监督的长周期执行,仍然会在某个环节累积误差,最终偏离目标。
大众市场陷阱
这让我重新思考"智能体应用"的产品逻辑。
Codex应用的问题,本质上是产品定位与模型能力的错配。
自动化功能的设计假设是:用户设定目标后,可以离开去做别的事,让AI在后台持续运转。这是典型的"大众市场"思维——降低使用门槛,让非技术用户也能享受AI的便利。但GPT-5.5虽然强大,还不足以支撑这种"放手"模式。
终端里的/goal之所以好用,恰恰因为它没有假装这是全自动的。它在需要时停下来,把人拉回路中。这种"半自动"设计,反而更适合当前模型的实际水平。
一个类比:自动驾驶。L2级辅助驾驶要求驾驶员全程关注,事故率可控;L4级无人出租车试图完全替代人类,技术难度陡增,商业化反复推迟。Codex应用现在的自动化,有点像在L2硬件上强行做L4体验。
更深一层,这种错配也反映了心态差异。
用终端时,我默认AI会出错,所以保持警觉、频繁检查、及时干预。这种"防御性使用"让系统整体更稳健。应用的自动化界面则传递了相反的信号:设置好就可以放心离开。这种预期管理一旦失误,代价就是烧光账户却一无所获。
不是应用做错了什么。是智能体的产品形态本身还在剧烈演变中,"应用化"的尝试跑在了模型能力前面。对重度用户来说,终端仍是更诚实、更可控的选择。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.