同一个AI，换了个壳性能下降50%？我烧光1个Pro账户找到真相|编程|智能体|自动化|大模型

同一个AI，换了个壳性能下降50%？我烧光1个Pro账户找到真相

2026-05-13 08:52:47　来源: 爬虫饲养员

北京举报

分享至

我在Codex应用里折腾了两天自动化，烧光了一个Pro账户，几乎毫无进展。切换到Codex CLI的/goal功能后，一切立刻顺畅起来。

起初这感觉很反直觉。同一个模型，同一个任务——换个命令行界面怎么会有这么大差别？两天后我想明白了：不是应用的错。智能体（agent）的产品形态还在过渡中，应用正在做"大众市场"的推进，跑在了模型实际能力的前面。

比烧账户更让我意外的是另一件事：心态。

一个谜题

最近有个问题我一直没想通，拿出来讨论。

同一个编程智能体，在终端和官方应用里的表现差异大到不像同一个东西。它在终端里运行得很漂亮，移到应用里就明显"降智"。

理论上不该有这么大差距。应用只是个外壳——包个框架，换套视觉，行为应该一致。但一线的重度用户已经用脚投票了：绝大多数人还是泡在终端里。应用推了这么久，始终没有真正起飞。

自己测试之后，我发现问题可能比表面看起来更复杂。

Codex应用"自动化"：两天踩遍所有坑

事情始于GPT-5.5发布后的那种"这模型已经足够强了"的感觉。

5.5把Codex的端到端执行能力又往上提了一档。在长周期任务中，它会自发选择"先验证，再推进"。我的体感是，一个循环大概能撑30分钟左右，然后会自然停在一个里程碑处。观察了几天之后，我意识到在终端里我基本上就是在重复说"继续"。它的下一步判断已经够靠谱了。

那既然如此，为什么不把它高度自动化呢？反正也就是"继续"而已。

我记得Codex应用之前有个Routines功能——正合适。下载之后发现Routines没了，改名成了"Automations"。看了文档，功能看起来差不多，就开始动手。

第一个坑是触发模式。它支持定时执行或间隔触发。我设了自定义间隔，每30分钟触发一次，让它围绕单一目标连续跑两天。

我最初想模拟终端体验：同一会话反复"继续"，每几轮检查结果，跑偏了就拉回来。在应用里，这对应的是会话自动化——给当前会话挂一个心跳式的定时唤醒。

听起来合理，但测试暴露了一个隐藏限制：单一会话内，自动化只能成功触发一次。第一次运行后，系统会吞掉后续的心跳，理由是防止无限循环。这让连续迭代变得不可能。

退一步，我切换到了另一种模式：按间隔触发新会话。每次触发都是全新的上下文，没有历史包袱。这解决了无限循环的问题，却带来了更大的麻烦——上下文断裂。

智能体每次都要重新理解项目状态。我试过在自动化配置里塞入文件路径和工作目录，希望它能快速进入状态。但实际运行中，它频繁迷路：找不到文件、误解任务目标、重复已经做过的工作。

两天下来，我的Pro账户额度消耗殆尽，实际产出却接近于零。

CLI的/goal：为什么它行

转投Codex CLI的/goal功能后，体验截然不同。

/goal的核心设计是：你描述一个目标，智能体自主规划、执行、验证，直到完成或遇到需要人工决策的节点。它不会假装自己能处理一切——遇到权限问题、需要确认的操作，它会停下来问。

关键差异在于会话的连续性。CLI里的一次/goal调用，智能体在同一个shell会话中保持状态，文件系统、环境变量、执行历史都是连续的。它不需要每30分钟重新认识世界。

另一个隐藏优势是观察粒度。CLI的输出是完整的执行日志，我可以随时打断、检查、修正。应用的自动化则是黑箱：触发之后，你只能等通知，中间发生了什么无从得知。等发现跑偏时，往往已经浪费了大量token。

我逐渐理解了这个反直觉现象的根源：终端和应用的差异，不只是"外壳"那么简单。

终端是同步、透明、可干预的。你在场，你看着，你随时能喊停。这种"人在回路"的设计，恰恰给了智能体犯错的空间——你知道它会犯错，所以不指望它一次性跑完。

应用自动化是异步、黑箱、批量化的。它假设模型足够可靠，可以无人值守。但现在的模型还没到那个程度。5.5很强，但30分钟无人监督的长周期执行，仍然会在某个环节累积误差，最终偏离目标。

大众市场陷阱

这让我重新思考"智能体应用"的产品逻辑。

Codex应用的问题，本质上是产品定位与模型能力的错配。

自动化功能的设计假设是：用户设定目标后，可以离开去做别的事，让AI在后台持续运转。这是典型的"大众市场"思维——降低使用门槛，让非技术用户也能享受AI的便利。但GPT-5.5虽然强大，还不足以支撑这种"放手"模式。

终端里的/goal之所以好用，恰恰因为它没有假装这是全自动的。它在需要时停下来，把人拉回路中。这种"半自动"设计，反而更适合当前模型的实际水平。

一个类比：自动驾驶。L2级辅助驾驶要求驾驶员全程关注，事故率可控；L4级无人出租车试图完全替代人类，技术难度陡增，商业化反复推迟。Codex应用现在的自动化，有点像在L2硬件上强行做L4体验。

更深一层，这种错配也反映了心态差异。

用终端时，我默认AI会出错，所以保持警觉、频繁检查、及时干预。这种"防御性使用"让系统整体更稳健。应用的自动化界面则传递了相反的信号：设置好就可以放心离开。这种预期管理一旦失误，代价就是烧光账户却一无所获。

不是应用做错了什么。是智能体的产品形态本身还在剧烈演变中，"应用化"的尝试跑在了模型能力前面。对重度用户来说，终端仍是更诚实、更可控的选择。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

同一个AI，换了个壳性能下降50%？我烧光1个Pro账户找到真相

腾讯一季度营收1964.6亿元 同比增9%

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

14年半，74万，何冰娇没选那条更安稳的路

白鹿掉20万粉，网友为李晨鸣不平

美国总统特朗普抵达北京

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

专栏 | 进入心流后，不被洪流裹挟

内在自叙，无域有方

卷疯了！最低杀到7字头！手握30万，海口楼市横着走！

乾隆 “翻车” 名画刷屏！

《OW》10周年庆典被老外狂喷"抠死了":把我们当猴耍

腾讯一季度营收1964.6亿元同比增9%

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

C级纯电轿跑吉利银河"TT"申报图来了