网易首页 > 网易号 > 正文 申请入驻

同一个AI,换了个壳性能下降50%?我烧光1个Pro账户找到真相

0
分享至

我在Codex应用里折腾了两天自动化,烧光了一个Pro账户,几乎毫无进展。切换到Codex CLI的/goal功能后,一切立刻顺畅起来。

起初这感觉很反直觉。同一个模型,同一个任务——换个命令行界面怎么会有这么大差别?两天后我想明白了:不是应用的错。智能体(agent)的产品形态还在过渡中,应用正在做"大众市场"的推进,跑在了模型实际能力的前面。


比烧账户更让我意外的是另一件事:心态。

一个谜题

最近有个问题我一直没想通,拿出来讨论。

同一个编程智能体,在终端和官方应用里的表现差异大到不像同一个东西。它在终端里运行得很漂亮,移到应用里就明显"降智"。

理论上不该有这么大差距。应用只是个外壳——包个框架,换套视觉,行为应该一致。但一线的重度用户已经用脚投票了:绝大多数人还是泡在终端里。应用推了这么久,始终没有真正起飞。

自己测试之后,我发现问题可能比表面看起来更复杂。

Codex应用"自动化":两天踩遍所有坑

事情始于GPT-5.5发布后的那种"这模型已经足够强了"的感觉。

5.5把Codex的端到端执行能力又往上提了一档。在长周期任务中,它会自发选择"先验证,再推进"。我的体感是,一个循环大概能撑30分钟左右,然后会自然停在一个里程碑处。观察了几天之后,我意识到在终端里我基本上就是在重复说"继续"。它的下一步判断已经够靠谱了。

那既然如此,为什么不把它高度自动化呢?反正也就是"继续"而已。

我记得Codex应用之前有个Routines功能——正合适。下载之后发现Routines没了,改名成了"Automations"。看了文档,功能看起来差不多,就开始动手。

第一个坑是触发模式。它支持定时执行或间隔触发。我设了自定义间隔,每30分钟触发一次,让它围绕单一目标连续跑两天。

我最初想模拟终端体验:同一会话反复"继续",每几轮检查结果,跑偏了就拉回来。在应用里,这对应的是会话自动化——给当前会话挂一个心跳式的定时唤醒。

听起来合理,但测试暴露了一个隐藏限制:单一会话内,自动化只能成功触发一次。第一次运行后,系统会吞掉后续的心跳,理由是防止无限循环。这让连续迭代变得不可能。

退一步,我切换到了另一种模式:按间隔触发新会话。每次触发都是全新的上下文,没有历史包袱。这解决了无限循环的问题,却带来了更大的麻烦——上下文断裂。

智能体每次都要重新理解项目状态。我试过在自动化配置里塞入文件路径和工作目录,希望它能快速进入状态。但实际运行中,它频繁迷路:找不到文件、误解任务目标、重复已经做过的工作。

两天下来,我的Pro账户额度消耗殆尽,实际产出却接近于零。

CLI的/goal:为什么它行

转投Codex CLI的/goal功能后,体验截然不同。

/goal的核心设计是:你描述一个目标,智能体自主规划、执行、验证,直到完成或遇到需要人工决策的节点。它不会假装自己能处理一切——遇到权限问题、需要确认的操作,它会停下来问。

关键差异在于会话的连续性。CLI里的一次/goal调用,智能体在同一个shell会话中保持状态,文件系统、环境变量、执行历史都是连续的。它不需要每30分钟重新认识世界。

另一个隐藏优势是观察粒度。CLI的输出是完整的执行日志,我可以随时打断、检查、修正。应用的自动化则是黑箱:触发之后,你只能等通知,中间发生了什么无从得知。等发现跑偏时,往往已经浪费了大量token。

我逐渐理解了这个反直觉现象的根源:终端和应用的差异,不只是"外壳"那么简单。

终端是同步、透明、可干预的。你在场,你看着,你随时能喊停。这种"人在回路"的设计,恰恰给了智能体犯错的空间——你知道它会犯错,所以不指望它一次性跑完。

应用自动化是异步、黑箱、批量化的。它假设模型足够可靠,可以无人值守。但现在的模型还没到那个程度。5.5很强,但30分钟无人监督的长周期执行,仍然会在某个环节累积误差,最终偏离目标。

大众市场陷阱

这让我重新思考"智能体应用"的产品逻辑。

Codex应用的问题,本质上是产品定位与模型能力的错配

自动化功能的设计假设是:用户设定目标后,可以离开去做别的事,让AI在后台持续运转。这是典型的"大众市场"思维——降低使用门槛,让非技术用户也能享受AI的便利。但GPT-5.5虽然强大,还不足以支撑这种"放手"模式。

终端里的/goal之所以好用,恰恰因为它没有假装这是全自动的。它在需要时停下来,把人拉回路中。这种"半自动"设计,反而更适合当前模型的实际水平。

一个类比:自动驾驶。L2级辅助驾驶要求驾驶员全程关注,事故率可控;L4级无人出租车试图完全替代人类,技术难度陡增,商业化反复推迟。Codex应用现在的自动化,有点像在L2硬件上强行做L4体验。

更深一层,这种错配也反映了心态差异。

用终端时,我默认AI会出错,所以保持警觉、频繁检查、及时干预。这种"防御性使用"让系统整体更稳健。应用的自动化界面则传递了相反的信号:设置好就可以放心离开。这种预期管理一旦失误,代价就是烧光账户却一无所获。

不是应用做错了什么。是智能体的产品形态本身还在剧烈演变中,"应用化"的尝试跑在了模型能力前面。对重度用户来说,终端仍是更诚实、更可控的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女版杨瀚森?李月汝WNBA新季首次全场被弃用 飞翼吞首败

女版杨瀚森?李月汝WNBA新季首次全场被弃用 飞翼吞首败

醉卧浮生
2026-05-13 10:06:14
数学逆袭最快的黄金顺序,照着学,成绩蹭蹭涨

数学逆袭最快的黄金顺序,照着学,成绩蹭蹭涨

户外阿毽
2026-05-12 16:57:29
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
苹果正式宣布,这项重要功能终于开放!

苹果正式宣布,这项重要功能终于开放!

XCiOS俱乐部
2026-05-12 10:13:11
比亚迪:SHARK皮卡今年将进入方程豹序列

比亚迪:SHARK皮卡今年将进入方程豹序列

IT之家
2026-05-13 21:00:30
雅思宣布:中国大陆地区,9月1日起取消纸笔考试

雅思宣布:中国大陆地区,9月1日起取消纸笔考试

南方都市报
2026-05-10 23:34:08
这很不正常,来自印度的警讯

这很不正常,来自印度的警讯

牛弹琴
2026-05-13 07:07:56
57空战一年后,巴公开阵风被击落细节:歼10CE没靠预警,纯粹硬干

57空战一年后,巴公开阵风被击落细节:歼10CE没靠预警,纯粹硬干

通鉴史智
2026-05-13 09:55:57
等了16年,0失误,41分!他终于摸到了总决赛的地板

等了16年,0失误,41分!他终于摸到了总决赛的地板

云隐南山
2026-05-13 17:29:16
美国暗中做小动作,生物战已打响!中国火速排查,绝不让阴谋得逞

美国暗中做小动作,生物战已打响!中国火速排查,绝不让阴谋得逞

流年顛簸
2026-05-13 15:19:26
416亿买来的教训:剥离格力后,集团再也无法撼动董明珠的铁王座

416亿买来的教训:剥离格力后,集团再也无法撼动董明珠的铁王座

李砍柴
2026-05-12 21:51:06
轰30分3助4断!中国男篮18岁1米83混血控卫闪耀:下赛季征战NCAA

轰30分3助4断!中国男篮18岁1米83混血控卫闪耀:下赛季征战NCAA

李喜林篮球绝杀
2026-05-13 20:14:35
王励勤出手了!国乒3大新星获重用,世界第1组合落选,双打大变脸

王励勤出手了!国乒3大新星获重用,世界第1组合落选,双打大变脸

阿晞体育
2026-05-13 21:24:15
民营:不能永远带着原罪的镣铐前行

民营:不能永远带着原罪的镣铐前行

生命可以承受之轻
2026-05-12 08:50:45
“手擀”是商标,面是机器做的!产品已下架

“手擀”是商标,面是机器做的!产品已下架

南方都市报
2026-05-13 19:16:39
“摸奶子”OPPO炸上热搜,全网破防了!

“摸奶子”OPPO炸上热搜,全网破防了!

新零售参考Pro
2026-05-13 14:33:09
世乒赛最痛苦的人莫过于张本宇了,不是两兄妹败了,而是地位不复从前

世乒赛最痛苦的人莫过于张本宇了,不是两兄妹败了,而是地位不复从前

林子说事
2026-05-13 18:06:50
何超莲35岁生日晒比基尼!腰腹零赘肉,窦骁评论区醋意溢出屏幕

何超莲35岁生日晒比基尼!腰腹零赘肉,窦骁评论区醋意溢出屏幕

乡野小珥
2026-05-11 18:30:43
广东出局夜王少杰泪洒现场!2年租借到期 下赛季回归存疑

广东出局夜王少杰泪洒现场!2年租借到期 下赛季回归存疑

狼叔评论
2026-05-13 01:14:09
Model Y 高速上被撞成这样,特斯拉车主说没事!

Model Y 高速上被撞成这样,特斯拉车主说没事!

新浪财经
2026-05-11 10:52:24
2026-05-13 23:55:00
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
2611文章数 30关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

时尚
家居
房产
艺术
游戏

专栏 | 进入心流后,不被洪流裹挟

家居要闻

内在自叙,无域有方

房产要闻

卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

艺术要闻

乾隆 “翻车” 名画刷屏!

《OW》10周年庆典被老外狂喷"抠死了":把我们当猴耍

无障碍浏览 进入关怀版