2024年4月,OpenAI发布Codex时埋了个细节:同一套模型,跑了三种完全不同的隔离环境。产品经理出身的我第一眼没当回事——沙盒嘛,安全标配。直到看到具体参数才愣住:网页端给2GB内存+1小时超时,IDE插件直接飙到4GB+3小时,命令行版更狠,本地Docker无限期运行。这不像安全策略,像价格歧视。
三种场景,三套规则
Cobus Greyling在拆解文档时打了个比方:Codex的沙盒设计像极了机场安检。网页版是「经济舱快速通道」——够用就行,怕你带危险品上飞机。IDE插件是「商务舱」——多给点空间,让你能展开笔记本电脑干活。命令行版则是「私人飞机」——直接停你家后院,油你自己加。
网页端(Codex App)的限制最死:2GB内存、1小时超时、无网络出站、文件系统只读。适合「帮我改这段Python」的轻量需求。但如果你想跑个需要下载依赖的Node项目,门儿没有。
IDE插件(VS Code/Cursor等)放宽到4GB内存、3小时超时、允许出站网络——但域名白名单制,GitHub、PyPI、npm能访问,你的私有仓库?得走OAuth手动授权。Greyling吐槽:「这设计很OpenAI,既想要开发者生态,又不想背安全锅。」
命令行版(CLI)彻底放飞:本地Docker容器,资源随你机器,网络全开,超时无限。代价是安全责任完全转嫁——你电脑中毒了别找Sam Altman。
沙盒不是技术问题,是商业问题
我翻完文档后意识到,这套分层和「技术最优解」关系不大。OpenAI完全有能力给网页端也配4GB内存——成本而已。真正驱动设计的是使用场景的价格敏感度。
网页端用户大概率是尝鲜党或学生,付费意愿低,资源必须卡死。IDE用户是正经开发者,可能掏20美元/月订阅,值得多给点甜头。CLI用户?要么是AI编程的重度依赖者,要么是企业级客户——后者直接谈合同,SLA另算。
Greyling提到一个细节:三种环境的模型版本也不同步。网页端永远跑最新版,IDE插件滞后1-2周,CLI可以锁死某个版本。这解释了为什么有人在Reddit抱怨「同样提示词,网页端和VS Code结果不一样」——不是幻觉,是版本差。
更隐蔽的区别在上下文窗口。网页端强制限制对话轮次,IDE按项目维度管理,CLI则允许你外挂整个代码库做RAG。换句话说,越靠近「生产环境」,模型越「失忆」;越靠近「本地环境」,它越「长情」。这反直觉,但符合OpenAI的算盘:云端算力贵,能推给本地的绝不自己扛。
开发者不买账的裂缝
分层设计听起来合理,实际用起来全是 friction。我扒了GitHub Issues和HN评论,槽点集中在三处。
第一,权限边界模糊。IDE插件理论上能访问本地文件系统,但沙盒内外的路径映射一团糟。有人反馈:「我让Codex改./config.yaml,它改的是容器里的/tmp/mock-config.yaml,我本地文件纹丝不动。」
第二,网络策略双标。网页端完全断网可以理解,但IDE的白名单机制被吐槽「像2005年的企业防火墙」。有开发者需要调用内部API,发现得先给OpenAI发邮件申请加白——「我等了4天,回复说『请描述您的用例』,我描述完又等了3天。」
第三,CLI的「无限资源」是伪命题。Docker方案确实自由,但初始化一次要拉2GB+的镜像,M1 Mac用户普遍抱怨「风扇起飞」。更尴尬的是,本地沙盒和云端模型的API版本可能不兼容——你本地跑得好好的,一推送到Codex App就报错。
Greyling的总结很毒:「OpenAI想用沙盒解决『AI写代码会不会搞坏我电脑』的焦虑,结果制造了『AI在哪个沙盒里写代码』的新焦虑。」
沙盒战争的下半场
把Codex的架构和竞品对比,能看出OpenAI的焦虑。Anthropic的Claude Code直接放弃沙盒分层,全部本地运行——代价是用户得自己配Python环境。GitHub Copilot走另一条路:IDE内完全无沙盒,模型只给建议不执行,执行权交给用户。
OpenAI试图两头吃:既想要「一键即用」的傻瓜体验,又想要「重度定制」的开发者口碑。结果三种环境各得罪一半人。网页端用户嫌太阉割,CLI用户嫌太臃肿,IDE插件用户卡在中间两头受气。
一个值得玩味的数据点:Codex CLI的GitHub仓库星标数增长曲线,在发布第三周后明显放缓。同期,社区fork出一个叫「codex-local」的第三方项目,用轻量级容器替代官方Docker镜像,周下载量破万。
OpenAI的产品经理不会看不到这些信号。问题是,沙盒分层本质是商业模型的外化——动架构等于动定价。网页端放开资源?成本爆炸。IDE收紧权限?开发者跑路。CLI收归云端?违背「本地优先」的承诺。
Greyling在文章结尾抛了个问题:「当模型能力越来越强,沙盒的边界到底该画在哪?」他没给答案。我看完文档后的感受是:OpenAI自己也没想明白,所以先画了三条线,让用户用脚投票。
投票结果已经部分显现——那个第三方「codex-local」项目的README里写着一行小字:「官方沙盒太胖,我们只想跑个Python脚本。」这算不算另一种形式的用户反馈?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.