凌晨两点,你终于改完最后一行代码,却还要等CI跑完测试。这时候如果有个"数字实习生"能在后台盯着屏幕、点按钮、填表单,而你照常刷剧回邮件——这种场景正在变成OpenAI的新赌注。
从代码编辑器到Mac后台代理
![]()
OpenAI今天发布的Codex新版,核心变化就一句话:它不再只是程序员的工具,开始觊觎普通Mac用户的桌面。
三个新功能构成了这次转型的骨架:后台计算机使用(Computer Use)、内置Atlas浏览器、以及图像生成。三者都指向同一个产品逻辑——让AI代理在后台并行运行,不打扰你的主线程工作。
「多个代理可以并行工作,不会干扰你在其他应用中的操作」,OpenAI的官方描述刻意淡化了技术术语。这种表述方式本身就在拓宽用户想象:不只是写代码的人,任何需要"后台有人干活"的场景都可能适用。
后台运行的技术实现,源自OpenAI去年秋天收购的Sky Applications团队。这个团队最早开发了Apple Shortcuts(前身Workflow),核心能力正是让自动化脚本在系统层面流畅运行。把这套经验嫁接到AI代理上,Codex获得了区别于其他编程助手的底层优势——它不需要独占你的屏幕。
浏览器内置:从"看代码"到"看网页"
第二个关键更新是把Atlas浏览器塞进Codex。Atlas原本是OpenAI去年推出的AI优先网页浏览器,现在成为Codex理解外部世界的眼睛。
功能设计上有个细节值得玩味:用户可以直接在网页上评论,给代理提供精确指令。OpenAI的表述是「这对前端和游戏开发很有用,未来我们计划扩展,让Codex能完全控制浏览器,不限于本地主机的网页应用」。
这句话暴露了产品演进的两条路径。短期看,它是开发者的调试工具——在本地跑的前端页面上画个圈、写句"这里按钮对齐有问题",代理就能理解并修改。长期看,OpenAI在试探更通用的网页自动化:填表、比价、监控信息更新,这些原本需要RPA(机器人流程自动化)工具的活儿,可能都被收编进Codex的能力圈。
图像生成功能的嵌入同样遵循这个逻辑。gpt-image-1.5模型直接接入,开发者不用跳转到ChatGPT做视觉原型。但OpenAI的用例描述很宽泛:「基于截图和代码制作视觉概念」。截图——这个词把使用场景从纯代码工作流,拉向了任何需要"看图说话"的桌面操作。
111个插件与MCP协议:生态押注
除了三大功能,OpenAI还发布了111个精选Codex插件。这个数字本身就有传播设计——足够多显得生态繁荣,又足够具体避免"大量"这类模糊表述。
插件体系整合了三种能力来源:技能(Skills)、应用集成、以及MCP服务器。MCP(Model Context Protocol,模型上下文协议)是Anthropic去年推出的开放标准,允许AI模型安全地连接外部数据源和工具。OpenAI拥抱这个对手制定的协议,说明在代理生态的底层标准上,行业正在被迫收敛。
插件清单里还有些针对开发场景的细化功能:处理GitHub审查评论、多终端标签页、SSH连接远程开发环境(Alpha阶段)、侧边栏直接打开文件并预览PDF和表格。这些功能没有单独开新闻发布会,但构成了Codex作为"开发环境"的基本盘——在向外扩展之前,先确保核心用户不流失。
人物动作:Sky团队的技术遗产
理解这次更新,必须回到去年秋天的那笔收购。Sky Applications团队的核心资产不是代码,而是苹果生态的自动化经验。
Workflow(后来的Shortcuts)解决了iOS/macOS上最难的问题:在封闭系统里实现跨应用自动化。这需要对系统API的深度理解,更需要对"用户如何在多任务环境中使用自动化"的体感。把这种经验迁移到AI代理场景,Codex的后台运行能力就有了区别于纯云端方案的护城河——它知道怎么在Mac上"礼貌地"占用资源,不触发用户的系统焦虑。
OpenAI产品负责人分享的体验描述很具画面感:「让代理在后台使用你的应用,同时你还能正常使用电脑,这是一种魔法般的感觉」。魔法感来自认知负荷的降低——你不需要为AI腾出专属时间和屏幕空间,它像系统级的后台服务一样存在。
这种设计哲学与苹果近年推行的"Live Activities"和"灵动岛"一脉相承:信息和服务前置,但不打断当前任务流。Codex正在把自己嵌入这个交互范式,而不是创造全新的使用习惯。
背后逻辑:代理经济的入口之争
把三个功能放在一起看,OpenAI在Codex上测试的是一种新的代理分发模式。
现有的AI代理产品大致分两派。一派是垂直场景的深度整合,比如Devin专攻编程、Operator聚焦网页操作;另一派是通用助手的功能叠加,ChatGPT本身就在不断膨胀工具箱。Codex试图走中间路线:以Mac桌面为边界,做一个"足够通用又足够深入"的代理容器。
这个策略的风险和机会都很清晰。风险在于,Mac用户群体虽然付费能力强,但规模远小于Windows;开发者向通用用户的扩展,历史上鲜有成功案例(想想Sublime Text和VS Code的社区边界)。机会在于,如果后台代理的运行体验确实差异化,Codex可能成为"代理即服务"的桌面入口——其他应用想要AI能力,不如直接接入Codex的插件体系。
111个插件的发布时机值得注意。这不是生态自然生长到111个,而是OpenAI主动筛选和打包的结果。这种"策展式生态"的做法,说明OpenAI在代理工具的质量控制上趋于保守——宁愿少而精,不愿重蹈GPT Store早期鱼龙混杂的覆辙。
MCP协议的采用则是另一层博弈。Anthropic提出这个标准时,OpenAI的态度暧昧。现在明确接入,既是对开发者社区呼声的回应,也是在为可能的行业分裂做准备:如果代理生态最终围绕MCP收敛,OpenAI不能缺席;如果标准战争持续,支持MCP也给Codex留下了灵活切换的余地。
行业影响:开发工具的边界消融
Codex的转型对行业有两个立竿见影的冲击。
第一,"AI编程助手"这个品类正在解体。GitHub Copilot、Cursor、Windsurf等产品的竞争维度,从"谁更懂代码"扩展到"谁更能融入你的工作流"。Codex的后台运行能力,本质上是在争夺"工作流"的定义权——不是你在IDE里写代码时获得帮助,而是你的整个数字工作过程都有代理参与。
第二,RPA(机器人流程自动化)市场的天花板被顶高了一层。传统RPA工具如UiPath、Automation Anywhere,核心卖点是让非技术人员也能自动化重复操作。但它们的交互范式停留在"录制-回放"或可视化流程编排,学习曲线依然陡峭。Codex的自然语言指令+后台执行,可能绕过这个瓶颈,直接把自动化能力交付给终端用户。
这种威胁对RPA厂商是结构性的。它们的客户主要是企业IT部门,采购流程长、落地周期长;Codex如果通过个人用户渗透进工作场景,可能从下往上颠覆企业软件的采购逻辑——先有人用,再推动IT合规。
更深远的影响在于"代理并行"的技术验证。OpenAI强调「多个代理可以并行工作」,这在当前AI产品中仍属稀缺能力。大多数代理工具是单线程的:你发出指令,等待完成,再发下一个。Codex的后台架构允许代理队列运行,这为更复杂的自动化场景打开了空间——比如同时监控多个网页、在多个应用间协调数据流转。
未解之问
Codex的新定位也留下几个悬而未决的问题。
安全边界如何设定?后台代理拥有系统级操作权限,这意味着误操作或恶意指令的破坏力远超聊天机器人。OpenAI在发布材料中未提及具体的安全机制,这是后续观察的重点。
定价模型会否调整?目前Codex包含在ChatGPT Pro订阅中(200美元/月),这个价位对非开发者用户显然过高。如果真要拓展通用场景,OpenAI需要设计更精细的付费梯度——是按代理运行时长计费,还是按完成的任务量计价?
Windows版本何时跟进?Mac的先发优势能维持多久,取决于OpenAI与微软的关系微妙程度。微软既有GitHub Copilot,又在力推Windows的AI集成,Codex的跨平台扩张不会顺畅。
当AI代理开始在你的Mac后台默默点击、浏览、生成图像,你更愿意把它当作一个随时待命的数字实习生,还是担心这种"存在感稀薄"的自动化正在模糊人与工具的边界?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.