刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目|代码|gpt|codex|openai

分享至

机器之心报道

编辑：Panda

凌晨 1 点，OpenAI 发布了GPT-5-Codex

从名字也能看出来，这是针对智能体编程任务进行了专门优化的 GPT-5。OpenAI 博客介绍说，GPT-5-Codex 的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应，也能独立完成冗长复杂的任务。它的代码审查（code review）能力可以在代码上线前发现关键漏洞。

GPT-5-Codex 已经在 Codex 的所有使用场景中上线，包括 Codex CLI、IDE 扩展、网页端、移动设备以及 GitHub 中的代码审查。它是云端任务和代码审查的默认模型，开发者也可以通过 Codex CLI 或 IDE 插件，在本地任务中选择使用它。顺带一提：Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 订阅中。

发布两个半小时后，OpenAI CEO 山姆・奥特曼激动地表示GPT-5-Codex 的流量已经占到了 Codex 流量的 40% 左右，并且他预计该模型在今天之内就将成为 Codex 的流量主体。

OpenAI 表示：「自从 4 月推出 Codex CLI、5 月推出 Codex Web 以来，Codex 已逐步演变成更高效的编程助手。两周前，我们把 Codex 整合成一个统一的产品体验，并与 ChatGPT 账号打通。这样，你可以无缝切换本地环境和云端任务，不会丢失上下文。」

该模型一发布就收获了诸多好评，甚至有人表示这是「自切片面包发明以来最好的东西」。

OpenAI 已经以附录形式将 GPT-5-Codex 加入了 GPT-5 系统卡。

地址：https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/

下面我们就来更详细地了解一下 GPT‑5-Codex。

GPT‑5-Codex

GPT-5-Codex 重点优化了在真实工程场景中的自主式（agentic）软件工程能力

它接受过完整项目构建、功能开发、测试编写、调试、大规模重构和代码审查等复杂任务的训练。相比 GPT-5，它更易于控制，遵循 AGENTS.md 的指令更好，代码质量更高。OpenAI 表示：「你只需要告诉它想要什么，而不用写冗长的风格说明。」

其在 SWE-bench Verified（软件工程）和 Code refactoring tasks（代码重构）两个基准上的准确度表现都优于 GPT-5 (high)。

值得一提的是，OpenAI 在 SWE-bench Verified 上的成绩这一次终于使用了该数据集中所有的共 500 个任务，而不是像之前那样只使用了 477 个任务（曾因此备受批评），OpenAI 声称之前只使用 477 个任务的原因是「有部分任务无法在基础设施上运行，而现在这一问题已解决。」

至于另一个代码重构基准 Code refactoring tasks 则包含许多来自大型成熟软件库的重构任务，覆盖 Python、Go、OCaml 等语言。比如 Gitea 的一个 PR，就修改了 232 个文件、3541 行代码，为应用逻辑引入 ctx 变量。

GPT-5-Codex 不仅性能更优，也能根据任务复杂度动态调整思考时间

它结合了两种关键能力：一是与开发者配合的交互式会话，二是对长任务的持久自主执行。

在处理小型请求或对话时，GPT-5-Codex 反应更快；而在处理复杂任务（如大型重构）时，它能持续工作更久。OpenAI 表示：「在测试中，我们看到GPT-5-Codex 能独立运行超过 7 小时，不断迭代实现、修复测试，最终交付可用代码。」

OpenAI 还分享了他们的内部使用数据：

用户请求中，用户交互中 token 数量（包括隐藏的推理和最终的输出）最少的 10% 情况下，GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。
用户交互中 token 数量最多的 10% 情况下，它会投入更多时间，进行更深入的推理、编辑、测试和迭代。

GPT-5-Codex 也专门训练了代码审查能力，可以主动发现关键漏洞。它会遍历代码库，分析依赖，并运行代码和测试来验证正确性。OpenAI 用热门开源项目的最新提交（commit）做了评估，并让经验丰富的工程师进行了验证，结果发现：GPT-5-Codex 的审查意见更少出现错误或无关内容，更能把注意力集中在关键问题上。

在前端任务上，GPT-5-Codex 表现可靠。它能生成美观的桌面应用，也在移动网站的偏好测试中显著提升。云端环境下，它还能读取你上传的图片或截图，检查自己的进度，并把结果截图返回。

GPT-5-Codex 针对 Codex CLI、IDE 插件、云环境和 GitHub 进行了深度优化，同时也支持多种工具调用。不过 OpenAI 也指出：「与通用的 GPT-5 不同，我们建议只在 Codex 或类似场景下使用 GPT-5-Codex。」

Codex 更新

除了发布 GPT-5-Codex，OpenAI 今天还宣布了 Codex 的一些升级，包含全新设计的 Codex CLI 以及新的 Codex IDE 插件。

Codex CLI

Codex CLI 是开源的。过去几个月里，OpenAI 基于社区反馈重新设计了 CLI，让它更适合「自主编程」的工作流，使模型能成为更强大、更可靠的搭档。

现在用户可以在 CLI 中直接添加图片，例如截图、线框图和设计图。这样可以建立共享上下文，让设计决策更清晰，并更容易得到符合预期的结果。

在处理复杂任务时，Codex 会用待办清单（to-do list）跟踪进度，还支持 web 搜索和 MCP 等外部系统连接工具，整体的工具调用更准确。

终端界面也升级了：工具调用和代码差异现在格式更清晰，更容易阅读。

批准模式（approval mode）简化为三种：

只读：需要明确批准才能修改；
自动：拥有完整工作区权限，但在工作区外仍需批准；
完全访问：可以读取任意文件，并在有网络访问的情况下运行命令。

CLI 还支持压缩对话状态，方便管理更长的会话。

Codex IDE 插件

Codex 也能在 IDE 中直接使用。这个插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 带进编辑器，让用户能无缝预览本地改动，并直接用 Codex 修改代码。

OpenAI 介绍了在 IDE 中使用 Codex 的几个优势：

你可以写更简短的提示词，得到更快的结果，因为 Codex 会自动利用上下文，例如你打开的文件或选中的代码。
你可以在云端和本地环境之间流畅切换。比如，在编辑器里直接创建云端任务、跟踪进行中的工作或审查已完成的任务。
如需要调整，你可以在 IDE 中直接打开云端任务，Codex 会保留上下文。

云端的 Codex

除了 CLI 和 IDE 插件，新的 GitHub 集成也让 Codex 的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或 GitHub，就能把任务交给 Codex。

OpenAI 表示，他们也一直在幕后不断提升云端性能，包括：

通过缓存容器（caching containers），新任务和跟进任务的完成时间缩短了 90%。
Codex 会自动检测常见的初始化脚本并执行，帮你完成环境配置。
在配置了网络权限后，它还能在运行时执行 pip install 等命令，安装所需依赖。

和 CLI、IDE 一样，云端 Codex 也支持使用图片。你可以上传前端设计规范或 UI bug 截图。Codex 会在浏览器里运行自己生成的内容，检查效果，并把截图附在任务或 GitHub PR 中。

代码审查

Codex 现在也支持代码审查功能，可以发现关键缺陷。和静态分析工具不同，Codex 会：

对比 PR 的目标和实际改动，
分析整个代码库和依赖关系，
运行代码和测试来验证行为。

这种审查力度，通常只有最仔细的人类工程师才能做到。Codex 正好补上这一缺口，帮助团队更早发现问题，减轻审查负担，让上线更放心。

在 GitHub 上启用后：

当 PR 从草稿变为可审查状态时，Codex 会自动给出分析。
如果它建议修改，你可以直接在同一讨论线程里让它实现。
你也可以手动请求审查，比如在 PR 里输入「@codex review」，甚至给额外指令，如「@codex review for security vulnerabilities」（检查安全漏洞）或「@codex review for outdated dependencies」（检查过时依赖）。

OpenAI 表示：「在 OpenAI 内部，Codex 已经审查了我们绝大多数 PR，每天能发现数百个问题，很多在人工审查开始之前就已经被拦下。这让团队能更快推进，同时保持信心。」

OpenAI 如何让 Codex 更安全？

OpenAI 还介绍了在开发 Codex 时对代码与数据安全的保护措施，他们也部署了一些防范潜在滥用的手段。

默认沙箱环境：无论本地还是云端，Codex 默认运行在沙箱环境中，且关闭网络访问。这可以避免它在你的电脑上执行有害操作，也能减少来自不可信来源的提示词注入风险。
权限机制：在执行可能危险的操作前，Codex 会请求许可。它也经过训练，会运行命令来验证自己的输出。
可配置的安全设置：开发者可以根据风险承受度调整设置。在云端，可以限制网络访问只允许可信域名；在 CLI 和 IDE 插件中，开发者可以决定是否批准 Codex 运行命令，或允许它使用网页搜索、连接 MCP 服务器。这样能扩展能力，但也会增加风险。

OpenAI 也给出了建议：「我们始终建议开发者在上线前先检查 Codex 的工作结果。Codex 会在每个任务中提供引用、终端日志和测试结果，方便人工验证。」但 OpenAI 也强调：Codex 应作为附加审查者，而不是完全取代人工审查。

和 GPT-5 一样，OpenAI 依然将 GPT-5-Codex 在生物与化学领域的任务归类为 High 能力，并采取了相应的安全措施，以尽量减少潜在风险。

价格与可用性

Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。

Plus、Edu、Business 用户：每周可覆盖几次集中的编程会话。
Pro 用户：支持一整周、多个项目的完整工作量。
Business 计划：可以额外购买积分，突破默认上限。
Enterprise 计划：提供共享积分池，按实际使用付费。

目前用户还无法通过 API Key 使用 Codex CLI，但 OpenAI 也表示很快（soon）将通过 API 开放 GPT-5-Codex。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.