网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI发布GPT-5-Codex:独立工作超7小时,还能审查大型项目

0
分享至



机器之心报道

编辑:Panda

凌晨 1 点,OpenAI 发布了GPT-5-Codex

从名字也能看出来,这是针对智能体编程任务进行了专门优化的 GPT-5。OpenAI 博客介绍说,GPT-5-Codex 的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应,也能独立完成冗长复杂的任务。它的代码审查(code review)能力可以在代码上线前发现关键漏洞。



GPT-5-Codex 已经在 Codex 的所有使用场景中上线,包括 Codex CLI、IDE 扩展、网页端、移动设备以及 GitHub 中的代码审查。它是云端任务和代码审查的默认模型,开发者也可以通过 Codex CLI 或 IDE 插件,在本地任务中选择使用它。顺带一提:Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 订阅中。

发布两个半小时后,OpenAI CEO 山姆・奥特曼激动地表示GPT-5-Codex 的流量已经占到了 Codex 流量的 40% 左右,并且他预计该模型在今天之内就将成为 Codex 的流量主体。



OpenAI 表示:「自从 4 月推出 Codex CLI、5 月推出 Codex Web 以来,Codex 已逐步演变成更高效的编程助手。两周前,我们把 Codex 整合成一个统一的产品体验,并与 ChatGPT 账号打通。这样,你可以无缝切换本地环境和云端任务,不会丢失上下文。」

该模型一发布就收获了诸多好评,甚至有人表示这是「自切片面包发明以来最好的东西」。



OpenAI 已经以附录形式将 GPT-5-Codex 加入了 GPT-5 系统卡。



地址:https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/

下面我们就来更详细地了解一下 GPT‑5-Codex。

GPT‑5-Codex

GPT-5-Codex 重点优化了在真实工程场景中的自主式(agentic)软件工程能力

它接受过完整项目构建、功能开发、测试编写、调试、大规模重构和代码审查等复杂任务的训练。相比 GPT-5,它更易于控制,遵循 AGENTS.md 的指令更好,代码质量更高。OpenAI 表示:「你只需要告诉它想要什么,而不用写冗长的风格说明。」

其在 SWE-bench Verified(软件工程)和 Code refactoring tasks(代码重构)两个基准上的准确度表现都优于 GPT-5 (high)。



值得一提的是,OpenAI 在 SWE-bench Verified 上的成绩这一次终于使用了该数据集中所有的共 500 个任务,而不是像之前那样只使用了 477 个任务(曾因此备受批评),OpenAI 声称之前只使用 477 个任务的原因是「有部分任务无法在基础设施上运行,而现在这一问题已解决。」

至于另一个代码重构基准 Code refactoring tasks 则包含许多来自大型成熟软件库的重构任务,覆盖 Python、Go、OCaml 等语言。比如 Gitea 的一个 PR,就修改了 232 个文件、3541 行代码,为应用逻辑引入 ctx 变量。

GPT-5-Codex 不仅性能更优,也能根据任务复杂度动态调整思考时间

它结合了两种关键能力:一是与开发者配合的交互式会话,二是对长任务的持久自主执行。

在处理小型请求或对话时,GPT-5-Codex 反应更快;而在处理复杂任务(如大型重构)时,它能持续工作更久。OpenAI 表示:「在测试中,我们看到GPT-5-Codex 能独立运行超过 7 小时,不断迭代实现、修复测试,最终交付可用代码。」

OpenAI 还分享了他们的 内部使用数据:

  • 用户请求中,用户交互中 token 数量(包括隐藏的推理和最终的输出)最少的 10% 情况下,GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。
  • 用户交互中 token 数量最多的 10% 情况下,它会投入更多时间,进行更深入的推理、编辑、测试和迭代。



GPT-5-Codex 也专门训练了代码审查能力,可以主动发现关键漏洞。它会遍历代码库,分析依赖,并运行代码和测试来验证正确性。OpenAI 用热门开源项目的最新提交(commit)做了评估,并让经验丰富的工程师进行了验证,结果发现:GPT-5-Codex 的审查意见更少出现错误或无关内容,更能把注意力集中在关键问题上。



在前端任务上,GPT-5-Codex 表现可靠。它能生成美观的桌面应用,也在移动网站的偏好测试中显著提升。云端环境下,它还能读取你上传的图片或截图,检查自己的进度,并把结果截图返回。

GPT-5-Codex 针对 Codex CLI、IDE 插件、云环境和 GitHub 进行了深度优化,同时也支持多种工具调用。不过 OpenAI 也指出:「与通用的 GPT-5 不同,我们建议只在 Codex 或类似场景下使用 GPT-5-Codex。」

Codex 更新

除了发布 GPT-5-Codex,OpenAI 今天还宣布了 Codex 的一些升级,包含全新设计的 Codex CLI 以及新的 Codex IDE 插件。

Codex CLI

Codex CLI 是开源的。过去几个月里,OpenAI 基于社区反馈重新设计了 CLI,让它更适合「自主编程」的工作流,使模型能成为更强大、更可靠的搭档。

现在用户可以在 CLI 中直接添加图片,例如截图、线框图和设计图。这样可以建立共享上下文,让设计决策更清晰,并更容易得到符合预期的结果。

在处理复杂任务时,Codex 会用待办清单(to-do list)跟踪进度,还支持 web 搜索 和 MCP 等外部系统连接工具,整体的工具调用更准确。

终端界面也升级了:工具调用和代码差异现在格式更清晰,更容易阅读。



批准模式(approval mode)简化为三种:

  • 只读:需要明确批准才能修改;
  • 自动:拥有完整工作区权限,但在工作区外仍需批准;
  • 完全访问:可以读取任意文件,并在有网络访问的情况下运行命令。

CLI 还支持压缩对话状态,方便管理更长的会话。

Codex IDE 插件

Codex 也能在 IDE 中直接使用。这个插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 带进编辑器,让用户能无缝预览本地改动,并直接用 Codex 修改代码。



OpenAI 介绍了在 IDE 中使用 Codex 的几个优势:

  • 你可以写更简短的提示词,得到更快的结果,因为 Codex 会自动利用上下文,例如你打开的文件或选中的代码。
  • 你可以在云端和本地环境之间流畅切换。比如,在编辑器里直接创建云端任务、跟踪进行中的工作或审查已完成的任务。
  • 如需要调整,你可以在 IDE 中直接打开云端任务,Codex 会保留上下文。

云端的 Codex

除了 CLI 和 IDE 插件,新的 GitHub 集成也让 Codex 的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或 GitHub,就能把任务交给 Codex。



OpenAI 表示,他们也一直在幕后不断提升云端性能,包括:

  • 通过缓存容器(caching containers),新任务和跟进任务的完成时间缩短了 90%。
  • Codex 会自动检测常见的初始化脚本并执行,帮你完成环境配置。
  • 在配置了网络权限后,它还能在运行时执行 pip install 等命令,安装所需依赖。

和 CLI、IDE 一样,云端 Codex 也支持使用图片。你可以上传前端设计规范或 UI bug 截图。Codex 会在浏览器里运行自己生成的内容,检查效果,并把截图附在任务或 GitHub PR 中。

代码审查

Codex 现在也支持代码审查功能,可以发现关键缺陷。和静态分析工具不同,Codex 会:

  • 对比 PR 的目标和实际改动,
  • 分析整个代码库和依赖关系,
  • 运行代码和测试来验证行为。

这种审查力度,通常只有最仔细的人类工程师才能做到。Codex 正好补上这一缺口,帮助团队更早发现问题,减轻审查负担,让上线更放心。



在 GitHub 上启用后:

  • 当 PR 从草稿变为可审查状态时,Codex 会自动给出分析。
  • 如果它建议修改,你可以直接在同一讨论线程里让它实现。
  • 你也可以手动请求审查,比如在 PR 里输入 「@codex review」,甚至给额外指令,如 「@codex review for security vulnerabilities」(检查安全漏洞)或 「@codex review for outdated dependencies」(检查过时依赖)。

OpenAI 表示:「在 OpenAI 内部,Codex 已经审查了我们绝大多数 PR,每天能发现数百个问题,很多在人工审查开始之前就已经被拦下。这让团队能更快推进,同时保持信心。」

OpenAI 如何让 Codex 更安全?

OpenAI 还介绍了在开发 Codex 时对代码与数据安全的保护措施,他们也部署了一些防范潜在滥用的手段。

  • 默认沙箱环境:无论本地还是云端,Codex 默认运行在沙箱环境中,且关闭网络访问。这可以避免它在你的电脑上执行有害操作,也能减少来自不可信来源的提示词注入风险。
  • 权限机制:在执行可能危险的操作前,Codex 会请求许可。它也经过训练,会运行命令来验证自己的输出。
  • 可配置的安全设置:开发者可以根据风险承受度调整设置。在云端,可以限制网络访问只允许可信域名;在 CLI 和 IDE 插件中,开发者可以决定是否批准 Codex 运行命令,或允许它使用网页搜索、连接 MCP 服务器。这样能扩展能力,但也会增加风险。

OpenAI 也给出了建议:「我们始终建议开发者在上线前先检查 Codex 的工作结果。Codex 会在每个任务中提供引用、终端日志和测试结果,方便人工验证。」但 OpenAI 也强调:Codex 应作为附加审查者,而不是完全取代人工审查。

和 GPT-5 一样,OpenAI 依然将 GPT-5-Codex 在生物与化学领域的任务归类为 High 能力,并采取了相应的安全措施,以尽量减少潜在风险。

价格与可用性

Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。

  • Plus、Edu、Business 用户:每周可覆盖几次集中的编程会话。
  • Pro 用户:支持一整周、多个项目的完整工作量。
  • Business 计划:可以额外购买积分,突破默认上限。
  • Enterprise 计划:提供共享积分池,按实际使用付费。

目前用户还无法通过 API Key 使用 Codex CLI,但 OpenAI 也表示很快(soon)将通过 API 开放 GPT-5-Codex。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
每天一个水煮蛋是“死亡催化剂”?提醒:想健康吃蛋,5个错别犯

每天一个水煮蛋是“死亡催化剂”?提醒:想健康吃蛋,5个错别犯

健康科普365
2026-01-11 20:30:03
每体:维尼修斯向裁判抱怨,表示“亚马尔总是一接触就倒地”

每体:维尼修斯向裁判抱怨,表示“亚马尔总是一接触就倒地”

懂球帝
2026-01-12 16:21:38
塞班岛赌王纪晓波覆灭:吴佩慈6年给他生四个孩子,五胎奖励50亿

塞班岛赌王纪晓波覆灭:吴佩慈6年给他生四个孩子,五胎奖励50亿

易玄
2024-11-19 17:53:39
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

阿器谈史
2025-12-26 15:26:05
善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

单手搓核弹
2026-01-06 14:04:34
78年,我和弟弟去大伯家借10斤大米,回家后母亲敞开米袋子哭了

78年,我和弟弟去大伯家借10斤大米,回家后母亲敞开米袋子哭了

小月文史
2024-08-30 15:32:41
演技太装太尬!央视《小城大事》遭恶评?这“戏混子”有很大责任

演技太装太尬!央视《小城大事》遭恶评?这“戏混子”有很大责任

翰飞观事
2026-01-11 19:15:22
1950年湖北土改踢到铁板,地主拍桌子吼道:去北京打听打听我是谁!李先念无奈拨通一个电话,对面只回了一句话,彻底安静了

1950年湖北土改踢到铁板,地主拍桌子吼道:去北京打听打听我是谁!李先念无奈拨通一个电话,对面只回了一句话,彻底安静了

源溯历史
2026-01-05 16:24:20
美媒警告,中美很快就会开战,但中国导弹能击碎美军任何防御系统

美媒警告,中美很快就会开战,但中国导弹能击碎美军任何防御系统

触摸史迹
2026-01-09 18:12:32
内塔尼亚胡:一旦德黑兰政权倒台,以色列和伊朗将再次成为伙伴

内塔尼亚胡:一旦德黑兰政权倒台,以色列和伊朗将再次成为伙伴

桂系007
2026-01-11 23:39:56
贤妻良母,面相真好,谁取到谁幸福一辈子

贤妻良母,面相真好,谁取到谁幸福一辈子

东方不败然多多
2026-01-12 05:31:21
皇马将与赞助商续约:3大金主 每年贡献3亿!高居世界第1

皇马将与赞助商续约:3大金主 每年贡献3亿!高居世界第1

叶青足球世界
2026-01-11 16:33:40
京牌获取全攻略:详解北京车牌获取出租方法和最新流程

京牌获取全攻略:详解北京车牌获取出租方法和最新流程

欧聚聚科技互联
2026-01-12 11:51:37
北京输球揪出最大毒瘤!他上场17分钟,投篮5中0,下滑太严重了

北京输球揪出最大毒瘤!他上场17分钟,投篮5中0,下滑太严重了

篮球专区
2026-01-11 21:59:43
输球又输人!皇马决赛最惨之人:阿隆索亲手将他打入冷宫

输球又输人!皇马决赛最惨之人:阿隆索亲手将他打入冷宫

澜归序
2026-01-12 05:35:15
陈幸同王曼昱已离开多哈,林高远北京转机,黄友政、薛飞抵达多哈

陈幸同王曼昱已离开多哈,林高远北京转机,黄友政、薛飞抵达多哈

阿错田间生活
2026-01-12 13:31:31
广州小学生被抽血事件:告诉爸妈就扣小红花

广州小学生被抽血事件:告诉爸妈就扣小红花

每日一见
2026-01-02 12:21:28
没出阁的姑娘闯祸了!合川一女孩家里杀猪,她请来了3000多人按猪

没出阁的姑娘闯祸了!合川一女孩家里杀猪,她请来了3000多人按猪

火山诗话
2026-01-11 18:13:33
男性长期禁欲,性能力会更加强?医生提醒:可能要付出这几个代价

男性长期禁欲,性能力会更加强?医生提醒:可能要付出这几个代价

医者荣耀
2025-12-17 12:05:09
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
2026-01-12 17:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12100文章数 142535关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

女子不会杀猪上千网友去帮忙 村干部:宰5头猪吃流水席

头条要闻

女子不会杀猪上千网友去帮忙 村干部:宰5头猪吃流水席

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

闫学晶:脱离群众太久 忘了自己的根

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

亲子
教育
时尚
本地
数码

亲子要闻

姐妹在纠结月子里怎么洗漱,来听听金牌月嫂的建议

教育要闻

新浪招实习生啦!100-150/天!免费班车、节日福利!

伊姐周日热推:电视剧《御赐小仵作2》;电视剧《偶像疯子》......

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

数码要闻

EPOMAKER预览RT98键盘:小键盘模块支持右置或左置

无障碍浏览 进入关怀版