网易首页 > 网易号 > 正文 申请入驻

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

0
分享至

▲头图由AI生成

智东西
编译 程茜
编辑 李水青

智东西9月16日消息,今日凌晨,OpenAI发布新模型GPT-5-Codex,这是其在GPT-5基础上专门为软件工程优化的模型版本,进一步提升了Codex中的智能体编程(Agentic Coding)能力。

OpenAI在博客中提到,GPT-5-Codex的训练侧重于实际的软件工程工作,其可以根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过7个小时

同时在基准测试中,相比于GPT-5,GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已达到Codex总流量的40%左右,今天就能占到超一半流量比例。

在开发者使用Codex的所有场景中,GPT-5-Codex均可用,它是云端任务和代码审查的默认工具,开发者也可通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择将其用于本地任务。

OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版,两周前其将Codex整合为一个通过ChatGPT帐户连接的单一产品体验,使得开发者可以在本地环境和云端之间无缝迁移工作,而不会丢失上下文。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中Plus、教育和Business套餐每周可支持几次重点编码课程,Pro套餐可支持一周内多个项目的使用。对于通过API密钥使用Codex CLI的开发人员,OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区,开发者称OpenAI这一新发布对于处理复杂项目非常有前景,还有开发者对自己的AI工具订阅预算担忧。

一、根据任务动态调整思考时间,错误评论减少、高影响力评论增加

GPT-5-Codex针对复杂的实际工程任务进行了训练,例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。其可以更好遵循AGENTS.md的指令,并生成高质量的代码,开发者只需提出自己的需求,无需编写冗长的代码风格或代码整洁性说明。

此外GPT‑5-Codex会根据任务的复杂程度,动态调整思考时间,其执行任务的时间会从几秒到7个小时不等。该模型结合了编程智能体的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着Codex在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。

从历史数据来看,包括GPT-5发布之时,OpenAI仅公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果,这是因为当时部分任务无法在其基础设施环境中运行。如今,OpenAI已修复了这一问题,目前可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%,GPT-5为72.8%。

OpenAI基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力,涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%,GPT-5为33.9%

在测试中,研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现、修复测试错误并最终交付成功。

基于OpenAI内部员工的使用情况,研究人员发现当按模型生成的token数对用户交互轮次进行排序时,其中生成token数最少的排名最后10%情况中,GPT-5-Codex使用的token比GPT-5少93.7%。

排名前10%的情况正好相反,GPT-5-Codex会进行更多思考,在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍。

GPT-5-Codex还可用于执行代码审查并查找关键缺陷。审查时,它会浏览开发者的代码库,推理依赖关系,并运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能,经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。

GPT-5的错误评论有约13.7%,GPT-5-Codex仅为4.4%,高影响力评论占比中GPT-5有39.4%,GPT-5-Codex有52.4%,每个拉取请求的平均评论数中,GPT-5平均有1.32条,GPT-5-Codex有0.9条。

他们发现,GPT-5-Codex的意见不太可能出现错误或不重要的情况

据TechCrunch报道,OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称,GPT-5-Codex性能提升很大程度上得益于其动态思考能力。用户可能熟悉ChatGPT中GPT-5的实时路由器(Real-timerouter),它会根据任务的复杂性将查询定向到不同的模型,GPT-5-Codex的工作原理类似,但没有内置路由器,可以实时调整任务的处理时长。与路由器相比,这是一个优势,因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题,而GPT-5-Codex可以在问题开始五分钟后就决定需要再花一个小时

OpenAI的官方博客也提到,与通用模型GPT-5不同,他们建议开发者仅在Codex或类似Codex环境中执行智能体编程任务时使用GPT-5-Codex。

二、三大核心改进,智能体编程工作流更自动化

此外,OpenAI最近还进行了一些更新,包括改进的Codex CLI和新的Codex IDE扩展。

首先是针对Codex CLI。

基于开源社区对Codex CLI的反馈,OpenAI围绕智能体编程工作流重建了Codex CLI。现在,开发者可以直接在CLI中附加和共享图像,包括屏幕截图、线框图和图表等,从而构建基于设计决策的共享上下文,并准确获取所需内容。

在处理更复杂的工作时,Codex现在可以使用待办事项列表跟踪进度,并包含网页搜索和MCP等用于连接外部系统的工具,从而整体上提高工具使用准确性。

终端用户界面的升级包括工具调用和差异显示格式更佳、更易于理解。

审批模式简化为三个级别:只读(需明确审批)、自动(需完全访问工作区但需在工作区外审批)以及完全访问(可在任意位置读取文件并通过网络访问运行命令)。其还支持压缩对话状态,方便开发者管理较长的会话。

其次是Codex IDE扩展。

这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器,允许其与Codex共同预览本地代码变更、协同编辑代码。

当开发者在IDE中使用Codex时,只需输入更简短的指令就能获得结果,这是因为Codex可利用上下文信息,例如开发者已打开的文件或选中的代码片段。

Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流,开发者无需离开编辑器,就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。

若需对代码进行收尾调整,其还可以在IDE中直接打开云端任务,且Codex会完整保留相关上下文信息。

此外,OpenAI还一直在提升云基础设施的性能,通过缓存容器,其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境;借助可配置的互联网访问权限,在运行时根据需要执行像pip install这样的命令来获取依赖项。

与CLI和IDE扩展中一样,开发者现在可以通过上传图像的方式,向Codex共享前端设计规范,如界面原型图、视觉稿,或上传界面错位、样式异常的截图说明UI漏洞。

Codex构建前端内容时,可以自行启动浏览器查看已构建的效果并进行迭代优化,最终会将结果截图附加到对应任务以及GitHub拉取请求中。

在代码审查中,Codex可以被用于发现关键缺陷。

与静态分析工具不同,它可以将拉取请求中声明的开发意图与实际差异进行匹配,结合整个代码库及依赖项展开推理分析,并通过执行代码与测试用例来验证实际运行行为。

一旦开发者在某个GitHub库启用了Codex,当拉取请求从草稿状态转为就绪状态时,Codex就会自动对其进行审查,并将分析结果发布在该拉取请求上。

如果Codex建议进行修改,开发者可以在同一个对话线程中让Codex直接实施这些修改。

开发者也可以在拉取请求中明确提及@codex review来请求审查,例如@codex review for security vulnerabilities(让Codex审查安全漏洞)或@codex review for outdated dependencies(让Codex审查过时的依赖项)。

Codex目前已在OpenAI内部,被用于审查其绝大多数的拉取请求,每天能发现数百个问题,而且往往是在人工审查开始之前就已发现。

结语:AI编程工具竞争白热化

当下,AI编程工具的竞争已经变得愈发激烈,既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀,还有Cursor年度经常性收入(ARR)在2025年初就超过5亿美元,更有AI代码编辑器Windsurf遭遇一场混乱收购,导致其团队被谷歌和Cognition两家公司瓜分。

OpenAI Codex此次升级,发布专门为智能体编程优化的全新模型,使得其自动化编程以及与用户协作的能力都大幅提升,证明了AI编程工具竞赛的激烈程度持续升温。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
光明网评论员:电车该如何参与道路养护

光明网评论员:电车该如何参与道路养护

澎湃新闻
2026-06-02 23:08:03
耿同学,开始被一些大V泼脏水……

耿同学,开始被一些大V泼脏水……

麦杰逊
2026-06-01 13:06:30
大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

大罗盛赞C罗:他改变了葡萄牙足球地位,20年巅峰堪称非凡

星耀国际足坛
2026-06-02 23:01:38
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
广西一18岁女孩半夜进入公园后失联,警方通报:女孩遗体已被找到

广西一18岁女孩半夜进入公园后失联,警方通报:女孩遗体已被找到

扬子晚报
2026-06-02 18:57:23
一场演唱会,戳穿谢霆锋在娱乐圈真实地位,王菲的话,有人信了

一场演唱会,戳穿谢霆锋在娱乐圈真实地位,王菲的话,有人信了

冷紫葉
2026-06-01 20:10:43
微纪录片|在西海固写作

微纪录片|在西海固写作

新华社
2026-06-02 15:37:15
全程窒息!国羽两大王牌集体渡劫,两局21-19惊魂绝杀险遭爆冷

全程窒息!国羽两大王牌集体渡劫,两局21-19惊魂绝杀险遭爆冷

宝哥精彩赛事
2026-06-03 00:53:10
雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰狼狈抱头鼠窜

雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰狼狈抱头鼠窜

离离言几许
2026-06-02 18:02:11
史上首次!中国海警霸气踏入台湾岛东海域,信号前所未有硬核

史上首次!中国海警霸气踏入台湾岛东海域,信号前所未有硬核

面包夹知识
2026-06-02 21:09:35
名嘴建议交易切特!名记分析雷霆选秀:2.2米高塔比布泽尔更合理

名嘴建议交易切特!名记分析雷霆选秀:2.2米高塔比布泽尔更合理

你的篮球频道
2026-06-02 12:49:45
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
他是“戏二代”,父亲是秦腔须生名家,如今出演《主角》火了

他是“戏二代”,父亲是秦腔须生名家,如今出演《主角》火了

以茶带书
2026-06-02 14:21:59
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

细说职场
2026-05-14 21:37:29
火箭试训7尺锋线!NCAA征战四年预测顺位41 空间属性或挤掉卡佩拉

火箭试训7尺锋线!NCAA征战四年预测顺位41 空间属性或挤掉卡佩拉

颜小白的篮球梦
2026-06-03 08:52:43
HWG!曼联火速签约26岁新中场,4500万的巴西人技巧细腻能边能中

HWG!曼联火速签约26岁新中场,4500万的巴西人技巧细腻能边能中

里芃芃体育
2026-06-03 07:31:20
一生拼命的中国80后:再不玩,就老了

一生拼命的中国80后:再不玩,就老了

视觉志
2026-06-02 14:18:48
杨溢将告别广东队

杨溢将告别广东队

体育哲人
2026-06-02 16:31:00
稻城亚丁景区弯道占比超八成,游客建议“接驳车合理收费”……记者实探→

稻城亚丁景区弯道占比超八成,游客建议“接驳车合理收费”……记者实探→

环球网资讯
2026-06-02 21:36:26
王晓晨俞灏明被拍到一同现身心理医院,王晓晨皱眉抽烟心情糟糕

王晓晨俞灏明被拍到一同现身心理医院,王晓晨皱眉抽烟心情糟糕

露珠聊影视
2026-06-02 15:44:08
2026-06-03 09:44:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11960文章数 117090关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
房产
本地
教育
公开课

新战神商店页上线!奎爷亡妻打复活赛?大量截图公开

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

本地新闻

用剪纸的方式,打开江苏扬州

教育要闻

小学几何题,难倒了不少的家长和学生,换个思路试试

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版