网易首页 > 网易号 > 正文 申请入驻

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

0
分享至


▲头图由AI生成

智东西
编译 程茜
编辑 李水青

智东西9月16日消息,今日凌晨,OpenAI发布新模型GPT-5-Codex,这是其在GPT-5基础上专门为软件工程优化的模型版本,进一步提升了Codex中的智能体编程(Agentic Coding)能力。

OpenAI在博客中提到,GPT-5-Codex的训练侧重于实际的软件工程工作,其可以根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过7个小时

同时在基准测试中,相比于GPT-5,GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已达到Codex总流量的40%左右,今天就能占到超一半流量比例。


在开发者使用Codex的所有场景中,GPT-5-Codex均可用,它是云端任务和代码审查的默认工具,开发者也可通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择将其用于本地任务。

OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版,两周前其将Codex整合为一个通过ChatGPT帐户连接的单一产品体验,使得开发者可以在本地环境和云端之间无缝迁移工作,而不会丢失上下文。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中Plus、教育和Business套餐每周可支持几次重点编码课程,Pro套餐可支持一周内多个项目的使用。对于通过API密钥使用Codex CLI的开发人员,OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区,开发者称OpenAI这一新发布对于处理复杂项目非常有前景,还有开发者对自己的AI工具订阅预算担忧。


一、根据任务动态调整思考时间,错误评论减少、高影响力评论增加

GPT-5-Codex针对复杂的实际工程任务进行了训练,例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。其可以更好遵循AGENTS.md的指令,并生成高质量的代码,开发者只需提出自己的需求,无需编写冗长的代码风格或代码整洁性说明。

此外GPT‑5-Codex会根据任务的复杂程度,动态调整思考时间,其执行任务的时间会从几秒到7个小时不等。该模型结合了编程智能体的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着Codex在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。

从历史数据来看,包括GPT-5发布之时,OpenAI仅公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果,这是因为当时部分任务无法在其基础设施环境中运行。如今,OpenAI已修复了这一问题,目前可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%,GPT-5为72.8%。

OpenAI基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力,涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%,GPT-5为33.9%


在测试中,研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现、修复测试错误并最终交付成功。

基于OpenAI内部员工的使用情况,研究人员发现当按模型生成的token数对用户交互轮次进行排序时,其中生成token数最少的排名最后10%情况中,GPT-5-Codex使用的token比GPT-5少93.7%。

排名前10%的情况正好相反,GPT-5-Codex会进行更多思考,在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍。


GPT-5-Codex还可用于执行代码审查并查找关键缺陷。审查时,它会浏览开发者的代码库,推理依赖关系,并运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能,经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。

GPT-5的错误评论有约13.7%,GPT-5-Codex仅为4.4%,高影响力评论占比中GPT-5有39.4%,GPT-5-Codex有52.4%,每个拉取请求的平均评论数中,GPT-5平均有1.32条,GPT-5-Codex有0.9条。

他们发现,GPT-5-Codex的意见不太可能出现错误或不重要的情况


据TechCrunch报道,OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称,GPT-5-Codex性能提升很大程度上得益于其动态思考能力。用户可能熟悉ChatGPT中GPT-5的实时路由器(Real-timerouter),它会根据任务的复杂性将查询定向到不同的模型,GPT-5-Codex的工作原理类似,但没有内置路由器,可以实时调整任务的处理时长。与路由器相比,这是一个优势,因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题,而GPT-5-Codex可以在问题开始五分钟后就决定需要再花一个小时

OpenAI的官方博客也提到,与通用模型GPT-5不同,他们建议开发者仅在Codex或类似Codex环境中执行智能体编程任务时使用GPT-5-Codex。

二、三大核心改进,智能体编程工作流更自动化

此外,OpenAI最近还进行了一些更新,包括改进的Codex CLI和新的Codex IDE扩展。

首先是针对Codex CLI。

基于开源社区对Codex CLI的反馈,OpenAI围绕智能体编程工作流重建了Codex CLI。现在,开发者可以直接在CLI中附加和共享图像,包括屏幕截图、线框图和图表等,从而构建基于设计决策的共享上下文,并准确获取所需内容。

在处理更复杂的工作时,Codex现在可以使用待办事项列表跟踪进度,并包含网页搜索和MCP等用于连接外部系统的工具,从而整体上提高工具使用准确性。

终端用户界面的升级包括工具调用和差异显示格式更佳、更易于理解。

审批模式简化为三个级别:只读(需明确审批)、自动(需完全访问工作区但需在工作区外审批)以及完全访问(可在任意位置读取文件并通过网络访问运行命令)。其还支持压缩对话状态,方便开发者管理较长的会话。


其次是Codex IDE扩展。

这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器,允许其与Codex共同预览本地代码变更、协同编辑代码。

当开发者在IDE中使用Codex时,只需输入更简短的指令就能获得结果,这是因为Codex可利用上下文信息,例如开发者已打开的文件或选中的代码片段。

Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流,开发者无需离开编辑器,就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。

若需对代码进行收尾调整,其还可以在IDE中直接打开云端任务,且Codex会完整保留相关上下文信息。


此外,OpenAI还一直在提升云基础设施的性能,通过缓存容器,其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境;借助可配置的互联网访问权限,在运行时根据需要执行像pip install这样的命令来获取依赖项。

与CLI和IDE扩展中一样,开发者现在可以通过上传图像的方式,向Codex共享前端设计规范,如界面原型图、视觉稿,或上传界面错位、样式异常的截图说明UI漏洞。

Codex构建前端内容时,可以自行启动浏览器查看已构建的效果并进行迭代优化,最终会将结果截图附加到对应任务以及GitHub拉取请求中。


在代码审查中,Codex可以被用于发现关键缺陷。

与静态分析工具不同,它可以将拉取请求中声明的开发意图与实际差异进行匹配,结合整个代码库及依赖项展开推理分析,并通过执行代码与测试用例来验证实际运行行为。

一旦开发者在某个GitHub库启用了Codex,当拉取请求从草稿状态转为就绪状态时,Codex就会自动对其进行审查,并将分析结果发布在该拉取请求上。

如果Codex建议进行修改,开发者可以在同一个对话线程中让Codex直接实施这些修改。

开发者也可以在拉取请求中明确提及@codex review来请求审查,例如@codex review for security vulnerabilities(让Codex审查安全漏洞)或@codex review for outdated dependencies(让Codex审查过时的依赖项)。


Codex目前已在OpenAI内部,被用于审查其绝大多数的拉取请求,每天能发现数百个问题,而且往往是在人工审查开始之前就已发现。

结语:AI编程工具竞争白热化

当下,AI编程工具的竞争已经变得愈发激烈,既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀,还有Cursor年度经常性收入(ARR)在2025年初就超过5亿美元,更有AI代码编辑器Windsurf遭遇一场混乱收购,导致其团队被谷歌和Cognition两家公司瓜分。

OpenAI Codex此次升级,发布专门为智能体编程优化的全新模型,使得其自动化编程以及与用户协作的能力都大幅提升,证明了AI编程工具竞赛的激烈程度持续升温。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗最低求助被俄罗斯拒绝,哈梅内伊送往莫斯科黄金已无主

伊朗最低求助被俄罗斯拒绝,哈梅内伊送往莫斯科黄金已无主

移光幻影
2026-03-02 16:36:42
不再执教广东男篮?杜锋发声,正式任命,新职务曝光,朱芳雨祝福

不再执教广东男篮?杜锋发声,正式任命,新职务曝光,朱芳雨祝福

萌兰聊个球
2026-03-03 11:16:15
特朗普想在伊朗复制委内瑞拉模式,其顾问直言:几乎没有可能

特朗普想在伊朗复制委内瑞拉模式,其顾问直言:几乎没有可能

极目新闻
2026-03-03 10:49:39
阿斯:虽然C罗的私人飞机抵达马德里,但球员本人仍留在沙特

阿斯:虽然C罗的私人飞机抵达马德里,但球员本人仍留在沙特

懂球帝
2026-03-03 21:38:12
退出世界杯或遭重罚!曝伊朗退赛将损失1050万美元,取消下届资格

退出世界杯或遭重罚!曝伊朗退赛将损失1050万美元,取消下届资格

夏侯看英超
2026-03-04 01:35:44
华为Mate90进入倒计时,现在换机就是赌?这次代差可能比你想的大

华为Mate90进入倒计时,现在换机就是赌?这次代差可能比你想的大

小8说科技
2026-03-04 01:32:50
美以袭击伊朗,中东航运海运停滞;中国外贸人称伊朗客户订2000个扫码机价值26万美金,现在他生死未知,“生意可以等,生命安全最重要”

美以袭击伊朗,中东航运海运停滞;中国外贸人称伊朗客户订2000个扫码机价值26万美金,现在他生死未知,“生意可以等,生命安全最重要”

大象新闻
2026-03-03 13:47:03
王钊已履新浙江省领导!此前担任自然资源部党组成员,国家自然资源副总督察(专职)

王钊已履新浙江省领导!此前担任自然资源部党组成员,国家自然资源副总督察(专职)

海洋知圈
2026-03-03 20:58:12
“看到新家,整个人都懵了!”上海小伙动迁分房“不喜反忧”,相关部门回应→

“看到新家,整个人都懵了!”上海小伙动迁分房“不喜反忧”,相关部门回应→

新民晚报
2026-03-02 18:59:35
方言的消失是中华文明的悲哀

方言的消失是中华文明的悲哀

虔青
2026-03-02 07:24:07
伊朗吃肉的时候,对中国防得严严实实,生怕中国占一点便宜

伊朗吃肉的时候,对中国防得严严实实,生怕中国占一点便宜

百态人间
2026-02-24 15:37:37
一觉醒来,650名美军伤亡航母被炸,特朗普知道事情闹大口风突变

一觉醒来,650名美军伤亡航母被炸,特朗普知道事情闹大口风突变

归史
2026-03-04 00:30:42
美以袭击伊朗,赖清德连夜紧急发声,两岸或将统一迎来最好时机?

美以袭击伊朗,赖清德连夜紧急发声,两岸或将统一迎来最好时机?

浪子阿邴聊体育
2026-03-03 02:45:02
永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

流苏晚晴
2026-02-27 18:09:29
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
包工头退出舞台!住建委:取消劳务分包!全面实现自有工人施工。

包工头退出舞台!住建委:取消劳务分包!全面实现自有工人施工。

新浪财经
2026-03-03 08:58:10
新华社消息|伊朗伊斯兰革命卫队称将击毁试图通过霍尔木兹海峡的船只

新华社消息|伊朗伊斯兰革命卫队称将击毁试图通过霍尔木兹海峡的船只

新华社
2026-03-03 09:52:49
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
张志新的儿女今何在?背后的真相令人泪目

张志新的儿女今何在?背后的真相令人泪目

深度报
2026-03-01 23:48:59
美媒:卫星图像显示,疑似伊朗最大军舰之一“莫克兰”号在军港起火冒出浓烟

美媒:卫星图像显示,疑似伊朗最大军舰之一“莫克兰”号在军港起火冒出浓烟

环球网资讯
2026-03-03 11:25:54
2026-03-04 03:04:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11286文章数 116985关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

游戏
健康
房产
本地
公开课

猎魂世界:当前版本最亟需增强的队伍是?这支真可算是首当其冲!

转头就晕的耳石症,能开车上班吗?

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版