网易首页 > 网易号 > 正文 申请入驻

连续干7小时“不累”!OpenAI最强编程模型GPT-5-Codex来了

0
分享至


▲头图由AI生成

智东西
编译 程茜
编辑 李水青

智东西9月16日消息,今日凌晨,OpenAI发布新模型GPT-5-Codex,这是其在GPT-5基础上专门为软件工程优化的模型版本,进一步提升了Codex中的智能体编程(Agentic Coding)能力。

OpenAI在博客中提到,GPT-5-Codex的训练侧重于实际的软件工程工作,其可以根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过7个小时

同时在基准测试中,相比于GPT-5,GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已达到Codex总流量的40%左右,今天就能占到超一半流量比例。


在开发者使用Codex的所有场景中,GPT-5-Codex均可用,它是云端任务和代码审查的默认工具,开发者也可通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择将其用于本地任务。

OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版,两周前其将Codex整合为一个通过ChatGPT帐户连接的单一产品体验,使得开发者可以在本地环境和云端之间无缝迁移工作,而不会丢失上下文。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中Plus、教育和Business套餐每周可支持几次重点编码课程,Pro套餐可支持一周内多个项目的使用。对于通过API密钥使用Codex CLI的开发人员,OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区,开发者称OpenAI这一新发布对于处理复杂项目非常有前景,还有开发者对自己的AI工具订阅预算担忧。


一、根据任务动态调整思考时间,错误评论减少、高影响力评论增加

GPT-5-Codex针对复杂的实际工程任务进行了训练,例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。其可以更好遵循AGENTS.md的指令,并生成高质量的代码,开发者只需提出自己的需求,无需编写冗长的代码风格或代码整洁性说明。

此外GPT‑5-Codex会根据任务的复杂程度,动态调整思考时间,其执行任务的时间会从几秒到7个小时不等。该模型结合了编程智能体的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着Codex在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。

从历史数据来看,包括GPT-5发布之时,OpenAI仅公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果,这是因为当时部分任务无法在其基础设施环境中运行。如今,OpenAI已修复了这一问题,目前可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%,GPT-5为72.8%。

OpenAI基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力,涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%,GPT-5为33.9%


在测试中,研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现、修复测试错误并最终交付成功。

基于OpenAI内部员工的使用情况,研究人员发现当按模型生成的token数对用户交互轮次进行排序时,其中生成token数最少的排名最后10%情况中,GPT-5-Codex使用的token比GPT-5少93.7%。

排名前10%的情况正好相反,GPT-5-Codex会进行更多思考,在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍。


GPT-5-Codex还可用于执行代码审查并查找关键缺陷。审查时,它会浏览开发者的代码库,推理依赖关系,并运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能,经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。

GPT-5的错误评论有约13.7%,GPT-5-Codex仅为4.4%,高影响力评论占比中GPT-5有39.4%,GPT-5-Codex有52.4%,每个拉取请求的平均评论数中,GPT-5平均有1.32条,GPT-5-Codex有0.9条。

他们发现,GPT-5-Codex的意见不太可能出现错误或不重要的情况


据TechCrunch报道,OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称,GPT-5-Codex性能提升很大程度上得益于其动态思考能力。用户可能熟悉ChatGPT中GPT-5的实时路由器(Real-timerouter),它会根据任务的复杂性将查询定向到不同的模型,GPT-5-Codex的工作原理类似,但没有内置路由器,可以实时调整任务的处理时长。与路由器相比,这是一个优势,因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题,而GPT-5-Codex可以在问题开始五分钟后就决定需要再花一个小时

OpenAI的官方博客也提到,与通用模型GPT-5不同,他们建议开发者仅在Codex或类似Codex环境中执行智能体编程任务时使用GPT-5-Codex。

二、三大核心改进,智能体编程工作流更自动化

此外,OpenAI最近还进行了一些更新,包括改进的Codex CLI和新的Codex IDE扩展。

首先是针对Codex CLI。

基于开源社区对Codex CLI的反馈,OpenAI围绕智能体编程工作流重建了Codex CLI。现在,开发者可以直接在CLI中附加和共享图像,包括屏幕截图、线框图和图表等,从而构建基于设计决策的共享上下文,并准确获取所需内容。

在处理更复杂的工作时,Codex现在可以使用待办事项列表跟踪进度,并包含网页搜索和MCP等用于连接外部系统的工具,从而整体上提高工具使用准确性。

终端用户界面的升级包括工具调用和差异显示格式更佳、更易于理解。

审批模式简化为三个级别:只读(需明确审批)、自动(需完全访问工作区但需在工作区外审批)以及完全访问(可在任意位置读取文件并通过网络访问运行命令)。其还支持压缩对话状态,方便开发者管理较长的会话。


其次是Codex IDE扩展。

这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器,允许其与Codex共同预览本地代码变更、协同编辑代码。

当开发者在IDE中使用Codex时,只需输入更简短的指令就能获得结果,这是因为Codex可利用上下文信息,例如开发者已打开的文件或选中的代码片段。

Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流,开发者无需离开编辑器,就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。

若需对代码进行收尾调整,其还可以在IDE中直接打开云端任务,且Codex会完整保留相关上下文信息。


此外,OpenAI还一直在提升云基础设施的性能,通过缓存容器,其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境;借助可配置的互联网访问权限,在运行时根据需要执行像pip install这样的命令来获取依赖项。

与CLI和IDE扩展中一样,开发者现在可以通过上传图像的方式,向Codex共享前端设计规范,如界面原型图、视觉稿,或上传界面错位、样式异常的截图说明UI漏洞。

Codex构建前端内容时,可以自行启动浏览器查看已构建的效果并进行迭代优化,最终会将结果截图附加到对应任务以及GitHub拉取请求中。


在代码审查中,Codex可以被用于发现关键缺陷。

与静态分析工具不同,它可以将拉取请求中声明的开发意图与实际差异进行匹配,结合整个代码库及依赖项展开推理分析,并通过执行代码与测试用例来验证实际运行行为。

一旦开发者在某个GitHub库启用了Codex,当拉取请求从草稿状态转为就绪状态时,Codex就会自动对其进行审查,并将分析结果发布在该拉取请求上。

如果Codex建议进行修改,开发者可以在同一个对话线程中让Codex直接实施这些修改。

开发者也可以在拉取请求中明确提及@codex review来请求审查,例如@codex review for security vulnerabilities(让Codex审查安全漏洞)或@codex review for outdated dependencies(让Codex审查过时的依赖项)。


Codex目前已在OpenAI内部,被用于审查其绝大多数的拉取请求,每天能发现数百个问题,而且往往是在人工审查开始之前就已发现。

结语:AI编程工具竞争白热化

当下,AI编程工具的竞争已经变得愈发激烈,既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀,还有Cursor年度经常性收入(ARR)在2025年初就超过5亿美元,更有AI代码编辑器Windsurf遭遇一场混乱收购,导致其团队被谷歌和Cognition两家公司瓜分。

OpenAI Codex此次升级,发布专门为智能体编程优化的全新模型,使得其自动化编程以及与用户协作的能力都大幅提升,证明了AI编程工具竞赛的激烈程度持续升温。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4.56亿元!上海建国西路独栋办公洋房法拍成交,单价15.2万元/平米

4.56亿元!上海建国西路独栋办公洋房法拍成交,单价15.2万元/平米

澎湃新闻
2026-01-13 17:34:46
中国驻菲律宾使馆副发言人对菲国家海事委员会相关声明所作回应

中国驻菲律宾使馆副发言人对菲国家海事委员会相关声明所作回应

界面新闻
2026-01-13 11:10:49
央视车被堵外面,人民日报下场,白衬衫守护,呆呆成为历史第一人

央视车被堵外面,人民日报下场,白衬衫守护,呆呆成为历史第一人

李健政观察
2026-01-13 09:41:59
钟薛高创始人称终审胜诉:“爱买不买”系恶意剪辑,对方被判赔230万元

钟薛高创始人称终审胜诉:“爱买不买”系恶意剪辑,对方被判赔230万元

界面新闻
2026-01-13 15:19:40
国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

国产车企警惕!特斯拉FSD即将入华,技术代差恐进一步拉大

燕梳楼频道
2026-01-12 21:14:25
起风了!郑丽文重用张亚中,参与罢免赖清德,侯友宜发表内奸言论

起风了!郑丽文重用张亚中,参与罢免赖清德,侯友宜发表内奸言论

时时有聊
2026-01-12 21:40:49
悲催!珠海一33年工厂破产,几百人饭碗没了,涉及司法案件363条

悲催!珠海一33年工厂破产,几百人饭碗没了,涉及司法案件363条

火山诗话
2026-01-13 13:15:14
满手都是商业航天,赢麻了!刚刚,陈小群捐款1000万

满手都是商业航天,赢麻了!刚刚,陈小群捐款1000万

金石随笔
2026-01-13 00:15:25
降温超15℃+中到大雪,即将抵达安徽!

降温超15℃+中到大雪,即将抵达安徽!

鲁中晨报
2026-01-13 16:33:02
大连8米高梦露雕像悄然被撤,商场人员:我也是今天上班才知道,集团有新的规划

大连8米高梦露雕像悄然被撤,商场人员:我也是今天上班才知道,集团有新的规划

极目新闻
2026-01-12 13:00:56
新能源汽车在高速上断电自动上锁,一家5口被困车内报警求助,民警:有机械门把手,司机不知如何操作,车内人员已脱困

新能源汽车在高速上断电自动上锁,一家5口被困车内报警求助,民警:有机械门把手,司机不知如何操作,车内人员已脱困

扬子晚报
2026-01-12 23:14:43
比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

潇湘晨报
2026-01-13 10:04:40
陈志被捕后,太子集团旗下大型房地产项目被禁止销售:付全款购房者可申请产权转移

陈志被捕后,太子集团旗下大型房地产项目被禁止销售:付全款购房者可申请产权转移

红星新闻
2026-01-13 13:34:29
卖掉21吨银条,狂赚2.47亿!广州一物管公司靠炒白银火了,股民直呼:老板娘牛!

卖掉21吨银条,狂赚2.47亿!广州一物管公司靠炒白银火了,股民直呼:老板娘牛!

时代财经
2026-01-13 00:10:30
24.7℃!破纪录!三九天成三月天?湖北将有大范围雨雪,阵风9级

24.7℃!破纪录!三九天成三月天?湖北将有大范围雨雪,阵风9级

极目新闻
2026-01-13 17:54:30
“摇人按猪”女孩呆呆最新回应:今日家里不再举办刨猪宴;当地文旅:考虑把1月11日设立为合川“杀猪节”

“摇人按猪”女孩呆呆最新回应:今日家里不再举办刨猪宴;当地文旅:考虑把1月11日设立为合川“杀猪节”

大风新闻
2026-01-13 12:03:03
台媒:台立法机构确认“赖清德弹劾案”议程

台媒:台立法机构确认“赖清德弹劾案”议程

环球网资讯
2026-01-13 17:23:11
合川杀猪宴后续:呆呆收入曝光,红衣女搅局遭反噬,央媒亲自下场

合川杀猪宴后续:呆呆收入曝光,红衣女搅局遭反噬,央媒亲自下场

史行途
2026-01-13 11:54:59
生产厂被曝存在卫生隐患等问题,金粒门致歉并公布赔付方案

生产厂被曝存在卫生隐患等问题,金粒门致歉并公布赔付方案

界面新闻
2026-01-13 17:57:50
长春居民因客厅放床被停燃气20天

长春居民因客厅放床被停燃气20天

极目新闻
2026-01-13 09:51:51
2026-01-13 18:32:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11063文章数 116941关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

美媒:特朗普政府对伊朗军事行动选项"远超传统空袭"

头条要闻

美媒:特朗普政府对伊朗军事行动选项"远超传统空袭"

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

手机
健康
亲子
家居
公开课

手机要闻

海信推出27英寸大白闺蜜机X7 Pro,售价5798元

血常规3项异常,是身体警报!

亲子要闻

复旦儿科医联体体重管理联盟来了!将重点加强儿童超重肥胖危险因素的监测与评估

家居要闻

现代简逸 寻找生活的光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版