网易首页 > 网易号 > 正文 申请入驻

收手吧GPT-5-Codex,外面全是AI编程智能体!

0
分享至


新智元报道

编辑:定慧

【新智元导读】OpenAI重磅推出GPT-5-Codex,专为智能体编程设计,显著提升代码重构、审查和缺陷发现的表现。其动态资源分配机制让模型在低负载请求中更高效,在复杂任务中更深入。2025编程智能体大战全面升温,GPT-5-Codex能否突围?

刚刚,GPT-5「船新」版本上线!

这次OpenAI直接使用Codex品牌名称来作为新模型后缀,GPT-5-Codex!

新模型能力将更加擅长智能编码!

即使2025年只剩下三分之一,各家巨头在「编程智能体」的争夺依然是白热化啊!


OpenAI官博更是重新定义了「自动补全」,升级为「agent-complete

在OpenAI播客第六集中,总裁Greg与Codex负责人Thibault Sottiaux聊了很多关于GPT-5-Codex,以及到2030年软件开发可能会是「什么样子」


首先来速通一下此次重大更新。

此次发布的GPT-5-Codex属于GPT-5的一个特殊版本,它专为智能体编程(agentic coding)重新设计。

GPT-5-Codex将具备全面的「双模」特长

即时协作与开发者实时配合,快速回答问题、修复小bug。

独立执行能长时间自主推进复杂任务(如大规模重构、跨文件调试)。

简单说就是,GPT-5-Codex不仅快&而且更加可靠。

GPT-5-Codex的交互响应更灵敏,小任务几乎即时,大任务可持续执行数小时。

OpenAI内部测试可连续7小时完成大规模重构。

GPT-5-Codex三大性能全面提升

首先,在SWE-bench验证和代码重构任务上,GPT-5-Codex都超过了目前最先进的GPT-5-high。

尤其是在非常适合于真实世界任务的代码重构任务上,GPT-5-Codex的准确率达到了51.3%,远高于GPT-5-high的33.9%。


其次,GPT-5-Codex此次更新的关键特性就是「动态调整」资源!

根据OpenAI内部员工的使用数据,在按模型生成token量(含隐藏推理和最终输出)排序的后10%用户请求中,GPT‑5-Codex的token消耗量比GPT‑5减少93.7%,红色箭头处。

相反,在前10%的高复杂度请求中,GPT‑5-Codex会投入更多思考时间,其代码推理、编辑、测试和迭代的耗时达到两倍,黄色箭头处。


最后,这次的GPT‑5-Codex经过专门训练,非常擅于执行代码审查和发现关键缺陷。

按照OpenAI的说法,他们发现GPT‑5-Codex生成的评论更不容易出现错误或不重要的情况,从而让用户能将更多注意力集中在关键问题上,比如:

  • 「不正确评论」显著降低:从13.7%降至4.4%

  • 「高影响力评论」显著增加:从39.4%提升到52.4%

  • 「聚焦关键重点」:平均每个PR提出的评论数从1.32降至0.93

此消彼长,这让Vibe Coding更加接近于严肃的工程化编程!


为何用Codex命名?

在GPT-5-Codex的「发布会」上,Greg聊到了Codex的起源。


最早在GPT-3时代,他们就发现模型能根据文档串(docstring)自动补全函数代码,他们认为当时就具备了「语言模型写代码」的可行性。

2021年,OpenAI就率先推出Codex,并与GitHub合作打造Copilot,探索AI直接嵌入开发工作流的可能性。


现在Codex的Web界面

Greg说编程一直是OpenAI特别关注的领域,专门使用代码数据和指标来优化模型表现,与其他领域不同。

早于Vibe Coding的Harness概念

在这次讨论中,Greg还用一个新的词语「Harness」来解释了OpenAI其实比流行的Vibe Coding更早就发现「用语言模型编程」的魔力。

「Harness」这个词原意是马具、缰绳,用来把马与车或骑手连接起来,使力量可以被控制和发挥。

OpenAI的Greg在讲Codex时借用这个词,表达类似的作用:

  • 模型本身就像「马」或「大脑」,能产生力量(智能、输入输出)。

  • Harness就像「缰绳/集成框架」,把模型和外部环境(工具、IDE、终端、云端等)连起来,让它能真正执行任务、发挥效能。


在做普通语言模型应用时,接口(interface)或「缰绳」(harness)其实很简单——模型只是补全一段文字,最多再跟进一两次对话就结束了。

但在编程场景下,文本会「活起来」,因为代码需要真正被执行、需要和工具连接才能发挥作用。

因此,人们意识到,harness的重要性几乎和模型本身的智能同等关键,它决定了模型是否真的可用。

OpenAI所谓的harness,就是把模型与其余的基础设施整合起来,让模型能够真正地对环境采取行动。

性能与使用体验

这次GPT-5-Codex的延迟是一大亮点,代码补全必须<1.5秒,否则用户体验差。

GPT-5-Codex可以连续执行长时间任务,特别适合大型重构、迁移任务。

此次更新后还支持多模式交互:终端vibe coding、IDE编辑、GitHub集成、Cursor集成等,应有尽有,满足不同开发习惯。


OpenAI内部实践

除了GPT-5-Codex外,Greg还爆料了更多内幕。

OpenAI在内部实践中孵化了几款关键工具,帮助团队探索AI编程智能体的潜力。

首先是10x,一款内部原型,最初在终端运行,能显著提高开发效率。

它支持异步长时间执行,工程师甚至可以合上笔记本让任务继续运行,因此被认为带来「十倍生产力」,但因尚未打磨成熟而未对外发布 。

其次是Agents.md,这是一个放在代码库里的说明文件,类似专门写给Codex的README。

它能压缩上下文,减少模型探索代码的负担,同时存放团队的开发偏好(如测试位置、风格约定)。这样 Codex 能更快理解项目环境,执行任务更高效 。

最后是Code ReviewAgent,这是在内部试点后效果最惊艳的工具。

它能理解PR的意图与实现是否一致,检查依赖关系,发现人类审查可能遗漏的bug。

内部团队甚至在上线前一晚依赖它审查数十个PR,并几乎零bug发布。

讨论中也提到,2030年的软件开发将不再是「人写代码+工具辅助」,而是「AI写大部分代码+人类监督和设计架构」。

开发者更像是团队的指挥官,专注于战略性问题和创意设计,而繁琐、重复、危险的工作则由 AI 智能体承担。

收手吧,GPT-5-Codex

现在,编程智能体已经成为各大AI巨头的火力集中点,打得火热!

OpenAI此次发布GPT-5-Codex也是再次「官宣加入战场」。

但是,收手吧,外面已经全是编程智能体了!

让我们盘点一下国内外今年到底有多少编程智能体~

国外通用/主流编程AI智能体

  • Cursor:深度集成在IDE中,有agent模式,会检索本地代码, 能跨文件操作、项目级别重构等。

  • Claude Code CLI:代码diff、工具调用能力、原型快速实验。

  • Gemini CLI:优势在上下文窗口(context window)、处理大型代码库的重构能力强。

  • GitHub Copilot+Copilot 的扩展


国内代表性产品 /平台

国内在这个赛道加速也非常快,不少大厂都在做「编程智能体\编程模型」的组合,已经有很多专门用于编程的模型和产品。

  • 腾讯的代码助手CodeBuddy

  • 通义千问的Qwen3-Coder

  • 字节的TRAE

  • 百度的文心智能体平台

  • DeepSeek最新的V3.1系列

比如DeepSeek官方公告指出,V3.1在编程智能体和在命令行 / 终端环境下解决复杂任务中表现比之前的 DeepSeek系列模型有明显提升。

总体来看,虽然2025年被称为智能体之年,但主要还是聚焦在编程智能体

国外市场以Cursor、Gemini CLI、Claude Code等为代表,强调模型执行力、重构大上下文处理、IDE/CLI无缝集成等能力。

而国内也同步推出同类型产品对标Cursor和Claude Code等产品。

GPT-5-Codex的上线,让这场「编程智能体大战」更加的白热化!

虽然OpenAI很早就洞察到「语言模型能编程」,但是:

AI编程IDE的认知被Cursor摘取了

AI编程CLI的认知被Claude Code拿到了。

而且国内还同步跟进了各种同类型的产品。

不知道这次起个大早,赶了晚集的GPT-5-Codex能不能拿下「AI智能体编程」的头衔~

参考资料:

https://openai.com/index/introducing-upgrades-to-codex/

https://x.com/sama/status/1967650108285259822

https://x.com/OpenAI/status/1967650096813871266

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视《太平年》首播差评如潮,观众理由出奇一致:完全摸不着头脑

央视《太平年》首播差评如潮,观众理由出奇一致:完全摸不着头脑

小娱乐悠悠
2026-01-24 13:12:22
联盟最强火力回归!近四战场均33+10,唐斯和申京被当做玩具戏耍

联盟最强火力回归!近四战场均33+10,唐斯和申京被当做玩具戏耍

你的篮球频道
2026-01-25 09:26:20
创造历史,长安启源为重庆铜梁龙以及向余望、李镇全“送车”

创造历史,长安启源为重庆铜梁龙以及向余望、李镇全“送车”

懂球帝
2026-01-25 01:41:11
长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

银河史记
2026-01-23 15:36:04
总参军训部撤销,升格成副战区级单位,末任部长政委是咋安排的?

总参军训部撤销,升格成副战区级单位,末任部长政委是咋安排的?

史座y
2025-12-15 18:53:52
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

见证历史!50万亿存款搬家, 相当于40%GDP, 钱正疯狂流向两大方向

现代小青青慕慕
2026-01-12 16:43:32
蒙古终于回头!从2025年开始,文字“认祖归宗”,国家加速去俄化

蒙古终于回头!从2025年开始,文字“认祖归宗”,国家加速去俄化

回京历史梦
2025-10-31 14:25:58
梁洛施不再隐瞒!坦言与李泽楷分手原因,事实证明,我们都被骗了

梁洛施不再隐瞒!坦言与李泽楷分手原因,事实证明,我们都被骗了

素衣读史
2026-01-22 15:21:31
密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

发现新西兰
2026-01-20 11:20:02
深夜利好!6个龙头回购注销,5个龙头增持股票,A股良心股名单

深夜利好!6个龙头回购注销,5个龙头增持股票,A股良心股名单

鹏哥投研
2026-01-25 09:09:47
演员王传君发文宣布退出

演员王传君发文宣布退出

乔话
2026-01-22 17:43:06
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

动物奇奇怪怪
2026-01-25 02:45:08
哈迪德家族声援贝克汉姆夫妇,吐槽妮可拉破坏家庭,只想出名?

哈迪德家族声援贝克汉姆夫妇,吐槽妮可拉破坏家庭,只想出名?

英国那些事儿
2026-01-24 23:07:47
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

英国王室隐瞒百年的秘密,统治了300年的国王,竟然全是德国人?

鹤羽说个事
2026-01-17 14:30:04
女子称为筹治病钱卖掉劳力士 收钱后账户被冻结:系涉诈资金 案件在办理无法解封

女子称为筹治病钱卖掉劳力士 收钱后账户被冻结:系涉诈资金 案件在办理无法解封

红星新闻
2026-01-24 11:33:24
2026-01-25 11:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14404文章数 66527关注度
往期回顾 全部

科技要闻

马斯克SpaceX背后的她:现实版钢铁侠小辣椒

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

时尚
数码
艺术
公开课
军事航空

冬天最佳“显瘦”公式:上短+下长

数码要闻

Stackwarp漏洞免疫!国产C86硬件安全战再下一城

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版