网易首页 > 网易号 > 正文 申请入驻

新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了

0
分享至

就在 Anthropic Claude 陷入降智风波时,OpenAI 刚刚推出了 GPT-5-Codex——这是基于 GPT-5 优化后的 Codex 专用版本,专门针对「自主编程」进行了训练。

这次升级确实有些分量。

聚焦于真实的软件工程场景的 GPT-5-Codex,不仅能处理日常的编程交互,还能独立完成复杂耗时的工程项目。它能像真正的程序员一样,连续工作超过 7 个小时,在复杂项目上不断迭代、修 bug、跑测试,最后交付一个完整可用的解决方案。

从四月份推出 CLI 版本,到五月份上线网页版,再到现在的全面升级,Codex 的——就是要把编程这件事彻底「自动化」。

现在无论你在终端、IDE、网页还是手机上开发,Codex 都能提供一致的编程辅助体验,而且已经整合进 ChatGPT 账号体系,本地和云端可以无缝切换。


GPT-5-Codex 最有意思的特性是「动态思考」能力。它能够根据任务复杂度灵活调整处理时间。

OpenAI 内部员工使用数据显示,按模型生成的 token 数排序,对于最底部 10% 的简单请求,GPT-5-Codex 比 GPT-5 少用了 93.7% 的计算资源。

相反,对于最顶部 10% 的复杂请求,它会花费大约两倍的时间进行推理、代码编辑、测试和迭代。这意味着日常聊天和小任务响应会更快,而复杂的大型重构则会投入更多时间深度处理。


用人话说就是:日常小问题不磨蹭,大项目该花时间就花时间。

终于有个编程模型懂得「好钢用在刀刃上」了。

基准测试方面,在 GPT-5 发布时,OpenAI 只在 477 个 SWE-bench Verified 任务上报告结果,在被 Anthropic 指出这一问题后,今天 OpenAI 宣布这些问题已经修复,现在可以在全部 500 个任务上报告结果。结果如下:


代码重构评测更是涵盖了 Python、Go 甚至 OCaml 等语言,比如一个来自 Gitea 的 pull request 案例,修改了 232 个文件、3541 行代码,将 ctx 变量贯穿到应用逻辑中。

代码审查功能也很实用,它会在代码库中浏览分析,运行测试验证正确性,给出的审查意见准确性不错。在 OpenAI 内部,Codex 现在会审查大部分 PR,每天能发现数百个问题,很多时候比人工审查更早发现潜在 bug。


前端开发支持同样到位,GPT-5-Codex 不仅能创建桌面应用,移动端开发能力也有明显提升。它还能读取截图和设计稿,检查开发进度,把工作成果可视化展示,这对前端开发确实很有帮助。

工具层面的更新也相当丰富。全新改造的 Codex CLI 现在围绕自主编程流程重构,支持直接附加和分享图片,包括截图、线框图和架构图,用于建立对设计决策的共同理解。


处理复杂任务时,Codex 会通过待办清单跟踪进度,内置了网页搜索、MCP 等工具连接外部系统。

审批模式简化为三种:只读模式需要显式批准,自动模式对工作区有完整访问权限但工作区外需要批准,完全访问模式可以在任意位置读取文件并运行带网络访问的命令。

全新的 IDE 插件支持 VS Code、Cursor 等编辑器,让用户能无缝预览本地修改并与 Codex 协作编辑代码。插件还支持在云端与本地环境间流畅切换,可以直接在编辑器中创建云端任务、跟踪进行中的工作,以及审查已完成的任务。

云端基础设施也有明显改进,通过容器缓存将新任务和后续任务的中位完成时间缩短了 90%。Codex 能自动设置运行环境,扫描常见初始化脚本并执行,在配置网络访问权限时还能运行 pip install 等命令按需安装依赖。


安全方面,OpenAI 采用了沙箱运行环境,默认禁用网络访问,确保不会在用户电脑上执行有害操作,同时降低提示注入风险。

开发者可以根据风险承受度自定义安全设置,在云端可以限制网络访问只允许可信域名,在 CLI 和 IDE 插件中可以批准命令、允许全权限运行或使用网页搜索、连接 MCP 服务器。

与 GPT-5 管理方式一致,GPT-5-Codex 在生物与化学领域被归类为高能力模型,已采取相应安全措施。

价格上,Codex 已经集成到 ChatGPT 的各个付费套餐中,不同套餐提供不同的使用额度。

  • Plus、Edu 和 Business 适合每周几次专注的编程会话;
  • Pro 则能支持跨多个项目的一整周工作量。

Business 套餐可以购买额外额度,帮助开发者突破包含的上限;Enterprise 套餐则提供共享额度池,只需为团队实际使用部分付费。对于使用 API key 的开发者,OpenAI 计划很快在 API 中开放 GPT-5-Codex。


目前 GPT-5-Codex 的系统提示词已经泄露,感兴趣的开发者可以研究一下。

系统提示词地址:https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md

知名博主 Dan Shipper 在体验完 GPT-5-Codex 之后,给出的评价是:

我们在 @every 上测试了几天,结果相当震撼: - 它会根据任务动态选择「思考」时间——难题上能长时间工作,简单问题则能即时给出答案。 - 在我们的生产代码库测试中,它可以自主运行 长达 35 分钟 ——相比之下,GPT-5 往往过于谨慎,这是一次明显的升级。 - 它支持 本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务,然后在去购物时把它交给 Codex Web 继续完成。 - 它配备了 代码审查智能体,会真正运行你的代码,因此能发现更多 bug。 以下是我们经过大量内部测试后的整体感受: - 这是一次非常出色的升级,让 Codex CLI 成为了 Claude Code 的有力替代品。 - 不过,它需要合理的提示才能表现出最佳效果。比如 @kieranklaassen 最多只能让它运行 5 分钟,而 @DannyAziz97 找到了诀窍。 - 有时候它会「偷懒」——在某些任务上可能思考不足,或者如果认为任务过大就会直接拒绝。 - 我整个周末都在用 Codex CLI 为 @CoraComputer 提交一个新的 PR,体验下来发现它非常好用、易于引导——这是一个很棒的模型。

OpenAI Codex 产品负责人 Alexander Embiricos 表示,性能的大幅提升主要归功于 GPT-5-Codex 动态的「思考能力」。Embiricos 解释说,GPT-5-Codex 的工作方式类似,但它内部没有路由器,而是能实时调整在某项任务上投入的时间。

Embiricos 指出,这比路由机制更具优势:后者在一开始就必须决定要为某个问题分配多少算力和时间,而 GPT-5-Codex 则可以在处理任务 5 分钟后决定「还需要再多花一个小时」。他说,他见过该模型在某些情况下连续工作超过 7 小时。


最近几个月,几乎所有 AI 大厂的重磅更新都指向同一个方向——编程能力。相比之下,如果你仔细观察就会发现,针对普通用户的「优化」其实是在不断减少。

表面上看,这可能是因为面向普通消费者的 AI 产品已经陷入瓶颈期。聊天、写文案、做翻译,这些功能已经比较成熟,很难再有突破性进展。

但更深层的原因,还是绕不开商业逻辑。

开发先进的 AI 模型本就需要天文数字的巨额投入,这些成本总要有人承担。与其指望海量低付费用户慢慢回血,不如直接锁定那些真正愿意掏钱的高价值用户。而程序员是最愿意为 AI 工具付费、且粘性较高的群体之一。

从这个角度来说,放弃技术平权的叙事,AI 的未来可能比我们想象的更加「精英化」。这不一定是坏事,但至少我们应该对此有清醒的认识。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我如果在澳门赌场输了一千万,跑回内地,不还了可以吗

我如果在澳门赌场输了一千万,跑回内地,不还了可以吗

贱议你读史
2026-03-03 12:35:42
无语!平顶山母女遗产案爆出操作猛如虎,舅舅舅妈吃绝户!

无语!平顶山母女遗产案爆出操作猛如虎,舅舅舅妈吃绝户!

社会日日鲜
2026-03-04 06:58:18
一千亿美元打了水漂?今天终于可以大声说:中国这钱花得太值了!

一千亿美元打了水漂?今天终于可以大声说:中国这钱花得太值了!

闻识
2026-03-05 20:13:08
惊呆!比黄金涨得还猛!2026年真正暴涨的,竟是你随手扔的旧物?

惊呆!比黄金涨得还猛!2026年真正暴涨的,竟是你随手扔的旧物?

蓝色海边
2026-03-06 12:41:30
最高12℃!山东周末天气来了......

最高12℃!山东周末天气来了......

山东经济广播
2026-03-06 12:02:33
简直离谱,苹果新款显示器搭载了 A19 Pro 芯片!

简直离谱,苹果新款显示器搭载了 A19 Pro 芯片!

XCiOS俱乐部
2026-03-05 14:13:03
你无意中发现过别人哪些秘密?网友:这不是我一个单身狗能看的

你无意中发现过别人哪些秘密?网友:这不是我一个单身狗能看的

带你感受人间冷暖
2025-12-18 00:10:08
王晶大侃万梓良晚年凄凉!他不懂江湖规矩,演戏夸张对手很难接

王晶大侃万梓良晚年凄凉!他不懂江湖规矩,演戏夸张对手很难接

小徐讲八卦
2026-02-11 11:40:12
“螺丝大王”潜伏中国31年,一年赚取上千亿,却被误认是国企

“螺丝大王”潜伏中国31年,一年赚取上千亿,却被误认是国企

有范又有料
2026-03-06 14:48:52
不愧是黄暴美剧天花板,新版《斯巴达克斯》够猛

不愧是黄暴美剧天花板,新版《斯巴达克斯》够猛

来看美剧
2026-03-05 22:43:56
伊朗国防部警告:我们还没动用最先进的武器,不会在最初几天全部部署

伊朗国防部警告:我们还没动用最先进的武器,不会在最初几天全部部署

西游日记
2026-03-05 13:55:48
美军阵亡士兵遗体继续在中东被发现

美军阵亡士兵遗体继续在中东被发现

碳基生物关怀组织
2026-03-03 23:37:09
物理学停滞100年,三座大山难以逾越!或许永远都无法进步?

物理学停滞100年,三座大山难以逾越!或许永远都无法进步?

心中的麦田
2026-03-03 20:19:10
女流直播突然孩子哭闹,被迫过去“垫一口”,网友:不行下播吧

女流直播突然孩子哭闹,被迫过去“垫一口”,网友:不行下播吧

相思赋予谁a
2026-03-05 16:09:12
李宗仁去世后,胡友松被送去改造,周总理:放不下一个胡友松吗

李宗仁去世后,胡友松被送去改造,周总理:放不下一个胡友松吗

芊芊子吟
2026-02-03 09:40:07
莫迪杀红了眼!吞了中企几百亿,又派人来偷火,中国不能坐以待毙

莫迪杀红了眼!吞了中企几百亿,又派人来偷火,中国不能坐以待毙

梁讯
2026-02-28 15:40:12
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
湖人为什么输给掘金?赛后詹姆斯毫不避讳说出原因,说的非常实在

湖人为什么输给掘金?赛后詹姆斯毫不避讳说出原因,说的非常实在

安海客
2026-03-06 14:05:39
1.9万亿!中国军费开支出炉,增长7%,外媒又有意见了?

1.9万亿!中国军费开支出炉,增长7%,外媒又有意见了?

影孖看世界
2026-03-06 14:56:56
这跟不穿有啥区别?内裤外露、刘雯半个腚都光着,新时尚真看不懂

这跟不穿有啥区别?内裤外露、刘雯半个腚都光着,新时尚真看不懂

嫹笔牂牂
2026-03-03 07:06:44
2026-03-06 15:39:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38503文章数 2601063关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

数码
家居
旅游
手机
健康

数码要闻

爆款主板又有全新涂装,高能高颜!TUF GAMING X870-PRO开箱体验

家居要闻

暖棕撞色 轻法奶油风

旅游要闻

昆明金殿第十届花朝盛会3月8日启幕 古风盛宴邀客共赏春

手机要闻

1月机型销量TOP40榜单出炉:华为Mate 80成国产领头羊

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版