网易首页 > 网易号 > 正文 申请入驻

奥特曼真急了!硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6

0
分享至

硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了


来源:新智元

编辑:好困 桃子

【导读】一天之内,两大编程AI轮番轰炸硅谷。Claude Opus 4.6之后,奥特曼紧急放出GPT-5.3-Codex。双雄争霸,彻底撕开AI王座争夺战的帷幕。

硅谷今夜难眠!

Claude Opus 4.6毫无征兆地深夜突袭,没想到,却让奥特曼措手不及。

作为回应,OpenAI仓促应战,不过半小时紧急祭出最强智能体编程模型——GPT-5.3-Codex



没有GPT-5.3,只有GPT-5.3-Codex!

它完美融合了GPT-5.2-Codex顶尖编程能力与GPT-5.2卓越的推理及专业知识能力,且运行速度更提升了25%


那些涉及深度研究、工具调用及复杂执行的长程任务,都能够轻松驾驭。

GPT-5.3-Codex就像一位并肩作战的同事,你可以在它工作时进行实时引导和互动,且完全无需担心上下文丢失。

值得一提的是,GPT-5.3-Codex还是首个在自身创造过程中发挥了关键作用的模型


随着GPT-5.3-Codex的问世,Codex的角色发生了质的飞跃:

从一个只会编写和审查代码的AI智能体,进化为一个几乎能完成开发者和专业人士在计算机上能做的任何事情的AI智能体。


GPT-5.3-Codex现已加入ChatGPT付费计划,覆盖Codex所有应用场景:App、CLI、IDE扩展及Web端。

如今,整个硅谷成为了Anthropic和OpenAI双雄决战的「修罗场」,空气中都充满了火药味儿。

有趣的是,原本奥特曼在凌晨12点预告了新模型发布,却让Anthropic抢占了发布的先机。


一夜之间,两大最强编程AI怼脸PK,网友们纷纷吐槽,「简直跟不上AI迭代的速度了」。



GPT-5.3-Codex登场,编码更强了

GPT-5.3-Codex实力有多强,亮一亮成绩单就知道了。


软件工程新SOTA

GPT-5.3-Codex在评估现实世界软件工程的SWE-Bench Pro评测中,创下了行业新高。

与此同时,在衡量编程智能体终端技能的Terminal-Bench 2.0中,它的表现也远超此前的SOTA。

值得一提的是,GPT-5.3-Codex实现这一切所消耗的Token,比以往任何模型都要少得多。


相较于只测试Python的SWE-bench Verified,SWE-Bench Pro涵盖四种语言,不仅更能抵御数据污染,也更具挑战性、多样性和行业相关性


从0造出游戏

结合前沿的编程能力、美学和紧凑性的改进,GPT-5.3-Codex能产出惊人的成果,甚至能在几天内从零开始构建功能高度复杂的各类游戏和应用。

为了测试该模型的Web开发和长程智能体能力,OpenAI让GPT-5.3-Codex做了两款游戏:

Codex App发布时的赛车游戏第二版,以及一款潜水游戏。

利用开发Web游戏的技能以及预先选好的通用后续提示词(比如「修复bug」或「改进游戏」),GPT-5.3-Codex在数百万个Token的交互中,自主对游戏进行了迭代。


赛车游戏:包含不同的赛车手、八张地图,甚至还有可以用空格键触发的道具


潜水游戏:玩家可以在其中探索各种珊瑚礁,收集它们以完成你的鱼类图鉴,同时还要管理氧气

· 更懂你的意图

相比GPT-5.2-Codex,当你让GPT-5.3-Codex制作日常网站时,它能更精准地理解你的意图。

对于简单或描述模糊的提示词,它现在默认会生成功能更丰富、设置更合理的网站,为你提供更优质的起步画布,助力创意落地。

·GPT-5.3-Codex vs GPT-5.2-Codex

举个例子,同时要求GPT-5.3-Codex和GPT-5.2-Codex构建落地页。

GPT-5.3-Codex会自动将年度计划显示为折算后的月付价格,让折扣看起来清晰且经过精心设计,而不是简单地算出年度总额。

此外,它还制作了一个包含三条不同用户引语的自动切换证言轮播,而非单调的一条。这使得页面默认看起来更完整,更像是一个可以直接上线的产品。


GPT-5.3-Codex


GPT-5.2-Codex

提示词:

为Quiet KPI构建一个落地页,这是一个对创始人友好的每周指标摘要。美学风格采用柔和的SaaS风,玻璃质感卡片,薰衣草色到蓝色的渐变,微妙的模糊效果。板块包括:带有邮箱收集的首屏,示例报告卡片网格,集成列表行,客户证言轮播,月付/年付价格切换,常见问题解答,页脚。

· 字体使用Satoshi或类似的几何无衬线字体。

· 按钮采用圆角,14px半径,强烈的聚焦状态。

· 添加一个有品位的基于滚动的显现效果。

超越编程的通用能力

软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。

GPT-5.3-Codex不仅为软件生命周期中的所有环节,如调试、部署、监控、编写PRD、编辑文案、用户研究、测试、指标等提供了支持。

而且,它还能帮用户构建任何想做的东西——不管是制作精美的幻灯片,还是在表格里进行复杂的数据分析。

在衡量专业知识工作的GDPval中,GPT-5.3-Codex表现出色,与GPT-5.2处于同一顶尖水平。

1. 财务建议幻灯片



2. 零售培训文档



3. NPV分析电子表格



4. 时尚演示PDF



· 计算机使用能力

OSWorld是一个关于计算机使用的基准测试,要求智能体在可视化的桌面计算机环境中完成生产力任务。

在这里,GPT-5.3-Codex展现出远超之前GPT模型的计算机操作能力。


在OSWorld-Verified中,模型使用视觉来完成各种计算机任务(人类得分约为72%)

总之,这些在编程、前端、计算机操作和现实世界任务中的优异表现表明,GPT-5.3-Codex不仅在单项任务上表现更好,更是向单一通用智能体迈出的跨越性一步。

这意味着智能体已能够在全方位的现实世界技术工作中进行推理、构建和执行。

协同作战,还能中途喊停

随着模型能力越来越强,现在的挑战已经从「智能体能做什么」,变成了「人类如何轻松地与并行工作的多个智能体进行交互、指挥和监督」。

在GPT-5.3-Codex的加持下,操作过程的更新也会更加频繁。

这样,开发者就可以在它工作时随时掌握关键决策和进。

你不必干等着最终结果,而是可以实时交互——提问、讨论方法,并引导它走向解决方案。

GPT-5.3-Codex会把它的操作讲给你听,响应你的反馈,并让你从头到尾都全程同步。


自我加速迭代,接管研发工作流

现在的Codex,懂你意图,更懂效率。

OpenAI内部甚至出现了一种「套娃」式的进化:Codex正在加速Codex的诞生。

短短两个月,OpenAI的研究员和工程师们发现,工作方式已被彻底颠覆。

他们正在用GPT-5.3-Codex的早期版本,去训练、部署和优化现在的正式版。

这一波「自我进化」的实战成绩,相当炸裂:

  • 研究团队

    从监控训练运行、深挖交互模式,到给人类同事开发分析工具,Codex全程参与,不仅修Bug,还能提建议。

  • 工程团队

    它是最硬核的战友。无论是优化测试框架、定位缓存失效的根源,还是在流量洪峰中动态调度GPU集群,它都稳得住。

  • Alpha测试实战

    为了搞懂生产力差异,Codex自己写正则分类器,跑遍海量日志,直接甩出一份精准报告。

    面对反直觉数据,它联手数据科学家构建新管道。人类需要几小时?Codex只用了三分钟,就从数千个数据点中提炼出了关键洞察。


不止编程,更是全能操盘手

GPT-5.3-Codex的野心,早已溢出了代码框。

随着这次发布,Codex也开始从单纯的写代码工具,转型为操作计算机并端到端完成工作的得力助手。

OpenAI正在解锁更广阔的战场——从构建软件,到深度研究、复杂分析,乃至执行一切案头工作。

曾经,它的目标是做「最强编程智能体」; 现在,它是你电脑里无所不能的「通用协作者」。

Codex的适用边界被无限拓宽,而我们创造力的天花板,也将被彻底重写。

参考资料:

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/sama/status/2019474754529321247


为伟大思想而生!

AI+时代,互联网思想(wanging0123),

第一必读自媒体

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东某设计院被讨薪了!

广东某设计院被讨薪了!

黯泉
2026-02-07 22:06:21
湖北一女子凭107.9元超市购物发票,抽中一辆汽车:出乎意料,下了班赶紧来领奖!

湖北一女子凭107.9元超市购物发票,抽中一辆汽车:出乎意料,下了班赶紧来领奖!

大象新闻
2026-02-07 00:17:03
阿富汗塔利班恢复奴隶制。

阿富汗塔利班恢复奴隶制。

荆楚寰宇文枢
2026-01-29 23:23:47
活了30年才知道,这些“反人类”生活物品的正确用法!以前可真傻

活了30年才知道,这些“反人类”生活物品的正确用法!以前可真傻

抠搜侠
2026-01-28 15:18:39
灰丝高跟大长腿,美的不忍直视。

灰丝高跟大长腿,美的不忍直视。

艾斯莱斯奈斯
2026-01-29 12:05:50
冬奥会金牌榜:苏翊鸣铜牌,日本并列第1,中国暂第7,美国0奖牌

冬奥会金牌榜:苏翊鸣铜牌,日本并列第1,中国暂第7,美国0奖牌

体育就你秀
2026-02-08 07:21:56
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

青烟小先生
2026-01-31 19:10:22
阿里停办、腾讯极简:曾经封神的年会,为何没人办了?

阿里停办、腾讯极简:曾经封神的年会,为何没人办了?

流苏晚晴
2026-02-07 16:57:55
出现在爱泼斯坦案文件中超100次引不满,马斯克弟弟辞去一活动主办方董事职务

出现在爱泼斯坦案文件中超100次引不满,马斯克弟弟辞去一活动主办方董事职务

环球网资讯
2026-02-06 21:22:08
研究了几万颗恒星后,科学家发现:太阳似乎被“精心设计”过

研究了几万颗恒星后,科学家发现:太阳似乎被“精心设计”过

观察宇宙
2026-02-05 21:28:21
贾宝玉做梦与秦可卿云雨,醒来后陪侍的四个丫头,为何消失一人?

贾宝玉做梦与秦可卿云雨,醒来后陪侍的四个丫头,为何消失一人?

谈史论天地
2026-01-30 10:05:05
Nature:首个能写综述论文的开源AI模型来了,大幅减少科研“幻觉”,堪比人类专家

Nature:首个能写综述论文的开源AI模型来了,大幅减少科研“幻觉”,堪比人类专家

生物世界
2026-02-06 12:27:30
医生发现:能活到85岁的长寿者,大多在55岁,就不碰这4事了

医生发现:能活到85岁的长寿者,大多在55岁,就不碰这4事了

全球军事记
2025-12-03 20:42:20
紧急返航!海航HU492飞北京航班起飞后挡风玻璃破裂,有乘客拍到飞机空中放油,全机人员平安,风挡破裂原因调查中

紧急返航!海航HU492飞北京航班起飞后挡风玻璃破裂,有乘客拍到飞机空中放油,全机人员平安,风挡破裂原因调查中

极目新闻
2026-02-07 13:03:21
不是黄晓明!也不是马云!如今替赵薇收拾烂摊子的,是这个男人

不是黄晓明!也不是马云!如今替赵薇收拾烂摊子的,是这个男人

古事寻踪记
2026-02-05 07:11:42
猛涨6000亿,矿业巨头又拿下4座金山

猛涨6000亿,矿业巨头又拿下4座金山

快刀财经
2026-02-07 22:14:53
实锤了!韩国综艺曝光小S忽视姐姐病情,对大S的离世要负很大责任

实锤了!韩国综艺曝光小S忽视姐姐病情,对大S的离世要负很大责任

壹月情感
2026-02-05 12:42:35
蒋介石到死也没弄明白,红军长征时,究竟是怎么通过三条封锁线的

蒋介石到死也没弄明白,红军长征时,究竟是怎么通过三条封锁线的

古事寻踪记
2026-02-08 07:15:26
和吴奇隆离婚16年后,嫁给外国老公的马雅舒,最终还是自食苦果

和吴奇隆离婚16年后,嫁给外国老公的马雅舒,最终还是自食苦果

无处不风景love
2026-02-07 22:42:05
娘俩穿三千羽绒服 住免费爱心屋,被撵后怨屋主蹭流量 室友爆隐情

娘俩穿三千羽绒服 住免费爱心屋,被撵后怨屋主蹭流量 室友爆隐情

离离言几许
2026-02-07 18:09:29
2026-02-08 08:23:00
互联网思想 incentive-icons
互联网思想
AI时代,互联网思想观察
2394文章数 16903关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

时尚
艺术
数码
亲子
军事航空

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

艺术要闻

100张极为罕见的过年老照片,看完泪目了!

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

亲子要闻

汤淼艰难的育女经历:为要孩子游走各大医院,感叹生育实在不容易

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版