网易首页 > 网易号 > 正文 申请入驻

GPT-5.3上线Codex!OpenAI回应Claude新模型只用了15分钟

0
分享至

Jay 发自 凹非寺
量子位 | 公众号 QbitAI

火星撞地球,新模型大战!

Claude Opus 4.6发布仅仅15分钟,OpenAI也甩出了自己最新最强编程模型——

GPT-5.3-Codex。



最直观的感受是,这个新模型终于有点美学品味了。

官方展示了两个Demo:一个赛车游戏、一个潜水游戏。还蛮有风格的。



据说,GPT-5.3-Codex在几乎没有人工干预的情况下,持续迭代这些游戏,累计消耗了数百万token

在网页开发上,除了UI更好看,对「意图」的理解也更强了。

即便Prompt给得不清楚,它也能自动补全逻辑,生成一个功能齐全的网站。



就这些Demo来看,设计感确实比之前强了一截。

Computer use能力同样拉满,现在已经能用来帮金融从业者直接做PPT。



其他职场工作也能覆盖,尤其是在专业知识密集型任务上,写文档、做电子表格都没什么问题。



硬实力方面,官方给出的亮点如下:

  • 更聪明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。
  • 更可控:支持任务进行中的实时引导,可随时调整方向并获取更新。
  • 更快速:完成相同任务时,所需token不到5.2-Codex的一半,单token速度提升超过25%。
  • 更Agent:不只是更会写代码,计算机操作同样很强。

直接看这张对比表会更直观,几乎每一个维度,都比上一代有明显提升。



网友直呼过于刺激,昨天OpenAI刚被Anthropic拿广告狙了一枪,今天就对轰了回来。

一天之内,两个重量级编程模型



评论区也迅速分成了Anthropic派和OpenAI派。





下面来看看,这场奥特曼主动挑起的AI coding大战,OpenAI到底表现如何?

GPT 5.3 Codex

大家最关心的,当然还是编程能力。

OpenAI表示,GPT-5.3-Codex在SWE-Bench Pro上实现了SOTA。

这是一个专为真实世界软件工程设计的测试,覆盖四种编程语言,整体难度更高、任务更丰富,也更贴近真实生产场景。



同时,GPT-5.3-Codex在Terminal-Bench 2.0上的表现也有明显提升。



更关键的是效率。在拿下这些成绩的同时,GPT-5.3-Codex使用的token数量少于任何以往模型

除了编程能力,新一代Codex的另一个重点是Computer use

OSWorld是一项面向智能体的计算机使用基准测试,要求模型在可视化的桌面计算机环境中完成各类生产力任务。

结果显示,GPT-5.3-Codex在计算机使用能力上,明显强于此前的GPT模型。



综上,GPT-5.3-Codex不是一次单点模型能力突破,更像是基于智能体的全方位发展,编码、前端开发、计算机操作全都有提升

更有意思的是,这次GPT-5.3-Codex直接参与了自己的训练过程

OpenAI表示,这是他们首个参与「自我加速」的模型。Codex团队在研发过程中使用其早期版本,来调试自身训练流程、管理部署,并评估测试结果。

官方也给出了一些具体例子。

训练阶段,研究团队使用Codex监控和调试训练任务,帮助在整个训练过程中追踪模型行为变化,对交互进行深入分析,并提出改进方案。

数据分析方面,一位数据科学家与GPT-5.3-Codex协作,构建了新的数据管道,并以远超传统仪表盘工具的方式对结果进行了可视化。

随后,研究人员与Codex一起分析这些结果,模型在不到三分钟内,就从数千个数据点中提炼出了关键洞见。

工程团队则借助Codex优化和适配GPT-5.3-Codex的测试与运行框架。

当开始出现影响用户体验的异常边缘案例时,团队成员通过Codex定位到了上下文渲染相关的缺陷,并进一步追溯到了缓存命中率偏低的原因。

Two More Things

与Anthropic的巅峰对决的确相当精彩,但OpenAI其实还有两个值得关注的大动作。

1、Frontier:一个帮助企业打造「AI同事」的平台



这是OpenAI一项相当重磅的ToB业务,目标很明确:让Agent真正进入公司工作流。

具体实现方式,包括共享上下文、上手式的入职引导、带反馈的实践学习,以及清晰的权限与边界。

据悉,HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企业,已经早早采用了Frontier。

2、AI4S:OpenAI和Ginkgo联手,用GPT-5把蛋白质合成成本打下来了40%



这是一家做合成生物学的实验室型公司,他们将GPT-5接入一座自主实验室,让模型可以提出实验方案、规模化执行实验、从结果中学习,并决定下一步该尝试什么,完整跑通了一个闭环。

2026年,或许是AI4S加速演进的一年。

不过,在OpenAI忙着和Anthropic对狙,网友们被一系列新动态弄的眼花缭乱的同时,评论区也有另一种声音。

  • 把4o还给我!!



直到现在,奥特曼依然没有回应4o被彻底下架这件事。

或许,真的是和Anthropic打得太忙了。




[1]https://openai.com/index/introducing-gpt-5-3-codex/
[2]https://openai.com/index/introducing-openai-frontier/
[3] https://x.com/i/trending/2019496485793198148

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄军中将在莫斯科遭枪击,俄外长发声:这是“恐怖袭击”

俄军中将在莫斯科遭枪击,俄外长发声:这是“恐怖袭击”

环球网资讯
2026-02-06 20:31:29
一条视频,救活了停产12年的老锅厂

一条视频,救活了停产12年的老锅厂

智谷趋势
2026-02-05 18:07:10
科学家立大功!成功研发全球首款超高密度固态电池,续航翻4倍

科学家立大功!成功研发全球首款超高密度固态电池,续航翻4倍

胖福的小木屋
2026-02-04 11:42:49
去年中国人均餐饮消费仅33元 中式正餐消费3年暴跌41%

去年中国人均餐饮消费仅33元 中式正餐消费3年暴跌41%

互联网大观
2026-02-06 13:16:20
很意外,美债危机要化解了

很意外,美债危机要化解了

米筐投资
2026-02-06 07:07:33
搞特权谋求特殊待遇,利用信贷权力敛财,中纪委连打四“虎”

搞特权谋求特殊待遇,利用信贷权力敛财,中纪委连打四“虎”

南方都市报
2026-02-06 21:44:07
出口突破832万辆,究竟是谁在狂买中国车?

出口突破832万辆,究竟是谁在狂买中国车?

牲产队
2026-02-05 19:16:07
巴拿马“毁约夺港”,中国震怒反击开始

巴拿马“毁约夺港”,中国震怒反击开始

凤眼论
2026-02-06 09:18:32
自从在越南发现了跟三星堆相似的文物,基本就能确定了

自从在越南发现了跟三星堆相似的文物,基本就能确定了

南权先生
2026-02-06 15:50:09
婚前如果做过人流手术,这事能瞒得住?这是我见过最完美的回答

婚前如果做过人流手术,这事能瞒得住?这是我见过最完美的回答

另子维爱读史
2026-02-05 22:57:12
雨夹雪+大风+结冰,三重暴击!上海人今晚迎来今冬最难下班路|丹丹看天气

雨夹雪+大风+结冰,三重暴击!上海人今晚迎来今冬最难下班路|丹丹看天气

上观新闻
2026-02-06 18:49:05
哈佛实验证明:衰老是一个被灌输的概念(强烈推荐)

哈佛实验证明:衰老是一个被灌输的概念(强烈推荐)

尚曦读史
2026-02-06 08:13:21
百万粉丝汽车博主发布小米SU7与极氪007碰撞测试视频被逮捕,检方以损害商品声誉罪提起公诉,今日开庭

百万粉丝汽车博主发布小米SU7与极氪007碰撞测试视频被逮捕,检方以损害商品声誉罪提起公诉,今日开庭

大风新闻
2026-02-06 15:34:10
网友称四川自贡一街道现“红绿灯刺客”,红灯笼遮挡信号灯致误闯,当地交警回应:将迅速核实

网友称四川自贡一街道现“红绿灯刺客”,红灯笼遮挡信号灯致误闯,当地交警回应:将迅速核实

大风新闻
2026-02-06 17:21:05
利空,全线暴跌!

利空,全线暴跌!

魏家东
2026-02-06 11:57:25
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
斗不过特朗普,古特雷斯即将下台,临走前点名中美:别想共管世界

斗不过特朗普,古特雷斯即将下台,临走前点名中美:别想共管世界

兵说
2026-02-05 21:18:25
国足主帅的排面!45岁邵佳一造访皇马 与老佛爷合影+获赠10号球衣

国足主帅的排面!45岁邵佳一造访皇马 与老佛爷合影+获赠10号球衣

我爱英超
2026-02-05 18:49:37
黄子韬自曝卫生巾工厂现状:销售了1.5个亿,本金还没赚回来,工厂6个生产线各花了2000多万

黄子韬自曝卫生巾工厂现状:销售了1.5个亿,本金还没赚回来,工厂6个生产线各花了2000多万

台州交通广播
2026-02-06 19:15:42
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
2026-02-06 22:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12126文章数 176373关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

艺术
健康
手机
公开课
军事航空

艺术要闻

Kristin Vestgard:挪威当代画家

转头就晕的耳石症,能开车上班吗?

手机要闻

魅族Flyme AIOS新春版来了:一大波新功能 六款机型可升

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版