网易首页 > 网易号 > 正文 申请入驻

GPT-5.3-Codex突然登场!AI能自己造自己了

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西2月6日报道,今天,就在Claude发布Opus 4.6后的几分钟,OpenAI也推出了自家的最新编程模型:GPT-5.3-Codex。OpenAI号称,这是世界上最强大的智能体(Agentic)编程模型。

GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0这两个编程基准测试中拿到了SOTA,并在OSWorld和GDPval等智能体能力和真实世界任务测评中,较GPT-5.2-Codex实现一定提升。在Terminal-Bench 2.0上,GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%


不过,OpenAI参加的基准测试数量更少,也基本没有和Claude Opus 4.6重叠的,得分只能作为参考。

为演示其编程能力,OpenAI晒出了一个由GPT-5.3-Codex打造的赛车游戏。这个游戏里有多辆赛车同时开展比拼,还配备了8张地图,甚至还能用空格键使用道具,就是画风确实有些简陋。我们也简单试玩了一下这个游戏,完成度还挺高的。


体验链接:

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

OpenAI还透露,GPT-5.3-Codex是OpenAI首个在自我创建过程中发挥关键作用的模型。GPT-5.3-Codex的早期版本,被Codex团队用来调试模型训练、管理部署、诊断测试结果和评估,加速了模型的开发。

GPT-5.3-Codex其实就是GPT-5.2-Codex和GPT-5.2的结合体,具备前者的编程能力和后者的推理能力和专业知识储备,且速度也提升了25%。

这意味着GPT-5.3-Codex不仅可以用于编程,也可用于软件工程里的所有其他工作,比如调试、部署、监控、测试、指标分析等。你还可以用GPT-5.3-Codex来做PPT、Excel、Word等等,从OpenAI分享的案例来看效果还不错。


▲GPT-5.3-Codex打造的PPT(图源:OpenAI)

与GPT-5.3-Codex同期发布的,还有OpenAI的最新的企业级智能体平台Frontier,具备共享上下文、在反馈中学习、持续改进等能力,并支持设定清晰的权限与边界。


▲Frontier打造的Agent(图源:OpenAI)

目前,GPT-5.3-Codex已向付费ChatGPT用户开放,可在Codex应用、CLI、IDE插件和Web中使用。API访问仍需等待后续更新。Frontier现阶段仅面向有限客户,未来几个月将有更广泛的可用性。

不过,在这波发布中,与隔壁的Claude Opus 4.6相比,GPT-5.3-Codex和Frontier在讨论热度上明显逊色一筹,发布模型的推文转赞评数量都只有Claude Opus 4.6的不到一半,评论区中也能看到不少质疑声。


关心编程能力的用户认为GPT-5.3-Codex在实际使用体验和安全性上和Claude Opus 4.6仍有差距,而将OpenAI模型用于写作等其他场景的用户,则认为OpenAI不再重视他们。这显示出OpenAI在编程等市场的产品号召力和社区影响力上,以及如何平衡自家的ToC和ToB业务上,仍有很长的路要走。

一、能在数百万token代码库修Bug,还会给人类主动汇报工作

OpenAI称,在GPT-5.3-Codex的帮助下,其编程工具Codex将不再只是一个“会写和审代码的智能体”,而是会进化为一个几乎可以完成开发者和专业人士在计算机上能做的所有事情的智能体

在Web开发方面,OpenAI让GPT-5.3-Codex打造了两个游戏,一个是此前我们看到赛车游戏,另一个则是一个潜水游戏,游戏机制类似《潜水员戴夫》。


不过,光是打造这样一个游戏其实对如今的前沿编程模型来说已经不难了。OpenAI还分享,在发出“修复这个 bug”、“改进游戏”等通用后续提示词的情况下,GPT-5.3-Codex可以在数百万token的过程中自主迭代这些游戏。

GPT-5.3-Codex在理解日常网站构建意图方面明显优于GPT-5.2-Codex。对于简单或描述不充分的提示,它会默认生成功能更完整、默认设置更合理的网站。

例如,在构建一项名为“Quiet KPI”的服务的网站首页时,GPT-5.3-Codex可以自动将年付方案展示为折扣后的月价,还会自动生成包含三条不同用户评价的轮播组件,而不是仅呈现单条内容。整体页面因此显得更加完整、更加接近可直接上线的产品。


程序员、设计师、产品经理和数据科学家的工作远不止写代码。GPT-5.3-Codex从设计之初就支持整个软件生命周期中的工作,包括调试、部署、监控、编写PRD、编辑文档、用户研究、测试、指标分析、以及更多专业工作。


在使用类似GDPval的自定义技能后,GPT-5.3-Codex在GDPval(一个衡量44种职业中明确知识型任务的评估)上达到了与GPT-5.2相当的水平。

在考察模型计算机使用能力的OSWorld-Verified中,人类平均得分约为72%,而GPT-5.3-Codex达到了64.7%。GPT-5.3-Codex在该评测中表现显著优于以往的GPT模型。

随着GPT-5.3-Codex的发布,Codex还提供了一个新的设置选项“工作中可引导”。开启后,GPT-5.3-Codex会在工作过程中频繁更新关键决策和进展,支持实时对话、提问、讨论方案,并在执行期间持续解释其思路并提供反馈。这让人类用户可以更高效地指挥和监督多个Agent。

OpenAI称,得益于基础设施和推理栈的改进,Codex用户的GPT-5.3-Codex整体速度提升了25%。该模型开发过程中,OpenAI与英伟达展开了合作,基于GB200 NVL72系统设计、训练和部署。

二、推出企业级智能体平台,惠普、Uber已经用上了

在智能体平台方面,OpenAI今天发布的Frontier,要做的是帮助企业构建、部署并管理真正能干活的智能体。

OpenAI认为,当前企业在推进AI应用时面临严重的数据与系统碎片化挑战。智能体虽然被广泛部署,却因缺乏跨系统的全局视野和上下文而难以发挥实效,导致模型能力与实际部署之间存在巨大的“机会鸿沟”。

要打造能干活的智能体,OpenAI的思路是赋予智能体与人类在工作中所需的同款能力。Frontier像培养人类员工一样,为AI同事提供系统化的“入职”支持。

比如,Frontier会让智能体理解跨系统的业务流程、获取执行任务所需的工具与权限、学会判断工作质量,并在明确的安全边界内运作。该平台可与现有系统和数据集成,支持智能体通过多种界面融入工作。


Frontier的核心能力包括连接企业内部数据与应用,构建统一的业务语义层;提供开放的智能体执行环境,支持规划、操作与学习;内置评估优化机制,使AI能持续从经验中提升质量;同时确保企业级安全治理,为每个智能体设定身份、权限与防护边界。

为了让企业更方便地管理智能体,Frontier提供了概览界面,在这里可以看到活跃的智能体数量,这些智能体完成了多少任务,又用掉了多少额度。


此外,OpenAI还会派驻工程师与客户团队协作,将实践经验与研究反馈相结合,加速落地进程。已有不少大型企业客户采用了Frontier,比如惠普、Intuit、甲骨文、State Farm、赛默飞(Thermo Fisher)、Uber等等。

结语:OpenAI押注“AI劳动力”

这次发布中,OpenAI将其主要精力都放在了AI的生产力与落地能力上。无论是GPT-5.3-Codex在编程、软件工程全流程和计算机使用能力上的强化,还是Frontier试图为企业补齐“能干活的智能体”这一关键拼图,都指向同一个方向,也就是AI真正走进生产环境,成为可以被管理、被信任、被规模化使用的劳动力。

如何在持续加码企业级智能体和生产力场景的同时,维持开发者与普通用户的信任感与参与感,如何在ToB的长期布局与ToC的广泛影响力之间找到平衡,或许将成为OpenAI接下来一段时间里必须回答的关键问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

虎哥闲聊
2026-03-26 12:06:24
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
谈判姿态只是烟雾弹?美国被曝计划向伊朗增派精锐部队第82空降师

谈判姿态只是烟雾弹?美国被曝计划向伊朗增派精锐部队第82空降师

澎湃新闻
2026-03-25 17:18:26
油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

沙雕小琳琳
2026-03-26 10:31:28
NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

醉卧浮生
2026-03-25 23:03:44
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
41岁张雪峰离世,峰学蔚来接班人正式浮出水面

41岁张雪峰离世,峰学蔚来接班人正式浮出水面

秋姐居
2026-03-25 17:02:04
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
800万粉网红挖机小何彻底凉凉?挖机遭厂家回收,流量密码没了

800万粉网红挖机小何彻底凉凉?挖机遭厂家回收,流量密码没了

雷科技
2026-03-24 14:32:17
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

大风新闻
2026-03-26 18:09:04
简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

史行途
2026-03-26 07:36:04
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
2026-03-26 18:31:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11434文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
家居
本地
公开课
军事航空

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版