网易首页 > 网易号 > 正文 申请入驻

AI编程大战打响!OpenAI推出GPT-5.3-Codex,与Anthropic同步发布新模型

0
分享至

OpenAI周四发布GPT-5.3-Codex。该公司称,这是迄今为止能力最强的编程代理。值得注意的是,此次发布的时间点被精准安排在Anthropic推出其旗舰模型升级版Claude Opus 4.6的同一时刻。媒体称,两大模型同步亮相,被业内观察人士视为“AI编程大战”的第一枪——这是一场围绕企业级软件开发市场展开的高风险争夺战。

OpenAI首席执行官Sam Altman在模型发布几分钟后就在X上写道:

“我非常喜欢用这个模型来开发,它带来的进步感受,远远超过基准测试所显示的幅度。”
“看着我们用5.3-Codex来开发5.3-Codex,从而把发布速度提升到这么快,真的令人震撼,这毫无疑问预示着未来的发展方向。”

媒体表示,模型本身参与了自身的构建,被视为AI发展中的一个重要里程碑。根据OpenAI的公告,Codex团队使用GPT-5.3-Codex的早期版本来调试自身的训练过程、管理部署基础设施,并诊断测试结果和评估情况。OpenAI将其称为“我们首个在自身创建过程中发挥关键作用的模型”。

GPT-5.3-Codex多项基准成绩领先Claude达到两位数

OpenAI表示,新模型在多项行业基准测试中实现了显著提升。GPT-5.3-Codex在SWE-Bench Pro上取得了57%的成绩。SWE-Bench Pro是一项极为严格的真实世界软件工程评测,涵盖四种编程语言,重点考察抗数据污染、具有工业相关性的挑战。


该模型在Terminal-Bench 2.0上得分77.3%,这一基准主要衡量编程代理所必需的终端操作能力;在OSWorld上得分64%,该测试要求模型在可视化桌面环境中完成生产力任务,是一项强调“代理式”计算机使用能力的评估。

其中,Terminal-Bench 2.0的结果尤为引人注目。根据周三公布的性能数据,GPT-5.3-Codex的得分为77.3%,而GPT-5.2-Codex为64.0%,基础版GPT-5.2模型为62.2%。也就是说,仅一代升级,成绩就提升了13个百分点。一位X平台用户指出,这一成绩“彻底碾压”了Anthropic的Opus 4.6,后者据称在同一基准上的得分为65.4%。


OpenAI还表示,新模型是在效率大幅提升的情况下实现上述成绩的:在完成同等任务时,所需token数量不到上一代模型的一半,同时单个token的推理速度提升超过25%。

OpenAI在公告中称:

“值得注意的是,GPT-5.3-Codex在使用的token数量上低于任何此前模型,这让用户能够做更多事情。”
从编程助手到编程操作者

相比基准测试的提升,更重要的是OpenAI对GPT-5.3-Codex的定位。该公司明确表示:

“Codex正从一个只能编写和审查代码的代理,进化为一个几乎可以完成开发者和专业人士在电脑上所做任何事情的代理。”

这一能力扩展涵盖了调试、部署、监控、撰写产品需求文档、编辑文案、开展用户研究、制作演示文稿,以及在电子表格应用中分析数据等。该模型在GDPVal评估中表现突出。GDPVal是OpenAI于2025年发布的一项评估,用于衡量模型在44种职业中、对定义明确的知识型工作任务的完成能力。

分析认为,这一扩展信号表明,OpenAI的目标不仅是开发者工具市场,还包括更广泛的企业生产力软件领域。该市场的既有玩家包括Microsoft、Salesforce和ServiceNow,这些公司都在加速将AI代理嵌入自身平台。

OpenAI首个“高能力”网络安全模型

向通用计算能力的转变,也带来了新的安全考量。OpenAI表示,GPT-5.3-Codex是其首个在“准备度框架”下,被归类为在网络安全相关任务上具备“高能力”的模型,同时也是首个被直接训练用于识别软件漏洞的模型。

OpenAI表示:“尽管我们尚未发现它可以端到端自动化网络攻击的确凿证据,但我们采取了审慎策略,部署了迄今为止最全面的网络安全防护体系。”相关措施包括双用途安全训练、自动化监控、对高级能力实行可信访问机制,以及结合威胁情报的执行管线。

Altman也在X上强调了这一进展:

“这是我们首个在准备度框架中,网络安全能力达到‘高’级别的模型。我们正在试点可信访问框架,并承诺投入1000万美元的API额度,用于加速网络防御。”

此外,OpenAI还在扩大其安全研究代理Aardvark的私有测试,并与开源维护者合作,为广泛使用的项目提供免费的代码库扫描。OpenAI以Next.js为例,称一名安全研究人员上周就曾使用Codex发现并披露了相关漏洞。

同日同时发布最新模型,OpenAI与Anthropic的竞争白热化

不过,该公司网络安全方面的宣布,很快被OpenAI与Anthropic之间的对抗所掩盖。媒体表示,若脱离背景,很难理解周四这一发布时间点的意义。

Anthropic是一家以AI安全为核心的初创公司,成立于2021年,由多名前OpenAI研究人员创办,其中包括Dario Amodei和Daniela Amodei。

两家公司都将重大产品发布安排在当天美西时间上午10点。Anthropic发布了Claude Opus 4.6,并将其描述为“最聪明的模型”,称其“规划更谨慎、能更长时间持续执行代理式任务、在超大型代码库中运行可靠,并且能够发现并纠正自身错误”。

而这一正面交锋的背后,是一周不断升级的紧张关系。Anthropic宣布,将在超级碗期间播出广告,嘲讽OpenAI近期开始在ChatGPT免费用户中测试广告的决定。

Altman随后作出罕见的直接回应,在一篇长篇X帖中称这些广告“好笑”,但“明显不诚实”。

Altman写道:

“我们显然永远不会像Anthropic广告中描绘的那样投放广告。我们并不愚蠢,也知道用户绝不会接受那种做法。”
“我想这倒是很符合Anthropic一贯的‘双重话术’风格,用一个具有误导性的广告,去批评根本不存在的、理论上的误导性广告,但超级碗广告并不是我预期会看到这种事情的地方。”

他进一步将Anthropic形容为一家“威权式公司”,称其“想要控制人们如何使用AI”。

Altman写道:

“Anthropic向富人提供昂贵的产品。使用ChatGPT免费版的德州人数量,比美国使用Claude的总人数还要多,所以我们面临的是完全不同形态的问题。”
企业AI支出远超预期,OpenAI市场份额面临Anthropic与谷歌挤压

公开的口水战背后,是一场极其严肃的商业竞争。这一对抗发生在企业级AI应用爆发式增长的大背景下,双方都在争夺一个迅速扩张的市场。

根据Andreessen Horowitz本周发布的调查数据,企业在大语言模型上的支出,已经大幅超过此前即便相当乐观的预测。2025年,企业平均在LLM上的支出达到700万美元,较2024年实际支出的250万美元高出180%,也比企业在一年前对2025年的预测高出56%。预计到2026年,单个企业的支出将达到1160万美元,再增长65%。

a16z的数据还揭示了市场格局的变化。OpenAI仍然占据企业AI支出中最大的份额,但这一份额正在缩小——从2024年的62%,下降至预计2026年的53%。同期,Anthropic的份额从14%上升至预计18%,Google也呈现出类似的增长趋势。

在企业使用模式上,情况更加微妙。虽然OpenAI在总体使用量上领先,但在接受调查的OpenAI客户中,只有46%在生产环境中使用其最强模型;而Anthropic和Google这一比例分别为75%和76%。如果将测试环境也计算在内,89%的Anthropic客户正在测试或使用其最强模型,这一比例在主要厂商中最高。

在软件开发这一双方编程代理的核心应用场景中,a16z调查显示,OpenAI的市场份额约为35%,而Anthropic则占据了剩余市场中相当可观、且持续增长的一部分。

OpenAI承诺未来数周推出更多Codex功能

展望未来,OpenAI表示,GPT-5.3-Codex已立即向付费ChatGPT用户开放,覆盖所有Codex使用场景,包括桌面应用、命令行接口、IDE扩展和网页端,API接口预计随后推出。

该模型还加入了一项新的交互功能:用户可以在“务实型”和“友好型”两种性格之间进行选择。Altman表示,用户对这一点有着强烈偏好。在更实质性的层面上,模型在执行任务过程中会频繁提供进度更新,允许用户实时互动、提问、讨论思路,并在不丢失上下文的情况下引导解决方案。

OpenAI表示:

“你不再需要等待最终结果,而是可以实时互动。GPT-5.3-Codex会讲清楚它正在做什么,响应反馈,并从头到尾让你保持知情。”

公司承诺,未来几周还将推出更多能力。Altman直言:“我相信Codex会赢。”

他在回应Anthropic时,用一句颇具哲学意味的话为这场竞争定调:

“这个时代,属于建设者,而不属于那些想要控制他们的人。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
平型关战日军辎重队伤亡惨重,因队藏五百精兵且六千援军将至

平型关战日军辎重队伤亡惨重,因队藏五百精兵且六千援军将至

唠叨说历史
2026-01-26 15:07:49
只差一场,米尔纳将追平巴里保持的英超历史出场纪录

只差一场,米尔纳将追平巴里保持的英超历史出场纪录

懂球帝
2026-02-06 01:22:40
金兀术全族 70 余口被斩尽杀绝,历史的清算从不会缺席

金兀术全族 70 余口被斩尽杀绝,历史的清算从不会缺席

岸卡卡
2026-02-03 23:15:15
负债百万、露宿街头、装疯卖傻,星光大道的草根歌手现状太落魄

负债百万、露宿街头、装疯卖傻,星光大道的草根歌手现状太落魄

冷紫葉
2026-02-02 17:07:15
加拿大鹅股票延续跌势,跌幅已达21%

加拿大鹅股票延续跌势,跌幅已达21%

每日经济新闻
2026-02-05 21:54:12
网红“神药”更新说明书:可能影响性功能

网红“神药”更新说明书:可能影响性功能

南方都市报
2026-02-06 09:29:02
研究发现:高血压的人若经常喝白酒,不用多长时间,或有5变化

研究发现:高血压的人若经常喝白酒,不用多长时间,或有5变化

蜉蝣说
2026-01-15 11:02:52
不了解五代十国,还怎么看懂《太平年》?

不了解五代十国,还怎么看懂《太平年》?

混知
2026-01-27 15:08:47
2003年廊坊械斗命案:臧天朔被捕后才知,原来当初自己那么愚蠢

2003年廊坊械斗命案:臧天朔被捕后才知,原来当初自己那么愚蠢

芳芳历史烩
2026-01-15 13:57:57
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
一夜十笔交易汇总:湖人2换1获肯纳德 快船交易祖巴茨字母哥留队

一夜十笔交易汇总:湖人2换1获肯纳德 快船交易祖巴茨字母哥留队

追球者
2026-02-06 04:04:03
首波反制已出,中方停止交易?巴政府尝到恶果,数十亿投资恐中断

首波反制已出,中方停止交易?巴政府尝到恶果,数十亿投资恐中断

霁寒飘雪
2026-02-05 22:44:12
0-3!国安旧将首秀球队惨败,5平15负濒临降级,葡萄牙人为钱而战

0-3!国安旧将首秀球队惨败,5平15负濒临降级,葡萄牙人为钱而战

体坛鉴春秋
2026-02-06 10:22:30
美国切断古巴石油供应,同时也加大援助力度,遭古巴批评虚伪至极

美国切断古巴石油供应,同时也加大援助力度,遭古巴批评虚伪至极

土澳的故事
2026-02-06 11:06:10
“换手率”是A股唯一不骗人的指标,一旦大于20%就是主力叫你进场

“换手率”是A股唯一不骗人的指标,一旦大于20%就是主力叫你进场

股经纵横谈
2025-11-01 21:02:39
太阳报:格拉斯哥流浪者球员曝性丑闻,借理疗订房私会出轨

太阳报:格拉斯哥流浪者球员曝性丑闻,借理疗订房私会出轨

情感大头说说
2026-02-06 11:39:52
70%加州人反对里程税!加州议会无视民意通过

70%加州人反对里程税!加州议会无视民意通过

大洛杉矶LA
2026-02-06 06:08:08
WTA克卢日·纳波卡站:袁悦错失发球胜赛局止步八强

WTA克卢日·纳波卡站:袁悦错失发球胜赛局止步八强

全网球APP
2026-02-06 11:25:26
抱紧美日大腿,停飞中国航班、拒绝中国游客的小国,如今怎样了?

抱紧美日大腿,停飞中国航班、拒绝中国游客的小国,如今怎样了?

古史青云啊
2025-12-28 11:51:28
博鳌-上海航班上,一旅客突发疾病,幸好同机有三名瑞金医院医护人员……

博鳌-上海航班上,一旅客突发疾病,幸好同机有三名瑞金医院医护人员……

上观新闻
2026-02-06 10:29:09
2026-02-06 12:12:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141344文章数 2652448关注度
往期回顾 全部

科技要闻

微信封禁元宝红包后,又把阿里千问封了

头条要闻

特朗普发文支持高市早苗选举 宣布其将于3月19日访美

头条要闻

特朗普发文支持高市早苗选举 宣布其将于3月19日访美

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

很意外,美债危机要化解了

汽车要闻

标配华为乾崑解决方案 华境S完成六座满载冬测

态度原创

教育
本地
家居
健康
公开课

教育要闻

中央农办明确!保留并办好必要的乡村小规模学校

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

现代轻奢 温馨治愈系

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版