网易首页 > 网易号 > 正文 申请入驻

AI编程大战打响!OpenAI推出GPT-5.3-Codex,与Anthropic同步发布新模型

0
分享至

OpenAI周四发布GPT-5.3-Codex。该公司称,这是迄今为止能力最强的编程代理。值得注意的是,此次发布的时间点被精准安排在Anthropic推出其旗舰模型升级版Claude Opus 4.6的同一时刻。媒体称,两大模型同步亮相,被业内观察人士视为“AI编程大战”的第一枪——这是一场围绕企业级软件开发市场展开的高风险争夺战。

OpenAI首席执行官Sam Altman在模型发布几分钟后就在X上写道:

“我非常喜欢用这个模型来开发,它带来的进步感受,远远超过基准测试所显示的幅度。”
“看着我们用5.3-Codex来开发5.3-Codex,从而把发布速度提升到这么快,真的令人震撼,这毫无疑问预示着未来的发展方向。”

媒体表示,模型本身参与了自身的构建,被视为AI发展中的一个重要里程碑。根据OpenAI的公告,Codex团队使用GPT-5.3-Codex的早期版本来调试自身的训练过程、管理部署基础设施,并诊断测试结果和评估情况。OpenAI将其称为“我们首个在自身创建过程中发挥关键作用的模型”。

GPT-5.3-Codex多项基准成绩领先Claude达到两位数

OpenAI表示,新模型在多项行业基准测试中实现了显著提升。GPT-5.3-Codex在SWE-Bench Pro上取得了57%的成绩。SWE-Bench Pro是一项极为严格的真实世界软件工程评测,涵盖四种编程语言,重点考察抗数据污染、具有工业相关性的挑战。


该模型在Terminal-Bench 2.0上得分77.3%,这一基准主要衡量编程代理所必需的终端操作能力;在OSWorld上得分64%,该测试要求模型在可视化桌面环境中完成生产力任务,是一项强调“代理式”计算机使用能力的评估。

其中,Terminal-Bench 2.0的结果尤为引人注目。根据周三公布的性能数据,GPT-5.3-Codex的得分为77.3%,而GPT-5.2-Codex为64.0%,基础版GPT-5.2模型为62.2%。也就是说,仅一代升级,成绩就提升了13个百分点。一位X平台用户指出,这一成绩“彻底碾压”了Anthropic的Opus 4.6,后者据称在同一基准上的得分为65.4%。


OpenAI还表示,新模型是在效率大幅提升的情况下实现上述成绩的:在完成同等任务时,所需token数量不到上一代模型的一半,同时单个token的推理速度提升超过25%。

OpenAI在公告中称:

“值得注意的是,GPT-5.3-Codex在使用的token数量上低于任何此前模型,这让用户能够做更多事情。”
从编程助手到编程操作者

相比基准测试的提升,更重要的是OpenAI对GPT-5.3-Codex的定位。该公司明确表示:

“Codex正从一个只能编写和审查代码的代理,进化为一个几乎可以完成开发者和专业人士在电脑上所做任何事情的代理。”

这一能力扩展涵盖了调试、部署、监控、撰写产品需求文档、编辑文案、开展用户研究、制作演示文稿,以及在电子表格应用中分析数据等。该模型在GDPVal评估中表现突出。GDPVal是OpenAI于2025年发布的一项评估,用于衡量模型在44种职业中、对定义明确的知识型工作任务的完成能力。

分析认为,这一扩展信号表明,OpenAI的目标不仅是开发者工具市场,还包括更广泛的企业生产力软件领域。该市场的既有玩家包括Microsoft、Salesforce和ServiceNow,这些公司都在加速将AI代理嵌入自身平台。

OpenAI首个“高能力”网络安全模型

向通用计算能力的转变,也带来了新的安全考量。OpenAI表示,GPT-5.3-Codex是其首个在“准备度框架”下,被归类为在网络安全相关任务上具备“高能力”的模型,同时也是首个被直接训练用于识别软件漏洞的模型。

OpenAI表示:“尽管我们尚未发现它可以端到端自动化网络攻击的确凿证据,但我们采取了审慎策略,部署了迄今为止最全面的网络安全防护体系。”相关措施包括双用途安全训练、自动化监控、对高级能力实行可信访问机制,以及结合威胁情报的执行管线。

Altman也在X上强调了这一进展:

“这是我们首个在准备度框架中,网络安全能力达到‘高’级别的模型。我们正在试点可信访问框架,并承诺投入1000万美元的API额度,用于加速网络防御。”

此外,OpenAI还在扩大其安全研究代理Aardvark的私有测试,并与开源维护者合作,为广泛使用的项目提供免费的代码库扫描。OpenAI以Next.js为例,称一名安全研究人员上周就曾使用Codex发现并披露了相关漏洞。

同日同时发布最新模型,OpenAI与Anthropic的竞争白热化

不过,该公司网络安全方面的宣布,很快被OpenAI与Anthropic之间的对抗所掩盖。媒体表示,若脱离背景,很难理解周四这一发布时间点的意义。

Anthropic是一家以AI安全为核心的初创公司,成立于2021年,由多名前OpenAI研究人员创办,其中包括Dario Amodei和Daniela Amodei。

两家公司都将重大产品发布安排在当天美西时间上午10点。Anthropic发布了Claude Opus 4.6,并将其描述为“最聪明的模型”,称其“规划更谨慎、能更长时间持续执行代理式任务、在超大型代码库中运行可靠,并且能够发现并纠正自身错误”。

而这一正面交锋的背后,是一周不断升级的紧张关系。Anthropic宣布,将在超级碗期间播出广告,嘲讽OpenAI近期开始在ChatGPT免费用户中测试广告的决定。

Altman随后作出罕见的直接回应,在一篇长篇X帖中称这些广告“好笑”,但“明显不诚实”。

Altman写道:

“我们显然永远不会像Anthropic广告中描绘的那样投放广告。我们并不愚蠢,也知道用户绝不会接受那种做法。”
“我想这倒是很符合Anthropic一贯的‘双重话术’风格,用一个具有误导性的广告,去批评根本不存在的、理论上的误导性广告,但超级碗广告并不是我预期会看到这种事情的地方。”

他进一步将Anthropic形容为一家“威权式公司”,称其“想要控制人们如何使用AI”。

Altman写道:

“Anthropic向富人提供昂贵的产品。使用ChatGPT免费版的德州人数量,比美国使用Claude的总人数还要多,所以我们面临的是完全不同形态的问题。”
企业AI支出远超预期,OpenAI市场份额面临Anthropic与谷歌挤压

公开的口水战背后,是一场极其严肃的商业竞争。这一对抗发生在企业级AI应用爆发式增长的大背景下,双方都在争夺一个迅速扩张的市场。

根据Andreessen Horowitz本周发布的调查数据,企业在大语言模型上的支出,已经大幅超过此前即便相当乐观的预测。2025年,企业平均在LLM上的支出达到700万美元,较2024年实际支出的250万美元高出180%,也比企业在一年前对2025年的预测高出56%。预计到2026年,单个企业的支出将达到1160万美元,再增长65%。

a16z的数据还揭示了市场格局的变化。OpenAI仍然占据企业AI支出中最大的份额,但这一份额正在缩小——从2024年的62%,下降至预计2026年的53%。同期,Anthropic的份额从14%上升至预计18%,Google也呈现出类似的增长趋势。

在企业使用模式上,情况更加微妙。虽然OpenAI在总体使用量上领先,但在接受调查的OpenAI客户中,只有46%在生产环境中使用其最强模型;而Anthropic和Google这一比例分别为75%和76%。如果将测试环境也计算在内,89%的Anthropic客户正在测试或使用其最强模型,这一比例在主要厂商中最高。

在软件开发这一双方编程代理的核心应用场景中,a16z调查显示,OpenAI的市场份额约为35%,而Anthropic则占据了剩余市场中相当可观、且持续增长的一部分。

OpenAI承诺未来数周推出更多Codex功能

展望未来,OpenAI表示,GPT-5.3-Codex已立即向付费ChatGPT用户开放,覆盖所有Codex使用场景,包括桌面应用、命令行接口、IDE扩展和网页端,API接口预计随后推出。

该模型还加入了一项新的交互功能:用户可以在“务实型”和“友好型”两种性格之间进行选择。Altman表示,用户对这一点有着强烈偏好。在更实质性的层面上,模型在执行任务过程中会频繁提供进度更新,允许用户实时互动、提问、讨论思路,并在不丢失上下文的情况下引导解决方案。

OpenAI表示:

“你不再需要等待最终结果,而是可以实时互动。GPT-5.3-Codex会讲清楚它正在做什么,响应反馈,并从头到尾让你保持知情。”

公司承诺,未来几周还将推出更多能力。Altman直言:“我相信Codex会赢。”

他在回应Anthropic时,用一句颇具哲学意味的话为这场竞争定调:

“这个时代,属于建设者,而不属于那些想要控制他们的人。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
俄乌战争四年多,回头看看他们当初说的假话

俄乌战争四年多,回头看看他们当初说的假话

涛哥锐评
2026-03-26 17:47:45
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

快科技
2026-03-24 22:46:04
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
2026-03-26 19:27:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143563文章数 2653026关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
手机
本地
数码
军事航空

艺术要闻

哪一座桥不是风景?

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版