网易首页 > 网易号 > 正文 申请入驻

GPT-5.3-Codex刷新多项AI编程基准成绩

0
分享至

AIPress.com.cn报道

OpenAI 近日正式发布 GPT-5.3-Codex,这是其迄今为止最先进的代码专用 AI 代理模型。OpenAI 表示,该模型在性能与响应速度上均较上一代 GPT-5.2-Codex 实现显著提升,面向专业软件开发和工程级工作流设计。

在性能方面,GPT-5.3-Codex 在多项权威基准测试中取得新纪录。在 SWE-bench Pro(Public)测试中,该模型准确率达到 56.8%。该基准主要用于评估模型在多语言软件工程任务中的综合能力,被视为衡量代码代理实用性的核心指标之一。

提升最为明显的体现在 Terminal-Bench 2.0 上。这一基准重点评估模型在终端环境中执行命令、完成系统级操作的能力。GPT-5.3-Codex 在该测试中的成绩从上一代的 64.0% 提升至 77.3%,显示其在真实开发环境下的操作稳定性和执行准确性明显增强。

此外,在 OSWorld-Verified 基准测试中,GPT-5.3-Codex 取得 64.7% 的成绩。该测试衡量模型结合计算机视觉完成桌面级任务的能力,其得分已接近人类平均水平(72%),并显著高于上一代模型的 38.2%。


在产品功能上,OpenAI 为 Codex 应用引入了新的“指导(guidance)”能力,使开发者可以在模型执行复杂工程任务的过程中进行实时交互,包括调整方向、补充信息以及协同调试。这一机制旨在避免传统代码生成过程中上下文中断的问题,使模型更贴近真实开发协作流程。

在底层基础设施方面,GPT-5.3-Codex 的训练和部署运行在 NVIDIA GB200 NVL72 系统之上。OpenAI 表示,该系统体现了其与 NVIDIA 的协同设计成果,重点优化推理性能,并在复杂任务中降低 token 使用成本。

在安全与合规层面,OpenAI 在其 Preparedness Framework 中将 GPT-5.3-Codex 归类为“高能力(High Capability)”模型,尤其是在生物安全和网络安全相关任务中。该模型接受了针对软件漏洞识别的专项训练,并配套实施了更严格的自动化监控机制和受控访问策略,用于防御性研究用途。

整体来看,GPT-5.3-Codex 被 OpenAI 视为从“代码助手”向“自主工程代理”转变的重要节点,其核心特征包括更低延迟、更强的多语言工程能力,以及跨环境执行复杂任务的能力。(AI普瑞斯编译)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
路人偶遇王祖蓝!这才是最标准的职业假笑!也太搞笑了吧!

路人偶遇王祖蓝!这才是最标准的职业假笑!也太搞笑了吧!

TVB的四小花
2026-03-03 06:37:04
全国人大代表罗天:建议将丧假适用对象从直系亲属扩大至手足、配偶的直系亲属等

全国人大代表罗天:建议将丧假适用对象从直系亲属扩大至手足、配偶的直系亲属等

红星新闻
2026-03-04 22:54:05
一到半夜就嗷嗷叫,房子隔音差,到底怎么办?

一到半夜就嗷嗷叫,房子隔音差,到底怎么办?

绘本家居
2026-03-03 11:34:44
全国政协委员施乾平:应在海外重点地区试点设立“中国籍人员子女学校”

全国政协委员施乾平:应在海外重点地区试点设立“中国籍人员子女学校”

经济观察报
2026-03-05 08:56:05
天一广场要改造!宁波人慌了:别再把市中心改成 “没人去” 的样子!

天一广场要改造!宁波人慌了:别再把市中心改成 “没人去” 的样子!

据说说娱乐
2026-03-05 11:39:22
接受国民党征召参选花莲县长,游淑贞返回选区获民众热情迎接

接受国民党征召参选花莲县长,游淑贞返回选区获民众热情迎接

海峡导报社
2026-03-05 11:34:03
一碗“剥皮蓝莓”,诠释了低学历生娃的尴尬,光使劲不动脑子

一碗“剥皮蓝莓”,诠释了低学历生娃的尴尬,光使劲不动脑子

泽泽先生
2026-03-03 21:42:49
人前光鲜人后心酸!央媒揭开周深"真实处境",真让韩红预判了

人前光鲜人后心酸!央媒揭开周深"真实处境",真让韩红预判了

小熊侃史
2026-03-04 14:06:05
伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

环球网资讯
2026-03-03 07:00:20
万科前董事长郁亮曾两次拒绝王石

万科前董事长郁亮曾两次拒绝王石

地产微资讯
2026-03-04 08:40:10
吓!上海一女子从三楼窗户掉落!摔在二楼平台处!受伤无法移动…

吓!上海一女子从三楼窗户掉落!摔在二楼平台处!受伤无法移动…

上海圈
2026-03-04 18:20:37
上海31所本科高校最新排名:上交复旦并列第1,上海电力第20!

上海31所本科高校最新排名:上交复旦并列第1,上海电力第20!

高三倒计时
2026-03-03 17:50:12
对阵勇士,火箭队恐6人缺阵!内线3高塔全伤,替补2老将机会来了

对阵勇士,火箭队恐6人缺阵!内线3高塔全伤,替补2老将机会来了

熊哥爱篮球
2026-03-05 13:16:28
反转了!美军3架F-15E不是爱国者打的,居然是空对空被击落

反转了!美军3架F-15E不是爱国者打的,居然是空对空被击落

冷眼看尽世间繁华
2026-03-05 13:15:56
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
对伊朗开战,源于特朗普的一系列失败。

对伊朗开战,源于特朗普的一系列失败。

你是我心中最美星空
2026-03-04 07:00:32
挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

妙知
2026-02-18 11:48:10
美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

梦史
2026-03-04 18:05:52
终于来了,苹果发布 iOS 26.3.1 正式版!

终于来了,苹果发布 iOS 26.3.1 正式版!

花果科技
2026-03-05 08:37:17
没有几个大学老师能活着走出这些图

没有几个大学老师能活着走出这些图

超级数学建模
2026-03-04 22:30:59
2026-03-05 14:27:00
鞭牛士 incentive-icons
鞭牛士
准确、快速、有深度的科技媒体
104491文章数 61697关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

伊朗女校遭袭被传是"伊朗误炸" 媒体核查

头条要闻

伊朗女校遭袭被传是"伊朗误炸" 媒体核查

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

艺术
时尚
手机
公开课
军事航空

艺术要闻

2026年“浩瀚草原 亮丽北疆”美展

打底衫,条纹的最适合春天!

手机要闻

9.08mm做到10001mAh:真我王硕揭晓Narzo Power 5G手机电池技术

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗首次使用"哈迪德110"高速无人机

无障碍浏览 进入关怀版