从编程助手到通用智能体：GPT-5.3-Codex 如何接管开发全流程！|计算机|应用程序|正式版模型

分享至

点击下方“JavaEdge”，选择“设为星标”

第一时间关注技术干货！

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

魔都架构师 | 全网30W技术追随者
大厂分布式系统/数据中台实战专家
主导交易系统百万级流量调优 & 车联网平台架构
AIGC应用开发先行者 | 区块链落地实践者
以技术驱动创新，我们的征途是改变世界！
实战干货：编程严选网

0 前言

让 Codex 深度融入你的电脑工作流，覆盖更广泛的专业场景，实现能力的全面延展。

全新模型 GPT-5.3-Codex 正式登场。这是迄今为止能力最强的智能体编程模型——融合了 GPT-5.2-Codex 的前沿代码生成与工程能力，以及 GPT-5.2 的高阶推理与专业知识体系，并在此基础上实现 25% 的运行效率提升。它不仅擅长编写与审阅代码，更能承担涉及研究分析、工具调用、复杂执行路径的长期任务。

GPT-5.3-Codex 支持持续交互式协作。在模型运行复杂任务时，你可以实时引导、调整方向或补充信息，而无需担心上下文丢失，体验更接近真实团队协作。

值得注意的是，这是 OpenAI 首个在自身研发流程中发挥关键作用的模型。Codex 团队利用其早期版本参与调试训练流程、优化部署体系、分析测试与评估结果。模型对自身开发过程的加速效应显著，极大缩短了迭代周期。

借助 GPT-5.3-Codex，Codex 已从单一的代码生成与审查工具，进化为能够承担开发者及专业人士在计算机上几乎所有核心工作的综合型智能体平台。

1 前沿智能体能力

在 SWE-Bench Pro 和 Terminal-Bench 上创下了行业新高，并在 OSWorld 和 GDPval 上表现强劲。衡量编程、智能体能力以及真实世界处理能力的工具。

1.1 编码

在 SWE-Bench Pro 上，GPT-5.3-Codex 达到了当前最先进（state-of-the-art）水平。该基准专门用于评估模型在真实世界软件工程任务中的综合能力，涵盖问题定位、代码修改、依赖管理与测试修复等完整流程。

相比之下，SWE-Bench Verified 仅覆盖 Python 生态，而 SWE-Bench Pro 扩展至四种主流编程语言，并在数据防污染设计、任务复杂度、多样性与工程真实性方面均进行了强化，更贴近实际生产环境的需求。因此，其成绩更具代表性与含金量。

在 Terminal-Bench 2.0 上，GPT-5.3-Codex 同样刷新了既有记录。该基准主要衡量编程智能体在终端环境中的操作能力，包括命令组合、环境配置、工具链使用与多步骤执行控制等关键技能，这正是构建工程级智能体不可或缺的核心能力。

值得强调的是，GPT-5.3-Codex 在取得上述成绩的同时，Token 消耗显著低于此前模型。这意味着更高的计算效率与更低的推理成本，使用户在相同资源预算下能够完成更多任务与构建更复杂的系统。

1.2 Web 开发

结合前沿的编程能力、审美水平的提升以及模型压缩技术，该模型能够完成令人惊叹的工作，可以在几天时间内从零开始构建功能高度复杂的游戏和应用程序。

与 GPT‑5.2-Codex 相比，在要求构建日常网站时，GPT‑5.3-Codex 也能更好地理解你的意向。对于简单或描述不详的提示，模型现在会默认生成功能更全、预设更合理的网站，为你提供更强大的初始画布来将创意变为现实。

1.3 超越编程

软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。GPT‑5.3-Codex 旨在支持软件生命周期中的所有工作，包括调试、部署、监控、编写公关需求文档 (PRD)、编辑文案、用户研究、测试、指标分析等。它的智能体能力不仅限于软件，还能帮助你构建任何想要的东西，无论是演示文稿还是分析表格中的数据。

通过使用类似于OpenAI之前 GDP⁠val⁠ 测试中所用的自定义技能，GPT‑5.3-Codex 在专业知识型工作方面也表现强劲。根据 GDPval 的衡量，其表现与 GPT‑5.2 持平。GDPval 是 OpenAI 在 2025 年发布的一项评估，旨在衡量模型在 44 种职业中明确定义的知识型工作任务上的表现。这些任务包括制作演示文稿、电子表格以及其他工作产出。

OSWorld 是一个智能体计算机使用基准测试，要求智能体在视觉桌面计算机环境中完成办公生产任务。GPT‑5.3-Codex 展示了远强于以往 GPT 模型的计算机使用能力。

在 OSWorld-Verified 中，模型通过视觉能力来完成多样化的计算机任务。人类得分约为 72%。

综合来看，在编程、前端、计算机使用以及真实世界任务中的这些结果表明，GPT‑5.3-Codex 不仅仅是在单个任务上表现更强，它标志着向单一、通用的智能体迈出了关键一步 — 这种智能体能够在全方位的真实世界技术工作中进行推理、构建和执行。

2 交互式协作伙伴

随着模型能力变得愈发强大，差距已从“智能体能做什么”转向“人类如何轻松地针对多个并行工作的智能体进行交互、引导和监督”。Codex 应用让管理和引导智能体变得更加简单，而现在配合 GPT‑5.3-Codex，交互性得到了进一步提升。通过这一新模型，Codex 会提供频繁的状态更新，让你在它工作时随时掌握关键决策和进展。你无需等待最终输出，而是可以进行实时交互 — 提出问题、讨论方案并引导其走向解决方案。GPT‑5.3-Codex 会详述其正在执行的操作，响应反馈，并让你全程参与其中。

在应用中运行模型时，可前往“设置 > 通用 > 后续行为”启用引导功能。

3 利用 Codex 训练并部署 GPT‑5.3-Codex

Codex 近期实现的快速进步，建立在 OpenAI 各个团队跨越数月乃至数年的研究项目成果之上。这些研究项目正由 Codex 加速推动；OpenAI 的许多研究员和工程师表示，他们如今的工作性质与短短两个月前相比已发生了根本性的变化。即使是 GPT‑5.3-Codex 的早期版本，也展现出了卓越的能力，使OpenAI的团队能够利用这些早期版本来改进训练，并支持后续版本的部署工作。

Codex 可用于极其广泛的任务，以至于很难完全列举它帮助OpenAI团队的所有方式。举例来说，研究团队利用 Codex 监控并调试了本次发布的训练运行。它对研究的加速不仅限于调试基础设施问题：它还帮助追踪了整个训练过程中的模式，对交互质量进行了深度分析，提出了修复方案，并为人类研究员构建了功能丰富的应用程序，以便精确了解该模型的行为与以往模型相比有何差异。

工程团队利用 Codex 优化并调整了 GPT‑5.3-Codex 的测试框架 (harness)。当OpenAI开始发现影响用户的奇特边缘案例时，团队成员利用 Codex 识别出了上下文渲染中的漏洞，并找到了导致低缓存命中率的根本原因。在整个发布过程中，GPT‑5.3-Codex 持续帮助团队动态缩放 GPU 集群，以应对流量激增并保持延迟稳定。

在 Alpha 测试期间，一位研究员想要了解 GPT‑5.3-Codex 在每轮对话中多完成了多少工作，以及相关的生产力差异。GPT‑5.3-Codex 构思了几个简单的正则表达式分类器，用以评估澄清请求、用户正向与负面反馈以及任务进展的频率；随后，它将这些分类器在大规模会话日志上运行，并生成了一份带有结论的报告。使用 Codex 进行构建的人员感到更加满意，因为智能体能更好地理解他们的意向，且每轮对话的进展更多，所需的澄清问题更少。

由于 GPT‑5.3-Codex 与其前代产品差异巨大，Alpha 测试的数据呈现出许多异常且违背直觉的结果。团队中的一位数据科学家与 GPT‑5.3-Codex 合作构建了新的数据流水线，并以远超常规看板工具的方式，更丰富地实现结果可视化。随后，他们与 Codex 共同分析了结果，Codex 在不到三分钟的时间内，简明扼要地总结了数千个数据点中的关键洞察。

单独来看，所有这些任务都是 Codex 如何帮助研究人员和产品构建者的生动案例。综合而言，OpenAI发现这些新能力为OpenAI的研究、工程和产品团队带来了强大的加速效果。

4 网络安全

近几个月来，OpenAI看到模型在网络安全任务上的性能有了显著提升，这使开发者和安全专业人士共同受益。与此同时，OpenAI一直在准备更强的网络安全保障措施⁠，以支持防御性用途并增强整个生态系统的韧性。

GPT‑5.3-Codex 是OpenAI依据准备框架⁠首个在网络安全相关任务中被评定为高能力⁠的模型，也是OpenAI首个直接训练用于识别软件漏洞的模型。虽然OpenAI还没有确凿证据表明它可以实现端到端的自动化网络攻击，但OpenAI正采取预防性措施，部署了迄今为止最全面的网络安全安全栈。OpenAI的缓解措施包括安全训练、自动化监控、高级能力的受信访问，以及包含威胁情报在内的执行流水线。

由于网络安全本质上具有双重用途，OpenAI正采取一种基于证据的迭代方法，在提升防御者发现并修复漏洞能力的同时减少滥用行为。为此，OpenAI启用了网络安全受信访问⁠ (Trusted Access for Cyber) 试点计划，以加速网络防御研究。

OpenAI正在投资生态系统保障措施，例如扩大安全研究智能体 Aardvark⁠ 的私测范围，这是OpenAI Codex 安全产品和工具系列中的首款产品；同时，OpenAI还与开源维护者合作，为 Next.js 等广泛使用的项目提供免费的代码库扫描。上周就有安全研究人员使用 Codex 发现并披露⁠（在新窗口中打开）了相关漏洞。

基于OpenAI 2023 年启动的 100 万美元网络安全资助计划，OpenAI还承诺提供 1000 万美元的 API 额度，以利用OpenAI最强大的模型加速网络防御，特别是针对开源软件和关键基础设施系统。从事善意 (good-faith) 安全研究的组织可以通过OpenAI的网络安全资助计划⁠申请 API 额度和支持。

5 可用性及详情

GPT‑5.3-Codex 已通过 ChatGPT 付费套餐上线，涵盖所有你可以使用 Codex 的场景：应用、命令行界面 (CLI)、IDE 扩展以及网页端。OpenAI正在努力，确保尽快安全地开放 API 访问。

得益于OpenAI在基础设施和推理栈方面的改进，伴随此次更新，OpenAI为 Codex 用户运行 GPT‑5.3-Codex 的速度提升了 25%，从而带来了更快的交互体验和结果产出。

GPT‑5.3-Codex 是针对 NVIDIA GB200 NVL72 系统共同设计、训练并提供服务的。OpenAI对 NVIDIA 的合作伙伴关系深表感谢。

6 下一步发展

凭借 GPT‑5.3-Codex，Codex 正从单纯的代码编写工具，演变为一个能将代码作为工具来操作计算机并完成端到端工作的智能体。通过推高编程智能体能力的上限，OpenAI也在解锁更广泛的知识工作类别 — 从构建和部署软件到研究、分析及执行复杂任务。最初以打造“最强编程智能体”为目标的尝试，如今已成为构建更通用计算机协作伙伴的基础，这不仅扩大了“谁能进行构建”的受众范围，也拓展了 Codex 所能实现的无限可能。

附录
GPT-5.3-Codex (xhigh)GPT-5.2-Codex (xhigh)GPT-5.2 (xhigh)SWE-Bench Pro (Public)

56.8%

56.4%

55.6%

Terminal-Bench 2.0

77.3%

64.0%

62.2%

OSWorld-Verified

64.7%

38.2%

37.9%

GDPval（胜出或持平）

70.9%

70.9% (high)

网络安全夺旗挑战

77.6%

67.4%

67.7%

SWE-lancer IC Diamond

81.4%

76.0%

74.6%

编程严选网：http://www.javaedge.cn/ 专注分享AI时代下软件开发全场景最新最佳实践~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.