OpenAI最强代码模型GPT-5.2-Codex上线|智能体|gpt|网络安全|codex|openai|深度思考按钮

OpenAI最强代码模型GPT-5.2-Codex上线

2025-12-19 10:20:17　来源: 机器之心Pro

北京举报

分享至

编辑｜泽南

周五凌晨，OpenAI 发布 GPT-5.2-Codex，这是迄今为止最先进的智能体编码模型，专为复杂的实际软件工程而设计。

GPT-5.2-Codex 是 GPT-5.2 的升级版本，提高了指令遵循能力、对长远语境的理解能力，它针对 Codex 中的智能体编码进行了进一步优化，包括通过上下文压缩改进长期工作。GPT-5.2-Codex 在重构和迁移等大型代码变更中表现更佳，在 Windows 环境下性能更优，同时网络安全能力也显著增强。

与 GPT-5.2 相比，5.2-Codex 在编码任务的词元效率方面也有显著提升，尤其是在中等和高推理水平下。据称，它已迅速成为 Codex 团队成员的日常主力工具。

新模型的发布获得了人们的普遍关注。在开发者社区人们认为，如果说 Claude Code 擅长「原始代码」，那么 Codex/GPT5.x 在仔细、系统地查找「问题」（无论是代码问题还是数学问题）方面则是无可匹敌的。

虽然新版本的 GPT 模型需要运行更长时间，但是它的智能程度令人惊讶。新模型终于具备了推动优秀设计的空间推理能力。

GPT-5.2-Codex 生成的内容。

已经有很多人开始认同使用 Claude Code 写代码，同时用 Codex 来做代码审查，让后者分析流程和发现细微 bug 的工作方式。此外也有人表示 Codex 能带来的一个意想不到的帮助是克服拖延症：如果面对一项艰巨的任务，却不知从何下手，这时不妨把任务发给 Codex，它或许无法给出完美的答案，但几乎总能提供一个不错的起点，让你快速迭代改进。

随着模型能力的不断进步，研究人员观察到这些提升正转化为网络安全等专业领域能力的突破。就在上周，一位使用 GPT-5.1-Codex-Max 和 Codex CLI 的安全研究人员发现并负责任地披露了 React 中存在一个可能导致源代码泄露的漏洞。

GPT-5.2-Codex 的网络安全能力比 OpenAI 迄今为止发布的任何模型都更强大。这些进步有助于大规模加强网络安全，但也带来了新的两用风险，需要谨慎部署。虽然 GPT-5.2-Codex 在 OpenAI 内部的「准备框架」中尚未达到「高」网络安全能力级别，但在设计部署方案时已考虑到了未来能力的提升。

GPT-5.2-Codex 已面向付费 ChatGPT 用户在所有 Codex 平台上开放，OpenAI 计划在未来几周内向 API 用户开放 GPT-5.2-Codex 的访问权限。与此同时，OpenAI 正在试点仅限受邀用户访问即将推出的功能，并为经过审核的专业人士和专注于防御性网络安全工作的组织提供更宽松的访问权限模式。

OpenAI 介绍说，GPT-5.2-Codex 融合了 GPT-5.2 在专业知识处理方面的优势以及 GPT-5.1-Codex-Max 在智能体编码和终端使用方面的前沿能力。GPT-5.2-Codex 在长上下文理解、可靠的工具调用、事实准确性和原生压缩方面表现更佳，使其成为长时间编码任务更可靠的伙伴，同时保持了推理的词元效率。

GPT-5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 基准测试中取得了最先进的性能（SOTA），这两个基准测试旨在评估智能体程序在真实终端环境下执行各种任务的性能。此外，它在原生 Windows 环境下的智能体程序编码方面也更加高效可靠，并在此基础上进一步增强了 GPT-5.1-Codex-Max 所引入的功能。

经过这些改进，Codex 能够更高效地处理大型代码库，即使在长时间会话中也能保持完整的上下文信息。它能够更可靠地完成复杂的任务，例如大型重构、代码迁移和功能构建 —— 即使计划有变或尝试失败，也能持续迭代而不丢失进度。

在 SWE-Bench Pro 中，模型会被赋予一个代码库，要求 AI 生成一个补丁来解决一个实际的软件工程任务。Terminal -Bench 2.0 是一个用于在真实终端环境中测试 AI 智能体的基准测试工具。任务包括编译代码、训练模型和搭建服务器。

更强大的视觉性能使 GPT-5.2-Codex 能够更准确地解释编码过程中共享的屏幕截图、技术图表、图表和 UI 界面。

Codex 可以快速将设计稿转化为功能原型，开发者可以与 Codex 配合使用这些原型进行生产。

设计原型：

由 GPT-5.2-Codex 生成的原型：

在绘制核心网络安全评估指标的长期性能图表时，OpenAI 发现，从 GPT-5-Codex 开始，能力出现了显著提升；GPT-5.1-Codex-Max 又实现了大幅提升；而 GPT-5.2-Codex 则带来了第三次飞跃。OpenAI 预计，即将推出的 AI 模型将继续保持这一发展趋势。

为此，OpenAI 正在按照每个新模型都能达到「高」网络安全能力水平的标准进行规划和评估，该能力水平由准备框架进行衡量。

专业夺旗赛 (CTF) 评估衡量模型在 Linux 环境下解决高级、多步骤真实世界挑战（需要专业级网络安全技能）的频率。

现代社会依赖软件运行，而其可靠性取决于强大的网络安全 —— 保障银行、医疗、通信和基本服务等关键系统的在线运行，保护敏感数据，并确保人们可以信赖他们每天使用的软件。漏洞可能在人们意识到之前就已存在，而发现、验证和修复这些漏洞通常需要一支由工程师和独立安全研究人员组成的团队，他们必须配备合适的工具。

2025 年 12 月 11 日，React 团队公布了三个影响使用 React 服务器组件构建的应用程序的安全漏洞。此次披露之所以引人注目，不仅在于漏洞本身，还在于漏洞的发现方式。

Privy（Stripe 旗下公司）的首席安全工程师 Andrew MacPherson 使用 GPT-5.1-Codex-Max、Codex CLI 和其他编码代理来重现和研究前一周披露的另一个严重的 React 漏洞，即 React2Shell。他的目标是评估该模型在多大程度上能够帮助进行现实世界的脆弱性研究。

他最初尝试了几次零样本分析，让模型检查补丁并识别其修复的漏洞。当这种方法没有结果时，他转而采用更大容量的迭代式提示方法。当这些方法仍然失败后，他指导 Codex 完成了标准的防御安全工作流程 —— 搭建本地测试环境、分析潜在的攻击面，并使用模糊测试向系统发送畸形输入进行探测。在尝试重现最初的 React2Shell 问题时，Codex 发现了一些意料之外的行为，需要进行更深入的调查。在短短一周内，这一过程发现了之前未知的漏洞，并已将其披露给 React 团队。

这表明，先进的人工智能系统能够显著加快实际软件的防御安全工作。与此同时，帮助防御者更快行动的能力也可能被不法分子滥用。

随着智能体系统在网络安全相关任务中的能力不断增强，OpenAI 正在把负责任的部署作为一项核心优先事项 —— 将能力的每一次提升与更强大的安全措施、更严格的访问控制以及与安全社区的持续合作相结合。

参考内容：

https://openai.com/index/introducing-gpt-5-2-codex/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.