网易首页 > 网易号 > 正文 申请入驻

太狠了!奥特曼亲手「干掉」GPT-5.2,OpenAI祭出最强编程AI

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】最强AI智能体编程模型GPT-5.2-Codex登场!上下文压缩,长程任务处理更强,而且还懂网络安全。

GPT-5.2-Codex,深夜突袭!

它是OpenAI迄今为止,最强的AI智能体编程模型,专为复杂、真实世界软件工程而打造。


从名字可以看出,GPT-5.2-Codex基于GPT-5.2进一步优化版本,它在多项能力上实现了关键改进:

· 上下文压缩,提升了长周期任务处理能力

· 在大型代码变更,如重构与迁移上性能更强

· 在原生Windows环境下,编程能力显著增强

· 网络安全能力最强

奥特曼宣称,「OpenAI们」已经用上了,而且还取得了非常好的成效。


在基准测试中,GPT-5.2-Codex在软件工程、终端测试中,击败了5.1-Codex-Max、GPT-5.2、GPT-5.1。


OpenAI博客中多次重点强调,GPT-5.2-Codex在网络安全上,达到了迄今为止最高水平。

就在上周,一位安全研究员用GPT-5.1-Codex-Max+Codex CLI,直接挖出了一个导致源代码泄露的React漏洞。


今天起,所有付费用户皆可用上GPT-5.2-Codex,API将在未来几周开放。

GPT-5.2-Codex编程狂飙,长跑不掉线

全新AI智能体编程GPT-5.2-Codex,简单来说,就是一次「强强联合」。

它不光继承了GPT-5.2原本擅长的「专业工作处理能力」,还学到了5.1-Codex-Max在AI智能体编程和终端操作方面的能力。

这样一来,它的进步就很实在了——

在长上下文理解、工具调用、事实准确性、原生上下文压缩等方面,得到了显著提升。

由此,GPT-5.2-Codex可以稳定支持长时间运行的编程任务,并在推理时更省token。

在业内专业基准测试中,5.2-Codex在SWE-Bench Pro和Terminal-Bench 2.0上刷新SOTA。

相较于5.1-Codex,约6%的性能提升。


这两个测试,就是专门用于评估模型在真实终端环境中处理多样化任务时的智能体能力。

同时,它在原生Windows环境中的智能体编程表现也显著增强,进一步扩展了GPT-5.1-Codex-Max所引入的能力。

得益于这些改进,Codex能在大型代码库中长时间工作,并始终保持完整上下文。

这也就意味着,诸如大规模重构、代码迁移和功能开发等复杂任务,GPT-5.2-Codex可以靠谱地完成。

——即便中途方案调整或尝试失败,也能持续迭代而不迷失方向。

不仅如此,GPT-5.2-Codex「视力」更强了。

编程时,直接发给它截图、技术示意图、图表以及各类UI界面,它都能理解得更准。


更厉害的是,它可以直接读取设计稿,并迅速将其转化为可运行的功能原型。

同时,开发者也可以与Codex协作,将这些原型一点点打磨,直到能正式上线使用。

三大跃迁,AI已「攻破」真实世界

在OpenAI的一项核心网络安全评估中,可以明显看到「能力随时间的跃迁」——

· GPT-5-Codex带来了第一次显著提升,

· GPT-5.1-Codex-Max带来了第二次,

· GPT-5.2-Codex则实现了第三次跃迁。


对此,OpenAI判断,未来的AI模型仍将沿着这一趋势持续演进。

在做规划和能力评估时,他们一直假设每一代模型,都有潜力达到「准备框架」(Preparedness Framework)里,定义的「高」等级网络安全能力。

不过,GPT-5.2-Codex目前还未达到这一水平。

那么,在真实世界中,OpenAI的智能体编程模型表现如何?

一周挖出React高危漏洞

12月11日,React团队爆出了:React Server Components的三个安全漏洞。

然后,Stripe旗下公司Privy的首席安全工程师Andrew MacPherson,就决定拿这个漏洞来「测试」一下现在的AI模型到底有多能打。

他使用了GPT-5.1-Codex-Max+Codex CLI,以及其他编程智能体,意外的是,在复现和研究漏洞的过程中,把关键React漏洞挖出来了。


具体实操过程如下——

最初,他尝试了多次零样本学习分析,直接让模型检查补丁并判断其修复的漏洞类型,但并未取得成果。

随后,他转向更高频、迭代式的提示方式;在这些方法仍然无效后,他引导Codex按照标准的防御性安全流程开展工作——搭建本地测试环境、分析潜在攻击面,并通过模糊测试向系统注入异常输入。

在尝试复现原始React2Shell问题的过程中,Codex发现了一些异常行为,值得深入调查。

最终,在短短一周内,这一流程促成了此前未知漏洞的发现,并被以负责任的方式披露给React团队。

这一案例清楚地展示了,先进AI系统如何显著加速真实世界、广泛使用的软件中的防御性安全研究。

网友实测

一位开发者实测GPT-5.2-Codex编写一个模拟道路上车辆与交通灯工作方式的程序,结果失败了。



不过也有人认为,其具备了与Gemini 3 Flash和Pro同样精美的动画效果。



GPT-5.2-Codex在生成一款反恐精英的游戏,表现亮眼。


总言之,OpenAI认为,GPT-5.2-Codex的发布,是AI在真实软件开发与网络安全领域的又一大步。

它让开发者,能轻松应对复杂又耗时的任务,同时也为网络安全研究提供更好的工具支持。

参考资料:

https://openai.com/index/introducing-gpt-5-2-codex/

https://openai.com/index/gpt-5-2-codex-system-card/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当“观察者网”说出底线二字的时候,我还是笑了

当“观察者网”说出底线二字的时候,我还是笑了

林中木白
2026-03-26 14:23:04
演员王传君发文宣布退出

演员王传君发文宣布退出

美芽
2026-03-26 12:05:06
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗称正在搜捕逃亡美军

伊朗称正在搜捕逃亡美军

界面新闻
2026-03-25 23:21:14
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
倒计时开始!特朗普将迎来终极翻车时刻!

倒计时开始!特朗普将迎来终极翻车时刻!

一个坏土豆
2026-03-25 20:56:19
特朗普,开始甩锅

特朗普,开始甩锅

中国基金报
2026-03-26 07:57:39
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
人民日报对张雪峰的评价——

人民日报对张雪峰的评价——

叶初七
2026-03-26 10:03:04
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
收评:三大指数均跌超1% 两市成交额跌破2万亿

收评:三大指数均跌超1% 两市成交额跌破2万亿

财联社
2026-03-26 15:02:09
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

虎哥闲聊
2026-03-26 12:06:24
震惊!聊天框打出“飞机”,华为是民航客机,苹果是螺旋桨小飞机

震惊!聊天框打出“飞机”,华为是民航客机,苹果是螺旋桨小飞机

火山詩话
2026-03-26 09:43:22
中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

环球网资讯
2026-03-26 07:09:09
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
2026-03-26 15:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
艺术
房产
公开课

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版