网易首页 > 网易号 > 正文 申请入驻

强化AI编程能力迎战谷歌!OpenAI发布GPT-5.2-Codex,软件工程和网安一把抓

0
分享至

在发布GPT-5.2系列模型一周后,OpenAI再次出手,美东时间18日周四推出基于GPT-5.2的新一代Codex模型GPT-5.2-Codex,号称最先进的智能体编码模型,聚焦专业软件工程和防御性网络安全,进一步巩固其在AI编程领域对谷歌Gemini的竞争优势。

OpenAI介绍,GPT-5.2-Codex在编码性能、网络安全能力和长周期任务处理上均实现突破。GPT-5.2-Codex在SWE-Bench Pro测试中准确率达到56.4%,在Terminal-Bench 2.0测试中达到64.0%,刷新两项基准测试纪录。该模型已于发布当天在所有Codex界面向付费ChatGPT用户开放,API用户接入正在推进中。

OpenAI特别强调GPT-5.2-Codex在网络安全方面的显著提升。CEO Sam Altman提到,本月早些时候,一名安全研究人员使用上一代模型GPT-5.1-Codex-Max就发现并负责任地披露了React中可能导致源代码暴露的漏洞。OpenAI方面认为,新模型尚未达到"高"级别网络安全能力,但公司正在为未来模型跨越这一门槛做准备。

OpenAI表示,GPT-5.2-Codex周四当天在所有Codex界面向付费ChatGPT用户发布,正在努力在未来几周内安全地为API用户启用访问。该司计划通过逐步推出、部署与保护措施相结合以及与安全社区密切合作的方式,在最大化防御影响的同时降低滥用风险。

本周四的发布延续了OpenAI在AI编程领域的进攻态势。

上周发布GPT-5.2时,OpenAI就援引编码初创公司的用户体验称,该模型拥有“最先进的智能体编码性能”,还披露GPT-5.2的Thinking版本在SWE编码能力测试中创下历史最高分,成为OpenAI首个性能达到或超过人类专家水平的模型。此举被视为对谷歌Gemini 3在编码和推理能力上获得好评的直接回应。

编码性能再升级,针对大规模实战场景优化

GPT-5.2-Codex是GPT-5.2的优化版本,专门针对Codex中的智能体编码进行了强化。OpenAI表示,新模型在三个关键领域实现改进:通过上下文压缩提升长周期工作能力,在重构和迁移等项目级任务上表现更强,以及在Windows环境中性能改善。

在基准测试中,GPT-5.2-Codex在SWE-Bench Pro测试中准确率达到56.4%,高于GPT-5.2的55.6%和GPT-5.1的50.8%。在Terminal-Bench 2.0测试中,GPT-5.2-Codex准确率为64.0%,GPT-5.2为62.2%,GPT-5.1为58.1%。SWE-Bench Pro要求模型在给定代码库中生成补丁以解决实际软件工程任务,Terminal-Bench 2.0则测试AI智能体在真实终端环境中完成编译代码、训练模型和设置服务器等任务的能力。


GPT-5.2-Codex在长上下文理解、可靠的工具调用、改进的真实性和原生压缩方面均有提升,使其成为长时间编码任务中更可靠的合作伙伴,同时在推理过程中保持token效率。更强的视觉性能使GPT-5.2-Codex能够更准确地解读屏幕截图、技术图表和用户界面,可以将设计稿快速转化为功能原型。


OpenAI表示,凭借这些改进,Codex能够在大型代码库中进行长时间工作,保持完整上下文,更可靠地完成大规模重构、代码迁移和功能构建等复杂任务,即使计划改变或尝试失败也不会失去追踪。

网络安全能力大幅跃升,为跨越"高"级别门槛做准备

网络安全成为GPT-5.2-Codex的另一个重点突破领域。OpenAI在核心网络安全评估中观察到,从GPT-5-Codex开始能力出现急剧跳跃,GPT-5.1-Codex-Max又实现一次大幅提升,如今GPT-5.2-Codex完成第三次跳跃。

在专业夺旗赛评估中,GPT-5.2-Codex展现出解决需要专业级网络安全技能的高级多步骤真实挑战的能力。据OpenAI的准备框架评估,GPT-5.2-Codex虽然尚未达到"高"级别网络安全能力,但该公司预计未来AI模型将继续沿着这一轨迹发展,正在按照每个新模型都可能达到"高"级别的标准进行规划和评估。

一个真实案例凸显了新模型的防御性网络安全潜力。12月11日,React团队公布了三个影响使用React服务器组件构建的应用程序的安全漏洞。Stripe旗下Privy公司首席安全工程师Andrew MacPherson在使用GPT-5.1-Codex-Max与Codex CLI研究另一个名为React2Shell的严重漏洞时,通过引导Codex执行标准防御性安全工作流程,意外发现了这些此前未知的漏洞并负责任地向React团队披露。

Altman在社交平台上披露:“上周,一名使用我们上一代(Codex)模型的安全研究人员发现并披露了React中可能导致源代码暴露的漏洞。我相信这些模型对网络安全将产生净收益,但随着它们的改进,我们正处于'真实影响阶段'。”


推出可信访问计划,为专业安全人员提供特殊权限

为平衡能力提升与安全风险,OpenAI针对网络安全能力的增强在模型层面和产品层面都增加了额外保护措施,包括针对有害任务和提示注入的专门安全训练、智能体沙箱以及可配置的网络访问。同时,公司正在进行仅限邀请的可信访问计划试点。

该计划最初仅向经过审查的安全专业人员和具有明确专业网络安全用例的组织开放。符合条件的参与者将获得使用OpenAI最强大模型进行防御性工作的权限,使其能够开展合法的双重用途工作,如漏洞研究或授权的红队测试,同时消除安全团队在模拟威胁行为者、分析恶意软件或压力测试关键基础设施时可能遇到的限制。

Altman在X上表示:"我们正在开始探索用于防御性网络安全工作的可信访问计划。"他还在另一条帖子中为Codex招聘打广告:"Codex变得极其出色,并将快速改进。如果你想帮助它在明年变得好100倍,团队正在招人。保证有疯狂的冒险,成功的可能性很大。"



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李凯馨:原来“大粗腿”才是性感天花板!

李凯馨:原来“大粗腿”才是性感天花板!

白色得季节
2026-02-03 13:20:01
有色金属,突传大消息!

有色金属,突传大消息!

数据宝
2026-02-03 18:58:37
大S雕像邻居是高以翔!石碑「藏具俊晔催泪告白」 设计理念曝光

大S雕像邻居是高以翔!石碑「藏具俊晔催泪告白」 设计理念曝光

ETtoday星光云
2026-02-02 16:20:05
日薪50万欧元!媒体人:C罗无法重返欧洲,没人会签下40岁的他

日薪50万欧元!媒体人:C罗无法重返欧洲,没人会签下40岁的他

奥拜尔
2026-02-03 16:23:43
极氪8X遭泄密打乱发布节奏!官方发布声明 新车量产信息曝光

极氪8X遭泄密打乱发布节奏!官方发布声明 新车量产信息曝光

快科技
2026-02-03 15:01:06
郑丽文准备前往大陆,签署一项重要协议,若成功,她将留名史册

郑丽文准备前往大陆,签署一项重要协议,若成功,她将留名史册

近史博览
2026-02-02 15:02:49
别瞎跑了!2026年最适合跑网约车的城市找到了

别瞎跑了!2026年最适合跑网约车的城市找到了

用车指南
2026-02-03 10:01:57
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
取4万元被盘问后起诉银行,当事律师披露:陕西某银行取款5000以上就得询问

取4万元被盘问后起诉银行,当事律师披露:陕西某银行取款5000以上就得询问

观察者网
2026-02-02 14:05:04
我们赢了!中方拿下50亿吨,价值24000亿全球最大铁矿,澳美矿牌失势

我们赢了!中方拿下50亿吨,价值24000亿全球最大铁矿,澳美矿牌失势

刘旷
2026-02-03 14:39:57
刘虎被抓,六个待解的法律问题

刘虎被抓,六个待解的法律问题

记录刘杰
2026-02-03 11:42:21
巴拿马总统:尽管法院已作出裁决,但巴拿马港口将继续正常运营

巴拿马总统:尽管法院已作出裁决,但巴拿马港口将继续正常运营

可乐爱微笑
2026-02-02 21:32:37
中国艺术研究院原院长连辑接受审查调查

中国艺术研究院原院长连辑接受审查调查

澎湃新闻
2026-02-03 18:31:10
可能爆发全面战争

可能爆发全面战争

杨兴文
2026-02-02 15:35:38
日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本窗
2026-02-02 17:28:30
金价:今日金价1030/克!没意外的话,明天或迎更大级别变盘?

金价:今日金价1030/克!没意外的话,明天或迎更大级别变盘?

蓝色海边
2026-02-03 02:21:06
张一鸣登顶,雷军排第十,2026富豪榜大洗牌:十年河东十年河西

张一鸣登顶,雷军排第十,2026富豪榜大洗牌:十年河东十年河西

大卫聊科技
2026-02-02 12:37:28
不可错过!2月3日晚19:30比赛!中央5套CCTV5、CCTV5+直播节目表

不可错过!2月3日晚19:30比赛!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-03 15:57:37
视界|斯诺克世界大奖赛肖国栋首轮晋级

视界|斯诺克世界大奖赛肖国栋首轮晋级

北青网-北京青年报
2026-02-03 17:50:06
白骨案受害者儿子再曝扎心细节:当年凶手被抓后又放 原因很心酸

白骨案受害者儿子再曝扎心细节:当年凶手被抓后又放 原因很心酸

有范又有料
2026-01-29 11:20:59
2026-02-03 19:23:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141154文章数 2652411关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

李微微受贿1.17亿余元被判无期 出庭受审时满头白发

头条要闻

李微微受贿1.17亿余元被判无期 出庭受审时满头白发

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

亲子
艺术
教育
游戏
军事航空

亲子要闻

萌娃看到这个雕塑,想让小狗松开嘴,网友:正义感爆棚的小宝贝

艺术要闻

2026年,中国最值得期待的20个新建筑

教育要闻

广东以色列理工学院学费贵吗?费用=价值,性价比真相曝光!

热搜爆了!网传《英雄联盟》世界冠军选手结婚

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版