网易首页 > 网易号 > 正文 申请入驻

OpenAI最强编程模型登场,实测竟又被Gemini 3 Flash按趴下

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西12月19日消息,今日凌晨,OpenAI发布最新编程模型GPT-5.2-Codex,该模型基于GPT-5.2,对智能体编程能力进行了深度优化,具体包括:提升了长程任务执行、大规模代码变更、兼容Windows环境以及网络安全防御等能力。OpenAI在博客中称这是他们迄今为止最强的编程模型


据OpenAI官方博客,GPT‑5.2-Codex不仅继承了GPT‑5.2⁠的优势,还融合了GPT‑5.1-Codex-Max⁠的前沿智能体编程与终端操作能力,专为复杂的现实软件工程和网络安全等专业领域设计,

OpenAI已率先在Codex CLI、IDE扩展、云端以及代码审查中发布了GPT‑5.2-Codex,今日起已向所有付费ChatGPT用户开放,API访问也即将上线。

值得一提的是,GPT‑5.2-Codex发布之前,谷歌刚宣布推出Gemini 3 Flash模型。有网友让GPT‑5.2-Codex的Gemini 3 Flash共同执行任务,结果,GPT‑5.2-Codex败下阵来,在对50个文件进行漏洞审查的任务中,Gemini 3 Flash用时1分2秒,发现了5个问题,而GPT-5.2-Codex用时4分48秒,仅发现了2个Gemini 3 Flash已找到的问题。


GPT‑5.2-Codex的性能可能不及预期。有网友称,GPT‑5.2-Codex在SWE-Bench Pro上性能提升不到1%,还没有发布SWE-Bench Verified结果,这不免让人推测GPT‑5.2-Codex并未达当前最优水平,在一些系统卡基准测试中还出现了性能退步。


据OpenAI官方博客,从功能上看,GPT‑5.2-Codex新增了原生上下文压缩技术,在长上下文理解、工具调用、事实准确性以及原生的上下文压缩上表现提升,推理时Token使用效率提升,还能更精准地理解在编码过程中共享的截图、技术图表、数据图以及用户界面。在原生Windows环境中,GPT‑5.2-Codex对GPT‑5.1-Codex-Max的能力做了进一步的升级,智能体编程表现更加高效和可靠。

GPT‑5.2-Codex在实际软件工程任务中的表现有所提升,包括了代码库导航、重构、Pull Request的创建与审查等方面。

从基准测试来看,GPT‑5.2-Codex在评估修复真实世界代码问题的SWE-Bench Pro基准测试中得分为56.4%,超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分;在衡量编译和服务器配置等任务的Terminal-Bench 2.0基准测试中,GPT‑5.2-Codex得分为64.0%,显著领先前代版本GPT‑5.1-Codex-Max的58.1%,展示出了模型在使用命令行和终端解决代理任务的进步。


据OpenAI官方博客,在网络安全领域,GPT‑5.2-Codex在夺旗挑战(CTF)中创下所有模型的最佳纪录。从折线轨迹来看,我们也能得出,就网络安全评估,OpenAI的模型能力正在持续提升。OpenAI博客称,他们正在全面升级网络安全防护,还引入可信访问机制来支持防御工作。


OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)称,上周,一位安全研究人员利用GPT‑5.1-Codex-Max发现并披露了React中的一个漏洞,该漏洞可能导致源代码泄漏。这反映出了模型能力应用于网络安全带来的实际价值。阿尔特曼还提到,这些模型还在不断改进中,最终会给网络安全带来益处。


结语:AI编程工具竞争加剧

GPT-5.2-Codex是OpenAI在编程模型上的又一次迭代,通过提升长程任务处理、大规模代码变更和特定环境表现,它为复杂开发与安全研究提供了更强大的支持,有望成为发现和修复漏洞的有力工具。

在OpenAI本次更新之前,谷歌同日也发布了低成本的Gemini 3 Flash模型,AI编程赛道竞争持续激烈。就目前来看,号称OpenAI最强编程模型的GPT-5.2-Codex在现实场景中的实际效能、与竞争对手产品的比较表现或许不及预期,该模型的实际应用效果和性能检验或将成为接下来的焦点。

来源:OpenAI、X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子300万黄金不翼而飞,竟是被母亲偷卖后给弟弟买婚房!还被赶出家门……

男子300万黄金不翼而飞,竟是被母亲偷卖后给弟弟买婚房!还被赶出家门……

19楼
2026-02-04 15:56:47
女人偷情发生关系后,最怕什么?

女人偷情发生关系后,最怕什么?

思絮
2026-01-30 10:41:09
A股:今天冲高到4087后反复跳水,种种迹象表明,A股迎更大级别变盘

A股:今天冲高到4087后反复跳水,种种迹象表明,A股迎更大级别变盘

股市皆大事
2026-02-04 12:03:32
1965年陈诚在台湾病逝,身后留下六个子女,他们后来的生活状况如何?

1965年陈诚在台湾病逝,身后留下六个子女,他们后来的生活状况如何?

寄史言志
2026-02-03 00:19:14
有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

有个瞒着自己生二胎的爸妈是啥体验?网友:50多还能接二连三生

解读热点事件
2026-01-30 04:02:43
演员马如龙49岁儿子在家中去世:做完健检回家倒地,送医抢救不治

演员马如龙49岁儿子在家中去世:做完健检回家倒地,送医抢救不治

半岛晨报
2026-02-03 21:00:03
暴跌61%,缩水154亿美元!昔日世界第一新能源车企也卖不动了?

暴跌61%,缩水154亿美元!昔日世界第一新能源车企也卖不动了?

财经八卦
2026-02-03 19:30:46
爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

老木说
2026-02-03 21:39:19
耶律德光痛骂刘知远“不配姓刘”:那时的胡人和胡人,还真不一样

耶律德光痛骂刘知远“不配姓刘”:那时的胡人和胡人,还真不一样

黄娜老师
2026-02-04 12:44:24
我大使摊牌,租借99年的达尔文港,若澳强制收回,中方将予以反制

我大使摊牌,租借99年的达尔文港,若澳强制收回,中方将予以反制

观星赏月
2026-02-04 15:00:05
高承勇判死刑后接受采访,他在看守所里画了一幅这样的画,太诡异

高承勇判死刑后接受采访,他在看守所里画了一幅这样的画,太诡异

谈史论天地
2026-02-04 08:49:00
林诗栋换主管教练了,亚洲杯首轮3-0获胜,新教练小试牛刀效果好

林诗栋换主管教练了,亚洲杯首轮3-0获胜,新教练小试牛刀效果好

真理是我亲戚
2026-02-04 13:05:46
去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

去了趟拉斯维加斯,这辈子再不想去二回,到处是陷阱防不胜防!

天下霸奇
2026-01-29 09:07:49
要变味儿?央媒下场后,闫学晶再迎噩耗,最担心的事儿还是来了

要变味儿?央媒下场后,闫学晶再迎噩耗,最担心的事儿还是来了

啰嗦的小羊
2026-02-04 13:13:16
假山假景假脸,央视《生命树》的爆火,打脸多少“流水线”年代剧

假山假景假脸,央视《生命树》的爆火,打脸多少“流水线”年代剧

云舟史策
2026-01-30 23:05:34
网友称在奈晚推拿遭猥亵,51岁涉事技师被行拘7日;门店:涉事店员才来3天

网友称在奈晚推拿遭猥亵,51岁涉事技师被行拘7日;门店:涉事店员才来3天

大风新闻
2026-02-04 14:10:03
上春晚的人形机器人,公布了!

上春晚的人形机器人,公布了!

青年家
2026-01-28 20:13:36
广州龙洞村“蝇贪蚁腐”疑云:谁在掏空村民的“钱袋子”呢?

广州龙洞村“蝇贪蚁腐”疑云:谁在掏空村民的“钱袋子”呢?

舆非娱
2026-02-04 13:58:50
重新从“电视”中学习历史

重新从“电视”中学习历史

新民周刊
2026-02-03 12:10:01
多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

多名前员工称意外收到大疆发的新春礼盒 大疆:感恩付出 已连续发了多年

快科技
2026-02-04 00:10:45
2026-02-04 16:31:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11184文章数 116964关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

高市早苗扬言将自卫队写入宪法 外交部回应

头条要闻

高市早苗扬言将自卫队写入宪法 外交部回应

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

家居
游戏
旅游
数码
本地

家居要闻

灰白意境 光影奏鸣曲

AMD确认!Steam新主机推进顺利 仍计划年初发布

旅游要闻

大理江风寺的山泉水有点小贵,旁边将军洞却真能免费,只是要起早

数码要闻

Intel计划复活内存业务:ZAM单芯片最高512GB 功耗比HBM降低50%

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版