网易首页 > 网易号 > 正文 申请入驻

OpenAI发布最强编程模型:AI程序员能“通宵”,性能跑分反超谷歌

0
分享至

IT之家 11 月 20 日消息,OpenAI 昨日(11 月 19 日)发布博文,宣布推出 GPT-5.1-Codex-Max 智能体编程模型,显著提升了长远推理能力、效率和实时交互能力。此外该模型将取代 GPT-5.1-Codex,成为 Codex 集成界面上的默认模型。


IT之家援引博文介绍,此次发布紧随谷歌 Gemini 3 Pro 之后,但在多个关键编程基准测试中,Codex-Max 展现出更强的实力。例如,在衡量解决实际软件问题的 SWE-Bench Verified 测试中,Codex-Max 以 77.9% 的准确率小幅领先于 Gemini 3 Pro 的 76.2%。



Codex-Max 在 Terminal-Bench 2.0 测试中也领先,准确率达到 58.1%,而 Gemini 的准确率为 54.2%;在 LiveCodeBench Pro(一项竞争激烈的编码 Elo 基准测试)测试中,它的得分与 Gemini 的 2439 分持平。


GPT-5.1-Codex-Max 的一项重大架构升级是引入了名为“压缩”(Compaction)的机制。该机制允许模型在接近其上下文窗口限制时,智能地保留关键上下文信息并丢弃无关细节,从而实现跨越数百万 token 的连续工作而不会出现性能下降。


得益于此,该模型在内部测试中已成功完成持续超过 24 小时的复杂任务,如多步骤代码重构和自主调试。同时,这项技术还提升了约 30% 的 token 效率,有效降低了成本与延迟。

新模型目前已集成到 OpenAI 自家的多个 Codex 开发环境中,包括其官方命令行工具(Codex CLI)、内部代码审查工具以及各类交互式编程环境。

开发者可以通过这些工具体验到模型强大的实时交互能力,例如在可视化界面中进行强化学习训练或模拟光学定律。不过,GPT-5.1-Codex-Max 尚未通过公共 API 提供,但官方表示即将开放。普通用户则需要订阅 ChatGPT Plus、Pro 或企业版等付费计划才能使用。

OpenAI 透露,其内部 95% 的工程师每周都会使用 Codex,自采用以来,这些工程师平均多提交了约 70% 的拉取请求(Pull Requests),显著提升了内部开发速度。

尽管 Codex-Max 具备高度的自主性,OpenAI 仍强调它应作为编码“助手”而非人类的替代品。为保证透明度,模型会生成详细的终端日志和测试引用,以便开发者审查和验证其生成的所有代码。此外,模型在默认情况下运行于严格的沙盒环境中,并禁用了网络访问,以确保安全性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“想要我签名吗” 梅西霸气失2追4后嘲讽对手主帅 后者曾捂嘴挑衅

“想要我签名吗” 梅西霸气失2追4后嘲讽对手主帅 后者曾捂嘴挑衅

风过乡
2026-03-02 13:02:31
印度越南梦碎,外资为什么又回了中国西部?

印度越南梦碎,外资为什么又回了中国西部?

亿通电子游戏
2026-03-02 00:48:26
哈梅内伊开会时遭袭身亡,细节披露!美媒:伊朗防长等约40名官员在袭击中死亡!伊方:总统等将领导国家

哈梅内伊开会时遭袭身亡,细节披露!美媒:伊朗防长等约40名官员在袭击中死亡!伊方:总统等将领导国家

每日经济新闻
2026-03-01 12:09:04
“人寿尽,屋先知”!家里出现这3种“怪象”,别迷信但要多留心

“人寿尽,屋先知”!家里出现这3种“怪象”,别迷信但要多留心

三农老历
2026-03-02 11:00:07
美军公布伤亡情况!伊朗向美航母发射4枚导弹,美军:导弹甚至没有接近航母,已击沉一艘伊朗船只;朝鲜强烈谴责美以“流氓行径”

美军公布伤亡情况!伊朗向美航母发射4枚导弹,美军:导弹甚至没有接近航母,已击沉一艘伊朗船只;朝鲜强烈谴责美以“流氓行径”

每日经济新闻
2026-03-02 00:23:54
难以置信!网传深圳一数学名师一年靠补课能挣500万,一节课900元

难以置信!网传深圳一数学名师一年靠补课能挣500万,一节课900元

火山詩话
2026-03-02 09:07:10
起泡胶、捏捏乐、水晶泥等网红玩具 经检测:部分捏捏乐甲醛超标33倍

起泡胶、捏捏乐、水晶泥等网红玩具 经检测:部分捏捏乐甲醛超标33倍

闪电新闻
2026-03-02 11:03:00
赖亚文:33岁嫁空军军官,无奈与丈夫分居多年,回家时儿子不认她

赖亚文:33岁嫁空军军官,无奈与丈夫分居多年,回家时儿子不认她

白面书誏
2026-03-01 14:32:33
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

林轻吟
2026-02-24 07:14:49
汪小菲回应转学风波,大S私自操办被国际学校退学,得知后很崩溃

汪小菲回应转学风波,大S私自操办被国际学校退学,得知后很崩溃

萌神木木
2026-03-01 11:37:34
老两口结婚后将儿女撮合在一起,亲母女嫁给了亲父子,网友热议:“将来孩子出生该怎么喊呢”

老两口结婚后将儿女撮合在一起,亲母女嫁给了亲父子,网友热议:“将来孩子出生该怎么喊呢”

观威海
2026-03-02 09:20:14
他当过三朝宰相,睡过上官婉儿与太平公主,死后让唐玄宗念念不忘

他当过三朝宰相,睡过上官婉儿与太平公主,死后让唐玄宗念念不忘

掠影后有感
2026-03-02 10:24:03
特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

安珈使者啊
2026-03-01 12:15:35
超20000名旅客滞留!上海大学生:因为一场急病,提前逃出迪拜,感叹“差点没法上学”

超20000名旅客滞留!上海大学生:因为一场急病,提前逃出迪拜,感叹“差点没法上学”

新民晚报
2026-03-01 20:44:34
有消息称“美军战机系被友军误击”

有消息称“美军战机系被友军误击”

南方都市报
2026-03-02 14:50:40
中国男篮逆转揪出最大毒瘤!13中2险些葬送好局,郭士强看走眼了

中国男篮逆转揪出最大毒瘤!13中2险些葬送好局,郭士强看走眼了

老叶评球
2026-03-01 20:31:34
台北为何惨遭逆转!赛后陈盈骏毫不客气给出输球原因 直戳痛点

台北为何惨遭逆转!赛后陈盈骏毫不客气给出输球原因 直戳痛点

现代小青青慕慕
2026-03-02 09:53:20
美军瞒不住了!炸航母基地,炸11亿美元雷达,几十万吨燃油被点燃

美军瞒不住了!炸航母基地,炸11亿美元雷达,几十万吨燃油被点燃

梦史
2026-03-01 11:22:23
富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

百态人间
2026-02-12 15:21:00
沈逸“美国不敢打伊朗”遭群嘲:国内某些专家,为何总是制造笑柄

沈逸“美国不敢打伊朗”遭群嘲:国内某些专家,为何总是制造笑柄

影像温度
2026-03-01 15:26:25
2026-03-02 18:51:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
331829文章数 607030关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

头条要闻

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

艺术
本地
亲子
时尚
家居

艺术要闻

日本选出的“新书圣”!他的字500年难得一遇,据说只有博士才能看懂

本地新闻

津南好·四时总相宜

亲子要闻

阿宝和藏区老二居然就差一天的生日时间,今天我们给他们过生日哦

从每天只睡4小时到8小时:一个失眠者的自救指南

家居要闻

万物互联 享科技福祉

无障碍浏览 进入关怀版