网易首页 > 网易号 > 正文 申请入驻

OpenAI发布最强编程模型:AI程序员能“通宵”,性能跑分反超谷歌

0
分享至

IT之家 11 月 20 日消息,OpenAI 昨日(11 月 19 日)发布博文,宣布推出 GPT-5.1-Codex-Max 智能体编程模型,显著提升了长远推理能力、效率和实时交互能力。此外该模型将取代 GPT-5.1-Codex,成为 Codex 集成界面上的默认模型。


IT之家援引博文介绍,此次发布紧随谷歌 Gemini 3 Pro 之后,但在多个关键编程基准测试中,Codex-Max 展现出更强的实力。例如,在衡量解决实际软件问题的 SWE-Bench Verified 测试中,Codex-Max 以 77.9% 的准确率小幅领先于 Gemini 3 Pro 的 76.2%。



Codex-Max 在 Terminal-Bench 2.0 测试中也领先,准确率达到 58.1%,而 Gemini 的准确率为 54.2%;在 LiveCodeBench Pro(一项竞争激烈的编码 Elo 基准测试)测试中,它的得分与 Gemini 的 2439 分持平。


GPT-5.1-Codex-Max 的一项重大架构升级是引入了名为“压缩”(Compaction)的机制。该机制允许模型在接近其上下文窗口限制时,智能地保留关键上下文信息并丢弃无关细节,从而实现跨越数百万 token 的连续工作而不会出现性能下降。


得益于此,该模型在内部测试中已成功完成持续超过 24 小时的复杂任务,如多步骤代码重构和自主调试。同时,这项技术还提升了约 30% 的 token 效率,有效降低了成本与延迟。

新模型目前已集成到 OpenAI 自家的多个 Codex 开发环境中,包括其官方命令行工具(Codex CLI)、内部代码审查工具以及各类交互式编程环境。

开发者可以通过这些工具体验到模型强大的实时交互能力,例如在可视化界面中进行强化学习训练或模拟光学定律。不过,GPT-5.1-Codex-Max 尚未通过公共 API 提供,但官方表示即将开放。普通用户则需要订阅 ChatGPT Plus、Pro 或企业版等付费计划才能使用。

OpenAI 透露,其内部 95% 的工程师每周都会使用 Codex,自采用以来,这些工程师平均多提交了约 70% 的拉取请求(Pull Requests),显著提升了内部开发速度。

尽管 Codex-Max 具备高度的自主性,OpenAI 仍强调它应作为编码“助手”而非人类的替代品。为保证透明度,模型会生成详细的终端日志和测试引用,以便开发者审查和验证其生成的所有代码。此外,模型在默认情况下运行于严格的沙盒环境中,并禁用了网络访问,以确保安全性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东契奇42+7+8湖人不敌国王3连败,勒布朗22分德罗赞32+6

东契奇42+7+8湖人不敌国王3连败,勒布朗22分德罗赞32+6

湖人崛起
2026-01-13 13:24:00
北京嫣然天使儿童医院拖欠房租,判决腾房至今无果,李亚鹏曾发信息致歉

北京嫣然天使儿童医院拖欠房租,判决腾房至今无果,李亚鹏曾发信息致歉

大风新闻
2026-01-12 18:25:43
新能源汽车在高速上断电自动上锁,一家5口被困车内报警求助,民警:有机械门把手,司机不知如何操作,车内人员已脱困

新能源汽车在高速上断电自动上锁,一家5口被困车内报警求助,民警:有机械门把手,司机不知如何操作,车内人员已脱困

扬子晚报
2026-01-12 23:14:43
老干妈创始人“出山救子”!78岁陶华碧翻盘,一年大卖54亿元销售额重回巅峰

老干妈创始人“出山救子”!78岁陶华碧翻盘,一年大卖54亿元销售额重回巅峰

极目新闻
2026-01-13 15:22:44
72岁王石被问“怕不怕田朴珺跑”,沉默三秒后回:她随时可以走

72岁王石被问“怕不怕田朴珺跑”,沉默三秒后回:她随时可以走

巧手晓厨娘
2026-01-13 14:54:52
日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

极目新闻
2026-01-13 10:19:55
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
湖南怀化全城喊“臭” ,当地回应:企业设备故障导致废气挥发

湖南怀化全城喊“臭” ,当地回应:企业设备故障导致废气挥发

环球网资讯
2026-01-13 14:14:08
日本43岁女市长与已婚男下属多次开房,辞职后再次当选

日本43岁女市长与已婚男下属多次开房,辞职后再次当选

扬子晚报
2026-01-13 16:00:23
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
闹大了!金华一工厂老板十多岁儿子对工人吆五喝六,终于集体走人

闹大了!金华一工厂老板十多岁儿子对工人吆五喝六,终于集体走人

火山诗话
2026-01-12 05:54:05
唏嘘?皇马仅花20分钟解雇阿隆索!老佛爷飞机上拍板 赔5个月薪水

唏嘘?皇马仅花20分钟解雇阿隆索!老佛爷飞机上拍板 赔5个月薪水

我爱英超
2026-01-13 08:50:02
比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

潇湘晨报
2026-01-13 10:04:40
白俄罗斯媒体:白俄罗斯国防部长称,边境出现“前所未有”军事集结

白俄罗斯媒体:白俄罗斯国防部长称,边境出现“前所未有”军事集结

环球网资讯
2026-01-13 17:23:12
卖掉21吨银条,狂赚2.47亿!广州一物管公司靠炒白银火了,股民直呼:老板娘牛!

卖掉21吨银条,狂赚2.47亿!广州一物管公司靠炒白银火了,股民直呼:老板娘牛!

时代财经
2026-01-13 00:10:30
全市集中整治!西安公安交警查获145例!

全市集中整治!西安公安交警查获145例!

环球网资讯
2026-01-13 17:02:14
欣旺达的至暗时刻:沃尔沃全球召回、吉利23亿索赔,生死局!

欣旺达的至暗时刻:沃尔沃全球召回、吉利23亿索赔,生死局!

新浪财经
2026-01-12 23:06:58
A股收评:3.7万亿元!成交额再创历史天量,深证成指、创业板指跌逾1.3%,商业航天板块大退潮

A股收评:3.7万亿元!成交额再创历史天量,深证成指、创业板指跌逾1.3%,商业航天板块大退潮

格隆汇
2026-01-13 15:06:04
“摇人按猪”女孩呆呆最新回应:今日家里不再举办刨猪宴;当地文旅:考虑把1月11日设立为合川“杀猪节”

“摇人按猪”女孩呆呆最新回应:今日家里不再举办刨猪宴;当地文旅:考虑把1月11日设立为合川“杀猪节”

大风新闻
2026-01-13 12:03:03
需求激增近1000%,发布15年的手机突然爆红,此前回收价格5元一个

需求激增近1000%,发布15年的手机突然爆红,此前回收价格5元一个

环球网资讯
2026-01-13 15:17:55
2026-01-13 17:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
324349文章数 606879关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

美媒:特朗普政府对伊朗军事行动选项"远超传统空袭"

头条要闻

美媒:特朗普政府对伊朗军事行动选项"远超传统空袭"

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

游戏
本地
亲子
公开课
军事航空

打折就是王道?这款5年前的游戏冬促三周狂卖百万份

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

亲子要闻

复旦儿科医联体体重管理联盟来了!将重点加强儿童超重肥胖危险因素的监测与评估

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒:美对伊朗行动选项"远超传统空袭"

无障碍浏览 进入关怀版