网易首页 > 网易号 > 正文 申请入驻

OpenAI发布最强编程模型:AI程序员能“通宵”,性能跑分反超谷歌

0
分享至

IT之家 11 月 20 日消息,OpenAI 昨日(11 月 19 日)发布博文,宣布推出 GPT-5.1-Codex-Max 智能体编程模型,显著提升了长远推理能力、效率和实时交互能力。此外该模型将取代 GPT-5.1-Codex,成为 Codex 集成界面上的默认模型。


IT之家援引博文介绍,此次发布紧随谷歌 Gemini 3 Pro 之后,但在多个关键编程基准测试中,Codex-Max 展现出更强的实力。例如,在衡量解决实际软件问题的 SWE-Bench Verified 测试中,Codex-Max 以 77.9% 的准确率小幅领先于 Gemini 3 Pro 的 76.2%。



Codex-Max 在 Terminal-Bench 2.0 测试中也领先,准确率达到 58.1%,而 Gemini 的准确率为 54.2%;在 LiveCodeBench Pro(一项竞争激烈的编码 Elo 基准测试)测试中,它的得分与 Gemini 的 2439 分持平。


GPT-5.1-Codex-Max 的一项重大架构升级是引入了名为“压缩”(Compaction)的机制。该机制允许模型在接近其上下文窗口限制时,智能地保留关键上下文信息并丢弃无关细节,从而实现跨越数百万 token 的连续工作而不会出现性能下降。


得益于此,该模型在内部测试中已成功完成持续超过 24 小时的复杂任务,如多步骤代码重构和自主调试。同时,这项技术还提升了约 30% 的 token 效率,有效降低了成本与延迟。

新模型目前已集成到 OpenAI 自家的多个 Codex 开发环境中,包括其官方命令行工具(Codex CLI)、内部代码审查工具以及各类交互式编程环境。

开发者可以通过这些工具体验到模型强大的实时交互能力,例如在可视化界面中进行强化学习训练或模拟光学定律。不过,GPT-5.1-Codex-Max 尚未通过公共 API 提供,但官方表示即将开放。普通用户则需要订阅 ChatGPT Plus、Pro 或企业版等付费计划才能使用。

OpenAI 透露,其内部 95% 的工程师每周都会使用 Codex,自采用以来,这些工程师平均多提交了约 70% 的拉取请求(Pull Requests),显著提升了内部开发速度。

尽管 Codex-Max 具备高度的自主性,OpenAI 仍强调它应作为编码“助手”而非人类的替代品。为保证透明度,模型会生成详细的终端日志和测试引用,以便开发者审查和验证其生成的所有代码。此外,模型在默认情况下运行于严格的沙盒环境中,并禁用了网络访问,以确保安全性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

草莓解说体育
2026-02-06 05:59:56
疯狂27-0大逆转!公牛拒被雄鹿横扫终结11连败 吉迪20+14+10

疯狂27-0大逆转!公牛拒被雄鹿横扫终结11连败 吉迪20+14+10

醉卧浮生
2026-03-02 06:50:10
演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

乐悠悠娱乐
2026-03-01 10:27:25
艾哈迈德·瓦希迪将担任伊朗伊斯兰革命卫队总司令

艾哈迈德·瓦希迪将担任伊朗伊斯兰革命卫队总司令

财联社
2026-03-01 15:42:18
特朗普就对伊朗军事行动计划重大发声!避险情绪爆棚 金价一度暴涨114美元

特朗普就对伊朗军事行动计划重大发声!避险情绪爆棚 金价一度暴涨114美元

新浪财经
2026-03-02 10:55:39
美国或放弃让伊朗国王之子巴列维上位

美国或放弃让伊朗国王之子巴列维上位

财联社
2026-03-01 09:12:13
430分生死战!郑钦文亮出隐藏杀招,新教练能否救赎23位危机?

430分生死战!郑钦文亮出隐藏杀招,新教练能否救赎23位危机?

卿子书
2026-03-02 09:48:37
国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

荆医生科普
2026-02-28 23:05:03
杨紫真的已经瘦到天赋上限了,这也太牛了…

杨紫真的已经瘦到天赋上限了,这也太牛了…

手工制作阿歼
2026-02-22 13:25:34
女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

大熊欢乐坊
2026-02-28 01:40:08
从水货到救世主!只用了一个换帅的距离,7650万锋霸4球带来10分

从水货到救世主!只用了一个换帅的距离,7650万锋霸4球带来10分

体坛老球迷
2026-03-02 09:50:21
允美使用英国基地,斯塔默:不参与对伊朗主动攻击

允美使用英国基地,斯塔默:不参与对伊朗主动攻击

星岛记事
2026-03-02 11:26:57
正月十五吃元宵,牢记:5注意,7不宜!为了家人身体健康,别犯错

正月十五吃元宵,牢记:5注意,7不宜!为了家人身体健康,别犯错

简食记工作号
2026-03-01 00:13:14
阿联酋应对137枚导弹209架无人机袭击

阿联酋应对137枚导弹209架无人机袭击

每日经济新闻
2026-03-01 12:19:49
黄巢兵败被杀,10余名姬妾被俘,唐僖宗报复有多狠?史官都不敢写

黄巢兵败被杀,10余名姬妾被俘,唐僖宗报复有多狠?史官都不敢写

掠影后有感
2026-03-01 10:09:20
开战第二天,美军航母被炸,特朗普同意对话,伊朗最大敌人浮现

开战第二天,美军航母被炸,特朗普同意对话,伊朗最大敌人浮现

带你领略世界风采
2026-03-02 10:15:54
现在低价卖掉房子的人,都将后悔?楼市传来3个消息,获网友支持

现在低价卖掉房子的人,都将后悔?楼市传来3个消息,获网友支持

专业聊房君
2026-03-01 16:44:08
中国男篮险胜中国台北!郭士强抱住陈盈骏与王晗,全员呐喊庆祝!

中国男篮险胜中国台北!郭士强抱住陈盈骏与王晗,全员呐喊庆祝!

篮球资讯达人
2026-03-01 18:12:11
GPS关闭,导弹系统失灵?两国幸免,美国意外

GPS关闭,导弹系统失灵?两国幸免,美国意外

羽逸地之光
2026-03-02 00:54:24
从委内瑞拉看中国,终于懂了当初毛主席为什么要选择这么做!

从委内瑞拉看中国,终于懂了当初毛主席为什么要选择这么做!

阿物评论哥
2026-01-12 08:12:43
2026-03-02 11:59:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
331755文章数 607030关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

房产
健康
艺术
游戏
军事航空

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

转头就晕的耳石症,能开车上班吗?

艺术要闻

2025北京青年美术作品展 | 油画作品选刊

刺客信条幻景D加密遭攻克!这次不靠虚拟机

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版