网易首页 > 网易号 > 正文 申请入驻

OpenAI发布最强编程模型:AI程序员能“通宵”,性能跑分反超谷歌

0
分享至

IT之家 11 月 20 日消息,OpenAI 昨日(11 月 19 日)发布博文,宣布推出 GPT-5.1-Codex-Max 智能体编程模型,显著提升了长远推理能力、效率和实时交互能力。此外该模型将取代 GPT-5.1-Codex,成为 Codex 集成界面上的默认模型。

IT之家援引博文介绍,此次发布紧随谷歌 Gemini 3 Pro 之后,但在多个关键编程基准测试中,Codex-Max 展现出更强的实力。例如,在衡量解决实际软件问题的 SWE-Bench Verified 测试中,Codex-Max 以 77.9% 的准确率小幅领先于 Gemini 3 Pro 的 76.2%。

Codex-Max 在 Terminal-Bench 2.0 测试中也领先,准确率达到 58.1%,而 Gemini 的准确率为 54.2%;在 LiveCodeBench Pro(一项竞争激烈的编码 Elo 基准测试)测试中,它的得分与 Gemini 的 2439 分持平。

GPT-5.1-Codex-Max 的一项重大架构升级是引入了名为“压缩”(Compaction)的机制。该机制允许模型在接近其上下文窗口限制时,智能地保留关键上下文信息并丢弃无关细节,从而实现跨越数百万 token 的连续工作而不会出现性能下降。

得益于此,该模型在内部测试中已成功完成持续超过 24 小时的复杂任务,如多步骤代码重构和自主调试。同时,这项技术还提升了约 30% 的 token 效率,有效降低了成本与延迟。

新模型目前已集成到 OpenAI 自家的多个 Codex 开发环境中,包括其官方命令行工具(Codex CLI)、内部代码审查工具以及各类交互式编程环境。

开发者可以通过这些工具体验到模型强大的实时交互能力,例如在可视化界面中进行强化学习训练或模拟光学定律。不过,GPT-5.1-Codex-Max 尚未通过公共 API 提供,但官方表示即将开放。普通用户则需要订阅 ChatGPT Plus、Pro 或企业版等付费计划才能使用。

OpenAI 透露,其内部 95% 的工程师每周都会使用 Codex,自采用以来,这些工程师平均多提交了约 70% 的拉取请求(Pull Requests),显著提升了内部开发速度。

尽管 Codex-Max 具备高度的自主性,OpenAI 仍强调它应作为编码“助手”而非人类的替代品。为保证透明度,模型会生成详细的终端日志和测试引用,以便开发者审查和验证其生成的所有代码。此外,模型在默认情况下运行于严格的沙盒环境中,并禁用了网络访问,以确保安全性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

红星新闻
2026-06-03 13:18:18
苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

三湘都市报
2026-06-03 13:19:08
25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

映射生活的身影
2026-06-03 08:35:49
*ST闻泰演绎“天地板”走势

*ST闻泰演绎“天地板”走势

证券时报
2026-06-03 10:26:40
血压飙升!上海父亲晒聊天记录,“巨婴”儿子强行索要2万旅游费

血压飙升!上海父亲晒聊天记录,“巨婴”儿子强行索要2万旅游费

火山詩话
2026-06-02 14:27:07
Mind Lab连续发布LoRA最新进展,大模型「持续学习」新范式浮现

Mind Lab连续发布LoRA最新进展,大模型「持续学习」新范式浮现

机器之心Pro
2026-06-02 11:23:14
一男子手术失败快不行了,妻子抱着他哭得肝肠寸断,谁料,男子却凑到妻子耳边说了句话,听完当场就笑了...

一男子手术失败快不行了,妻子抱着他哭得肝肠寸断,谁料,男子却凑到妻子耳边说了句话,听完当场就笑了...

背包旅行
2026-06-03 14:55:25
男子为寻“刺激”半夜侵犯女性,2016年33名女子遭侵犯仅4人报案

男子为寻“刺激”半夜侵犯女性,2016年33名女子遭侵犯仅4人报案

汉史趣闻
2026-06-03 10:50:35
不靠数据,靠本能:9位清华博士用「具身本能」跑通工业产线

不靠数据,靠本能:9位清华博士用「具身本能」跑通工业产线

机器之心Pro
2026-06-02 10:11:03
日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

互联鱼
2026-06-02 19:32:57
演员黄宗泽透露不结婚的原因:一出生父母就已经离婚了,自己没有家庭的画面,对我来说有家庭不是圆满

演员黄宗泽透露不结婚的原因:一出生父母就已经离婚了,自己没有家庭的画面,对我来说有家庭不是圆满

台州交通广播
2026-06-02 22:45:47
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
交通运输部原总工程师徐亚华被查

交通运输部原总工程师徐亚华被查

新京报
2026-06-03 15:21:11
Shams:库里与李宁10年合同总价超4亿美元,他曾拒绝更丰厚报价

Shams:库里与李宁10年合同总价超4亿美元,他曾拒绝更丰厚报价

懂球帝
2026-06-03 09:53:28
涉嫌严重违纪违法,谢文辉被查

涉嫌严重违纪违法,谢文辉被查

都市快报橙柿互动
2026-06-02 18:36:19
“King Sir”钟景辉,今早睡梦中去世

“King Sir”钟景辉,今早睡梦中去世

南方都市报
2026-06-03 16:06:22
黄仁勋重新做电脑:七大行业被判死缓,九大行业即将狂飙

黄仁勋重新做电脑:七大行业被判死缓,九大行业即将狂飙

今纶财经
2026-06-02 19:38:24
不到24小时,美国接连迎来三大坏消息,内部实情已被曝光

不到24小时,美国接连迎来三大坏消息,内部实情已被曝光

策前论
2026-06-03 14:52:30
“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

“价格暴涨近1000%”,深圳有老板被追着出货,亿元大单明显增多;我国3D打印机出口,深圳企业占比86%

深圳梦
2026-06-02 20:54:51
女子独游罗马,惨遭5人囚禁、轮奸3天

女子独游罗马,惨遭5人囚禁、轮奸3天

侠客栈
2026-06-01 13:33:10
2026-06-03 17:16:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
347695文章数 607267关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

家居
房产
旅游
亲子
艺术

家居要闻

江畔轻奢 观云大宅

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

旅游要闻

海拔3666米的牛背山,凭啥承接“登超”?

亲子要闻

“托举孩子进山姆”:“全职宝妈”错了,但也不必网暴 | 新京报快评

艺术要闻

二十年前割麦的场景

无障碍浏览 进入关怀版