网易首页 > 网易号 > 正文 申请入驻

狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max

0
分享至

  • 闻乐 发自 凹非寺
  • 量子位 | 公众号 QbitAI

Gemini 3力压全场,OpenAI坐不住了。

发布Codex新版本——GPT-5.1-Codex-Max,突破上下文窗口限制,实现跨越数百万token的长时间连续工作,最长超过24小时的那种。



新模型任务效率也更高。它做的太阳系引力沙盒和上一代GPT-5.1-Codex的对比是这样的(多加了几个“太阳”看引力效果):




△上:GPT-5.1-Codex-Max 下:GPT-5.1-Codex

资源消耗是这样的:



于是,奥特曼昨天刚夸完Gemini 3,今天又赶来给自家GPT-5.1-Codex-Max站台,咱说这也太忙了(doge)。



新版本在METR达到新SOTA。这个指标衡量的是,用人类做任务的时间当参照,看AI有一半概率能搞定同款任务的能力。

其实就是先看人类做某类软件工程任务得花X小时,然后看AI模型能不能有50%的概率,把这项任务给完成了。

上面数据说明,在这种情况下,GPT-5-Codex-Max有50%的概率能够成功完成一项原本需要人类2小时42分钟完成的软件工程任务。

这比GPT-5对标的时间还多了25分钟。

超长待机

AI编程现在这么火,各家也都在奋力加码自家模型。

在这个前沿赛道,模型处理复杂任务的推理能力、持久力与稳定性,始终是衡量效能的关键指标。

而GPT-5.1-Codex-Max这次也是做了大升级。

首先,它在PR创建、代码审查等实际软件工程任务中训练,推理变得更快更有效。也是OpenAI首个能在Windows环境中的模型。



在SWE-bench Verified测试中,同样medium推理力度下,它比之前的GPT‑5.1-Codex性能更好,且思考token使用减少了30%



而且针对非延迟敏感任务还推出了xhigh推理力度选项,思考时间更长答案更好。

说到思考时间长,这次的新版本对于长时间运行任务的处理也比较出色,能够实现“超长待机”,跨多个上下文窗口连贯工作。

这是因为GPT-5.1-Codex-Max原生支持压缩,突破了上下文窗口限制。

具体来说,在接近上下文窗口限制时,模型会自动压缩对话,获得新上下文窗口然后继续任务,直到完成。



在内部评估中,它能一次独立运行超过24小时,连贯处理数百万个token。

看样子,新模型在处理长运行、高强度的任务上比较有优势。

比如,它在应对书籍、长文档分析等超长篇幅任务时,就无需拆分内容,避免信息割裂产生的理解偏差。

也能支撑高负载、长周期的持续工作。

OpenAI研究员Noam Brown对此表示:(虽然现在表现就很不错但)尚未遇到瓶颈,还没达到极限。



目前,GPT-5.1-Codex-Max已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用,API接口很快也会上线。

当然了,新的编程模型一出,Claude是肯定会被拉出来遛一下的。

  • 相比之下,Claude Code速度更快。



  • 新版Codex的token消耗量更友好。



  • 或许,Claude和Codex的组合拳更能打。



OMT

一天时间,Gemini 3、Grok 4.1 Fast、GPT-5.1-Codex-Max都来了,好一个硅谷345组团上新(doge)。

这位网友你真相了说得有道理。



实际上,OpenAI这次还悄悄发布了GPT-5.1 Pro。



虽然官方介绍仅有寥寥几笔,但通过第三方测评来看,这个Pro版本看上去还是有点东西的。



尤其是在指令遵循方面做得更好。



虽然在一定程度上和Gemini 3有差距,但如果能接入IDE,将发挥出更大的潜力。




[1]https://x.com/polynoamial
[2]https://openai.com/index/gpt-5-1-codex-max/
[3]https://x.com/sama/status/1991258606168338444
[4]https://x.com/OpenAI/status/1991266192905179613
[5]https://news.ycombinator.com/item?id=45982649
[6]https://x.com/mattshumer_/status/1991263717820948651

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Lululemon新款瑜伽裤因易走光下架后重新上架,中国电商渠道暂未销售,创始人发声:公司已经完全迷失方向

Lululemon新款瑜伽裤因易走光下架后重新上架,中国电商渠道暂未销售,创始人发声:公司已经完全迷失方向

鲁中晨报
2026-01-24 21:59:13
香港一酒店发生命案,七旬夫妇一死一伤!妻子涉嫌谋杀被拘捕

香港一酒店发生命案,七旬夫妇一死一伤!妻子涉嫌谋杀被拘捕

南方都市报
2026-01-23 18:11:05
3-1,英超第18掀翻英超第9,21岁葡萄牙新星飙无敌远程世界波

3-1,英超第18掀翻英超第9,21岁葡萄牙新星飙无敌远程世界波

侧身凌空斩
2026-01-24 22:24:59
恐怖12-1!U23亚洲杯第一强队诞生,若中国队无缘冠军,别骂他们

恐怖12-1!U23亚洲杯第一强队诞生,若中国队无缘冠军,别骂他们

侃球熊弟
2026-01-24 00:10:03
世上没有不透风的墙!杨紫案终于判了,强制执行,结局大快人心

世上没有不透风的墙!杨紫案终于判了,强制执行,结局大快人心

悦君兮君不知
2026-01-23 23:15:59
不打了!再见字母哥!NBA将诞生轰动大交易

不打了!再见字母哥!NBA将诞生轰动大交易

篮球实战宝典
2026-01-24 19:32:41
解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社
2026-01-24 23:03:04
U23国足连丢4球!创亚洲杯尴尬纪录,又是折射丢球,李昊看傻眼

U23国足连丢4球!创亚洲杯尴尬纪录,又是折射丢球,李昊看傻眼

奥拜尔
2026-01-25 00:41:42
亚洲杯U23决赛:中国u23vs日本u23 赛事前瞻

亚洲杯U23决赛:中国u23vs日本u23 赛事前瞻

白国华
2026-01-24 17:52:38
房东慌了!身份被实锤,真实目的被扒,嫣然医院新址确定后着急了

房东慌了!身份被实锤,真实目的被扒,嫣然医院新址确定后着急了

有范又有料
2026-01-24 16:26:39
工厂停摆、门店撤退:理想汽车的“严冬”,比预想中来得更冷

工厂停摆、门店撤退:理想汽车的“严冬”,比预想中来得更冷

科技Nice
2026-01-23 11:27:59
震惊!网传上海一公司招聘13名海归,4男按时提交,9女都未提交…

震惊!网传上海一公司招聘13名海归,4男按时提交,9女都未提交…

火山诗话
2026-01-24 21:37:07
联合国通过调查伊朗镇压决议,中国投反对票

联合国通过调查伊朗镇压决议,中国投反对票

桂系007
2026-01-24 19:59:37
强阵冲首冠!U23国足VS日本首发:向余望连场先发,拜合拉木替补

强阵冲首冠!U23国足VS日本首发:向余望连场先发,拜合拉木替补

我爱英超
2026-01-24 21:37:03
女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

以茶带书
2026-01-24 17:15:26
武汉、宜昌入选!全国拟开展有奖发票试点城市名单公示

武汉、宜昌入选!全国拟开展有奖发票试点城市名单公示

极目新闻
2026-01-24 13:48:17
泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

史政先锋
2026-01-23 22:41:06
梦回朱日和:张又侠挂帅,“多维侦察平台”点亮演兵场!

梦回朱日和:张又侠挂帅,“多维侦察平台”点亮演兵场!

华山穹剑
2025-12-02 20:31:08
王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

奥拜尔
2026-01-24 23:43:02
军委副主席,过去四十年来人数上的变化

军委副主席,过去四十年来人数上的变化

深度财线
2025-10-21 13:06:54
2026-01-25 00:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12058文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

旅游
数码
本地
艺术
军事航空

旅游要闻

世界旅游休闲中心招牌愈加夺目——2025年澳门入境旅客数据解读

数码要闻

UnifyDrive UC250/450 Pro家庭存储NAS发布,配置与价格曝光

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

634米!世界第一高塔:东京晴空塔建设纪实

军事要闻

俄美乌首次三方会谈在阿联酋举行

无障碍浏览 进入关怀版