网易首页 > 网易号 > 正文 申请入驻

狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max

0
分享至

  • 闻乐 发自 凹非寺
  • 量子位 | 公众号 QbitAI

Gemini 3力压全场,OpenAI坐不住了。

发布Codex新版本——GPT-5.1-Codex-Max,突破上下文窗口限制,实现跨越数百万token的长时间连续工作,最长超过24小时的那种。



新模型任务效率也更高。它做的太阳系引力沙盒和上一代GPT-5.1-Codex的对比是这样的(多加了几个“太阳”看引力效果):




△上:GPT-5.1-Codex-Max 下:GPT-5.1-Codex

资源消耗是这样的:



于是,奥特曼昨天刚夸完Gemini 3,今天又赶来给自家GPT-5.1-Codex-Max站台,咱说这也太忙了(doge)。



新版本在METR达到新SOTA。这个指标衡量的是,用人类做任务的时间当参照,看AI有一半概率能搞定同款任务的能力。

其实就是先看人类做某类软件工程任务得花X小时,然后看AI模型能不能有50%的概率,把这项任务给完成了。

上面数据说明,在这种情况下,GPT-5-Codex-Max有50%的概率能够成功完成一项原本需要人类2小时42分钟完成的软件工程任务。

这比GPT-5对标的时间还多了25分钟。

超长待机

AI编程现在这么火,各家也都在奋力加码自家模型。

在这个前沿赛道,模型处理复杂任务的推理能力、持久力与稳定性,始终是衡量效能的关键指标。

而GPT-5.1-Codex-Max这次也是做了大升级。

首先,它在PR创建、代码审查等实际软件工程任务中训练,推理变得更快更有效。也是OpenAI首个能在Windows环境中的模型。



在SWE-bench Verified测试中,同样medium推理力度下,它比之前的GPT‑5.1-Codex性能更好,且思考token使用减少了30%



而且针对非延迟敏感任务还推出了xhigh推理力度选项,思考时间更长答案更好。

说到思考时间长,这次的新版本对于长时间运行任务的处理也比较出色,能够实现“超长待机”,跨多个上下文窗口连贯工作。

这是因为GPT-5.1-Codex-Max原生支持压缩,突破了上下文窗口限制。

具体来说,在接近上下文窗口限制时,模型会自动压缩对话,获得新上下文窗口然后继续任务,直到完成。



在内部评估中,它能一次独立运行超过24小时,连贯处理数百万个token。

看样子,新模型在处理长运行、高强度的任务上比较有优势。

比如,它在应对书籍、长文档分析等超长篇幅任务时,就无需拆分内容,避免信息割裂产生的理解偏差。

也能支撑高负载、长周期的持续工作。

OpenAI研究员Noam Brown对此表示:(虽然现在表现就很不错但)尚未遇到瓶颈,还没达到极限。



目前,GPT-5.1-Codex-Max已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用,API接口很快也会上线。

当然了,新的编程模型一出,Claude是肯定会被拉出来遛一下的。

  • 相比之下,Claude Code速度更快。



  • 新版Codex的token消耗量更友好。



  • 或许,Claude和Codex的组合拳更能打。



OMT

一天时间,Gemini 3、Grok 4.1 Fast、GPT-5.1-Codex-Max都来了,好一个硅谷345组团上新(doge)。

这位网友你真相了说得有道理。



实际上,OpenAI这次还悄悄发布了GPT-5.1 Pro。



虽然官方介绍仅有寥寥几笔,但通过第三方测评来看,这个Pro版本看上去还是有点东西的。



尤其是在指令遵循方面做得更好。



虽然在一定程度上和Gemini 3有差距,但如果能接入IDE,将发挥出更大的潜力。




[1]https://x.com/polynoamial
[2]https://openai.com/index/gpt-5-1-codex-max/
[3]https://x.com/sama/status/1991258606168338444
[4]https://x.com/OpenAI/status/1991266192905179613
[5]https://news.ycombinator.com/item?id=45982649
[6]https://x.com/mattshumer_/status/1991263717820948651

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方不见日本首相,不到24小时,日本大秀肌肉,自卫队亮相电磁炮

中方不见日本首相,不到24小时,日本大秀肌肉,自卫队亮相电磁炮

博览历史
2025-11-19 18:30:28
京东001号快递员退休1年多,勤恳工作16年,刘强东承诺的房给了吗

京东001号快递员退休1年多,勤恳工作16年,刘强东承诺的房给了吗

揽星河的笔记
2025-10-30 21:38:08
没想到,高市早苗涉华言论风波没完,矢野浩二因一个举动口碑暴涨

没想到,高市早苗涉华言论风波没完,矢野浩二因一个举动口碑暴涨

负面黑洞
2025-11-19 15:04:06
沈伯洋逃回台湾,德国财长抵华,解放军四面围岛,外势力休想进来

沈伯洋逃回台湾,德国财长抵华,解放军四面围岛,外势力休想进来

青途历史
2025-11-18 07:37:46
有文化就是不一样!看看喻恩泰的回应,短短几句话就让他口碑逆转

有文化就是不一样!看看喻恩泰的回应,短短几句话就让他口碑逆转

小娱乐悠悠
2025-11-20 09:08:53
19分大逆转!广东U22男篮非常强势,击败山东夺冠

19分大逆转!广东U22男篮非常强势,击败山东夺冠

德译洋洋
2025-11-20 22:19:54
东部第二,历史第一,三巨头合砍100+,湖人要后悔了

东部第二,历史第一,三巨头合砍100+,湖人要后悔了

体育新角度
2025-11-20 19:32:22
笑死了!年轻人上班不必唯唯诺诺,因为大家都在不同领域捅娄子呢

笑死了!年轻人上班不必唯唯诺诺,因为大家都在不同领域捅娄子呢

夜深爱杂谈
2025-11-19 21:57:39
搞笑图片第1062期:这世界上还有什么业务是没有被挖掘的?

搞笑图片第1062期:这世界上还有什么业务是没有被挖掘的?

今天的快乐
2025-11-19 22:18:18
47岁王一楠在家做豆花,脸垮肉松眼袋水肿,戴手套烧火像农村妇女

47岁王一楠在家做豆花,脸垮肉松眼袋水肿,戴手套烧火像农村妇女

小彭美识
2025-11-18 16:28:24
狂轰51分创纪录!中国男篮又一18岁超级新星崛起:场均39+4冲冠

狂轰51分创纪录!中国男篮又一18岁超级新星崛起:场均39+4冲冠

李喜林篮球绝杀
2025-11-17 12:10:02
台湾退役少校怒怼日本:这次千万别投降

台湾退役少校怒怼日本:这次千万别投降

扬子晚报
2025-11-18 12:25:32
事关养老金发放!山东最新调整→

事关养老金发放!山东最新调整→

潍坊齐鲁网
2025-11-20 18:01:05
深挖 | 骑摩托、玩摇滚、猜拳赢了让老公跟自己姓……高市早苗,要多野有多野!

深挖 | 骑摩托、玩摇滚、猜拳赢了让老公跟自己姓……高市早苗,要多野有多野!

新民周刊
2025-11-18 13:07:03
挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

挖出戴手铐的女遗骨,鉴定后确定,她就是中央苦苦寻找的人!

老呶侃史
2025-11-16 18:45:42
美媒:特朗普批准结束俄乌冲突的28点新计划

美媒:特朗普批准结束俄乌冲突的28点新计划

新京报
2025-11-20 18:03:08
32国八十万重兵,乌军刚投降,武契奇发出战争警告,中国有言在先

32国八十万重兵,乌军刚投降,武契奇发出战争警告,中国有言在先

历史求知所
2025-11-19 11:55:03
离谱!女子持枪劫囚车,却因“高颜值”成全网梦中情人?

离谱!女子持枪劫囚车,却因“高颜值”成全网梦中情人?

英国报姐
2025-11-20 22:11:33
正式确定!中国男篮新星加盟广东宏远,朱芳雨大获全胜,未来可期

正式确定!中国男篮新星加盟广东宏远,朱芳雨大获全胜,未来可期

体坛瞎白话
2025-11-20 11:13:52
3次精准预言俄乌走向,这位历史老师的眼光有多毒?

3次精准预言俄乌走向,这位历史老师的眼光有多毒?

麦大人
2025-11-05 15:45:51
2025-11-20 22:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
11718文章数 176335关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

专家:高市言论或跟军事部署挂钩 中方要有应对政策

头条要闻

专家:高市言论或跟军事部署挂钩 中方要有应对政策

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

家居
教育
游戏
数码
公开课

家居要闻

黑白极简 慵懒通透空间

教育要闻

风云再起!朝阳“双雄”华山论剑!

《四海兄弟:故乡》推出“自由模式”免费更新

数码要闻

M5 Apple Vision Pro将于11月28日在韩国和台湾上市

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版