网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI深夜双王炸！GPT-5.1 Pro紧急发布，降维打击Gemini 3

2025-11-20 11:22:59　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子好困

【新智元导读】今天，是OpenAI的主场，同一天祭出两大杀器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最强编码模型首次采用「压缩」机制，在数百万token上连续编程超24小时。

AI圈一日一更的频率，真的是有点跟不住了....

前两天，先是Grok 4.1、Gemini 3 Pro发布，今天OpenAI GPT-5.1 Pro也静默登场了！

没有一篇博文，仅有两句话官宣。

众所周知，GPT-5.1主打「情商智商」双强，Pro无疑将这两大优势推向更高层次。

同一天，OpenAI全新王牌代码模型GPT-5.1-Codex-Max，已经在Codex平台正式上线了！

从命名上不难看出，它是基于GPT-5.1搭载，并在软件、工程、数学、研究等智能体任务专门训练。

由此，GPT-5.1-Codex-Max能力更强、反应更快，而且用起来更省token。

新模型是专为「长时间、高强度」的开发任务而设计。

就这么说吧，它能连续自主工作超24小时，一口气处理数百万token，直接交付成果的那种。

这恰恰印证了，Scaling Law还在永续。

这是因为，GPT-5.1-Codex-Max是OpenAI首个「原生支持压缩」机制的模型，可以跨越多个上下文工作。

这下，像项目重构、深度调试、多小时智能体循环这些任务，它都能稳稳接住。

目前，GPT-5.1 Pro已向所有Pro订阅用户推出。

GPT-5.1-Codex-Max已在Codex 中支持CLI、IDE 扩展、云端和代码审查使用，API接口也将很快上线。

2025年临近收官，AI终极对决一触即发，GPT-5.1 Pro与Gemini 3 Pro之间，胜负之手将落于谁家？

OpenAI最强编程模型

这次的GPT-5.1-Codex-Max，那可是在「真实战场」上炼出来的！

诸如在PR创建、代码审查、前端开发、问答等工程师常见任务中，全部做过专门训练。

在多项前沿编码评测中，它都轻松超越了OpenAI此前所有模型。

还有在SWE-bench Verified上的评估结果中，GPT-5.1-Codex-Max拿下了77.9%的高分。

GPT-5.1-Codex-Max不仅跑分高，实际体验更是大升级！

它是OpenAI首个可以在Windows环境中运行的模型，训练中还针对Codex CLI协作场景做了优化，更好用了。

思考token暴降30%

不仅如此，GPT-5.1-Codex-Max用起来也更省钱了。

在同样「medium」（中等）推理强度下，它不光表现比GPT-5.1-Codex更好，而且思考过程所用的token量减少约30%。

对于不敏感于延迟的任务，新增的「Extra High」（xhigh）推理强度，可花费更多时间获得优质答案。

不过，日常使用的话，OpenAI还是推荐medium。

token省下来了，这就意味着在实际开发中，成本可以大幅降低，可谓开发者的福音。

下面这些demo中，清晰呈现了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差异。即便是token减少，前者在前端设计中的功能和颜值都不输以往。

比如，让它们生成一个浏览器应用——即可交互的CartPole强化学习沙盒，需要包括小型策略梯度控制器、指标面板，以及一个SVG网络可视化器。

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max仅用27k思考token完成了任务，而且代码更加精简。

这个demo要求的是，做一个太阳系引力井沙盒，需要可视化物体在2D引力势场中的运动，并支拖动平移视图、环绕观察场景。

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max同样用了更少的token，和更精炼的代码完成了任务。

GPT-5.1-Codex-Max这么强，是因为采用了一套全新机制。

狂跑一天，全是「压缩」

「压缩」机制让GPT-5.1-Codex-Max突破限制，处理那些因上下文太长而原本无法完成的任务。

比如，复杂重构和长时间智能体循环。

它会自动整理历史内容，筛选保留最关键的上下文，从而实现在长时间跨度内连贯性。

在Codex中，当接近上下文上限时，GPT-5.1-Codex-Max会自动执行会话压缩，刷新上下文，并多次重复这一过程直到任务完成。

下面这个案例中，GPT-5.1-Codex-Max正在自主重构Codex CLI的开源仓库。

可以看到，当上下文快满时，它会自动压缩释放空间，从而在不丢失进度情况下完成任务。

视频已经过剪辑和加速处理，以便更清楚地展示过程

内部测试显示，GPT-5.1-Codex-Max能连续自主工作超24小时。

在此期间，可以不断迭代实现、修复测试失败，并最终交付可用成果。

这种长时间、连贯的任务能力，是迈向更通用、更可靠AI系统的通用基石。

在METR评估中，GPT-5.1-Codex-Max长程任务能力，成为了新的SOTA。

在OpenAI内部，已有95%工程师每周都在用Codex，自从引入之后，团队的Pull Request数量提升约70%。

现在，GPT-5.1-Codex-Max搭配着持续升级的CLI、IDE 扩展、云集成与代码审查工具，编程效率直接起飞。

一些网友试用第一手感觉，瞬间惊艳了。

GPT-5.1 Pro上线，首测来了

至于GPT-5.1 Pro，正如开篇所说，OpenAI只是在版本更新日志里写了两段介绍。

虽然官方没有单开一篇博客，但提前拿到内测资格的大佬们，都非常兴奋地在第一时间放出了自己的体验感受。

对于GPT-5.1迭代后的性能，Epoch AI三方评估后称，几乎与GPT-5实力相当。

它们在high（高）推理模式下，能力指数（ECI）得分均151。

杰克森实验室教授、人类免疫学家Derya Unutmaz表示，性能相较之前明显提升了一个档次的GPT-5.0 Pro，是他现在最喜爱的模型。

在下面的例子中，他分别向5.0和5.1 Pro询问了免疫学领域最重要的未解之谜，并要求这两个模型深入浅出地剖析每个问题，以便让没有免疫学学位的人也能理解其重要性。

其中，前两个回复来自GPT-5.1 Pro，接下来的两个较短回复来自GPT-5.0。

可以看到，GPT-5.1 Pro明显更胜一筹，因为它能让没有免疫学背景的人更轻松地理解这些解释，并且清晰地阐明了这些问题的重要性和潜在价值。

对比而言，GPT-5.1 Pro在清晰度和洞察力方面都有质的提升。它的回答在保持深度的同时，内容更完整自洽、更形象生动、也更易于理解。

虽然GPT-5.0的回复在内容上也同样出色，但剖析得不够透彻。

GPT-5.1 Pro

GPT-5.0

HyperWrite AI的CEO Matt Shumer也在一篇超级长的体验报告中表示：GPT-5.1 Pro是目前最好的「大脑」，虽然很慢，但深思熟虑。

对于大多数日常工作，Gemini 3更好；毕竟在一个独立的界面中等待10分钟才能得到答案显然并不理想。

但对于任何需要深入思考、规划和研究的任务，以及任何必须一次性做对的事情，GPT-5.1 Pro更好。

长文地址：https://shumer.dev/gpt51proreview

反应较慢，但聪明得离谱

它不仅比大多数人类更擅长推理，而且在处理真正棘手的难题时，也比其他任何模型都要聪明。

预计几天内，就会出现它解决了一些人们认为当今AI系统力所不及的问题的例子。

指令遵循能力是最大的亮点

它真的会严格执行你的要求，而不会跑偏。

对于严肃的编码任务，它给人的感觉不那么像一个「助手」，而更像是一个依据规格说明书工作的外包工程师（哪怕你的规格说明书有点模糊）。

前端和用户体验设计，以及写作，都是弱项

不管是创意写作，还是设计漂亮的UI，Gemini 3都要更胜一筹。

但最大的弱点还是界面

它只能在ChatGPT中使用，无法集成到IDE里，也无法连接到其他工具链中。这一点与GPT-5 Pro如出一辙。

参考资料：

https://x.com/OpenAI/status/1991266192905179613?s=20

https://x.com/OpenAIDevs/status/1991217488550359066?s=20

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

陈梦女团夺冠喜极而泣孙颖莎无缘金牌：人生总有遗憾

大象新闻 2025-11-20 07:42:04
3623 跟贴 3623
美媒：安世半导体公司控制权交还中方所有者

极目新闻 2025-11-19 19:04:52
3685 跟贴 3685

“地表最强特警”任山西公安厅副厅长，曾负责奥运会安保任务

南方都市报 2025-11-19 20:30:07
337 跟贴 337

宁波市市长会见曹德旺

政知新媒体 2025-11-20 10:30:37
32 跟贴 32
五地政府主要领导调整！这一省两地迎来新任市长

上观新闻 2025-11-20 14:27:11
3 跟贴 3

太恶劣!上海数名蔚来车主同时被坑惨!消费者寒心

看看新闻Knews 2025-11-19 21:52:06
535 跟贴 535

“亚洲最大医院”郑大一附院西院区今起停诊，投入运行不到一年半

澎湃新闻 2025-11-20 11:22:27
441 跟贴 441
江苏拟新增一所“国字号”大学

扬子晚报 2025-11-20 12:16:23
132 跟贴 132

日本经济学家：中国游客数量锐减或将使日本每年损失上万亿日元

财联社 2025-11-19 19:22:28
1722 跟贴 1722
日经225指数涨幅扩大至4%，现报50480.87点

每日经济新闻 2025-11-20 08:31:13
80 跟贴 80
宁波市委书记调整

新京报 2025-11-20 16:19:52
1 跟贴 1
高市曾说日本侵华战争是自卫

央视网 2025-11-19 16:18:14
662 跟贴 662
中国公民赴俄将免签，元旦假期赴俄机票预订量同比增约32%

新京报 2025-11-19 17:31:10
482 跟贴 482
魏建军：车企发布电动车专属底盘的说法全部是谎言

大象新闻 2025-11-20 10:50:04
134 跟贴 134
高杲任中国矿产资源集团总经理曾长期任职国家发改委

澎湃新闻 2025-11-20 11:28:28
14 跟贴 14
LPR连续6个月按兵不动，专家：年底前或有新一轮降息降准

南方都市报 2025-11-20 15:25:05
27 跟贴 27
长期用AI恶意嫁接灾情，何某被行拘！

环球网资讯 2025-11-20 16:34:35
0 跟贴 0
全运会男子4x100米接力：广东队小组第八惊险晋级，苏炳添赛前身体不适未参加预赛

极目新闻 2025-11-20 11:16:10
0 跟贴 0
售13.29万起深蓝L06上市

武汉交通广播 2025-11-20 15:04:17
2 跟贴 2
“漏水僵局”如何破？“党建+物业”巧解民生难题

上海杨浦 2025-11-20 16:38:44
0 跟贴 0
中国一邮轮放弃日本靠岸，取消乘客下船

极目新闻 2025-11-19 17:58:05
0 跟贴 0
突然通知：停业！承载许多深圳人的回忆，“真的很遗憾”“意难平”

南方都市报 2025-11-20 08:47:34
0 跟贴 0
光伏茶饮联姻！“最美光二代”高海纯即将大婚，新郎是霸王茶姬创始人

澎湃新闻 2025-11-20 15:56:27
0 跟贴 0
美国提议乌“割顿巴斯全境、裁军一半、驱逐外军”，俄股大涨！白宫官员：最早本周内达成

红星新闻 2025-11-20 13:42:08
0 跟贴 0
网友曝光济宁华侨城车棚：料薄如纸、有安全风险且破坏小区形象

运河记忆 2025-11-20 16:33:23
0 跟贴 0

霍震霆、朱玲玲现身云南参加小儿婚礼，泰国新娘个很高，孕相明显

霍震霆、朱玲玲现身云南参加小儿婚礼，泰国新娘个很高，孕相明显

嫹笔牂牂

2025-11-20 07:30:10

何卓佳赛后痛哭，谁注意孙颖莎？击掌安慰“真的没事”，太暖心了

何卓佳赛后痛哭，谁注意孙颖莎？击掌安慰“真的没事”，太暖心了

篮球资讯达人

2025-11-20 00:22:01

1945年，机枪手曾岳峰撞见100多吃饭的日军，偷偷架起机枪开了火

1945年，机枪手曾岳峰撞见100多吃饭的日军，偷偷架起机枪开了火

野史日记

2025-11-19 12:50:03

英伟达盘后涨幅扩大至4.8%

每日经济新闻

2025-11-20 05:29:04

柬埔寨一女子劫走6名越南籍囚犯：逃犯均落网，劫囚女子曝光

柬埔寨一女子劫走6名越南籍囚犯：逃犯均落网，劫囚女子曝光

新京报

2025-11-19 13:25:30

越扒越深了！网传赵某晖“吞掉”人家装修款，有业主直言她坏良心

越扒越深了！网传赵某晖“吞掉”人家装修款，有业主直言她坏良心

火山诗话

2025-11-18 06:39:29

朱珠称霍建华是她见到第一个拍戏不用房车的主演，网友：不愧是林心如自留款

朱珠称霍建华是她见到第一个拍戏不用房车的主演，网友：不愧是林心如自留款

红星新闻

2025-11-18 13:35:12

纪实：浙江女教师突然失踪6年，13岁儿子凭借一个梦找到母亲

纪实：浙江女教师突然失踪6年，13岁儿子凭借一个梦找到母亲

红豆讲堂

2024-10-25 09:45:59

苏后穿衣从土变洋的转变，是这位高人的功劳，礼服穿完还有大用场

苏后穿衣从土变洋的转变，是这位高人的功劳，礼服穿完还有大用场

王瑄自驾

2025-11-17 17:38:01

睡完首富睡总统：从厂妹到顶级名媛，靠男人捞到268亿，她凭啥？

睡完首富睡总统：从厂妹到顶级名媛，靠男人捞到268亿，她凭啥？

访史

2025-10-25 20:01:18

大阪府前知事：派官员赴华解释的瞬间，日本已经“输了”

大阪府前知事：派官员赴华解释的瞬间，日本已经“输了”

中国青年报

2025-11-19 16:07:30

军事家：如果爆发战争，只有这几个省份相对安全！广东在内

军事家：如果爆发战争，只有这几个省份相对安全！广东在内

优趣纪史记

2025-10-31 16:33:00

涉嫌严重违纪违法！河南省人民检察院原巡视员刘新年被查

涉嫌严重违纪违法！河南省人民检察院原巡视员刘新年被查

鲁中晨报

2025-11-20 11:35:04

手术花了60多万，怎么会这么贵？西安交大第一附属医院被患者家属举报后，查出26项违规问题

手术花了60多万，怎么会这么贵？西安交大第一附属医院被患者家属举报后，查出26项违规问题

浪潮新闻

2025-11-20 09:26:33

英国国殇日最讽刺一幕：主持人请百岁老兵发表感言，老兵：这个国家根本不值得我和战友拼命守护！

英国国殇日最讽刺一幕：主持人请百岁老兵发表感言，老兵：这个国家根本不值得我和战友拼命守护！

悦居英国

2025-11-08 00:04:46

县城险象环生，你千万不要被表面的平静给蒙蔽了。

县城险象环生，你千万不要被表面的平静给蒙蔽了。

流苏晚晴

2025-10-31 20:55:43

李春来同志突发疾病逝世

新京报

2025-11-16 19:20:24

中国人死亡19万，比美军多5倍，好意思说胜利吗？金将军这样回答

中国人死亡19万，比美军多5倍，好意思说胜利吗？金将军这样回答

混沌录

2025-10-29 20:22:14

洪晃谈陈凯歌：我跟他恋爱的时候，锅里豆腐炖烂了，他还不敢表白

洪晃谈陈凯歌：我跟他恋爱的时候，锅里豆腐炖烂了，他还不敢表白

不八卦掌门人

2025-11-15 16:51:56

泽连斯基只有两个选择! 外网: 为什么中国早就看到了乌克兰的下场

泽连斯基只有两个选择! 外网: 为什么中国早就看到了乌克兰的下场

boss外传

2025-11-19 13:10:03

AI产业主平台领航智能+时代

13913文章数 66280关注度

往期回顾全部

科技要闻

英伟达单季狂揽570亿美元，手握5000亿订单

头条要闻

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

头条要闻

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

体育要闻

Faker，何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光，相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

本地

家居

房产

旅游

亲子要闻

女子花3万请月嫂,女儿每天睡20小时,妈妈掀开包被将月嫂推下12楼

本地新闻

卖力整活儿的大湾鸡，靠疯癫成了新顶流

家居要闻

黑白极简慵懒通透空间

房产要闻

29.4亿！海南“地王”片区，要卖超级宅地！

旅游要闻

2025-2026雪季冰雪游热潮来袭：国内外多元爆发，规模有望创历史新高

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版