网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI深夜双王炸！GPT-5.1 Pro紧急发布，降维打击Gemini 3

2025-11-20 11:22:59　来源: 新智元

北京举报

0

分享至

　　

　　新智元报道

　　编辑：桃子好困

　　【新智元导读】今天，是OpenAI的主场，同一天祭出两大杀器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最强编码模型首次采用「压缩」机制，在数百万token上连续编程超24小时。

　　AI圈一日一更的频率，真的是有点跟不住了....

　　前两天，先是Grok 4.1、Gemini 3 Pro发布，今天OpenAI GPT-5.1 Pro也静默登场了！

　　没有一篇博文，仅有两句话官宣。

　　

　　众所周知，GPT-5.1主打「情商智商」双强，Pro无疑将这两大优势推向更高层次。

　　同一天，OpenAI全新王牌代码模型GPT-5.1-Codex-Max，已经在Codex平台正式上线了！

　　

　　从命名上不难看出，它是基于GPT-5.1搭载，并在软件、工程、数学、研究等智能体任务专门训练。

　　由此，GPT-5.1-Codex-Max能力更强、反应更快，而且用起来更省token。

　　新模型是专为「长时间、高强度」的开发任务而设计。

　　就这么说吧，它能连续自主工作超24小时，一口气处理数百万token，直接交付成果的那种。

　　

　　这恰恰印证了，Scaling Law还在永续。

　　这是因为，GPT-5.1-Codex-Max是OpenAI首个「原生支持压缩」机制的模型，可以跨越多个上下文工作。

　　这下，像项目重构、深度调试、多小时智能体循环这些任务，它都能稳稳接住。

　　

　　目前，GPT-5.1 Pro已向所有Pro订阅用户推出。

　　GPT-5.1-Codex-Max已在Codex 中支持CLI、IDE 扩展、云端和代码审查使用，API接口也将很快上线。

　　2025年临近收官，AI终极对决一触即发，GPT-5.1 Pro与Gemini 3 Pro之间，胜负之手将落于谁家？

　　

　　OpenAI最强编程模型

　　这次的GPT-5.1-Codex-Max，那可是在「真实战场」上炼出来的！

　　诸如在PR创建、代码审查、前端开发、问答等工程师常见任务中，全部做过专门训练。

　　在多项前沿编码评测中，它都轻松超越了OpenAI此前所有模型。

　　

　　还有在SWE-bench Verified上的评估结果中，GPT-5.1-Codex-Max拿下了77.9%的高分。

　　

　　GPT-5.1-Codex-Max不仅跑分高，实际体验更是大升级！

　　它是OpenAI首个可以在Windows环境中运行的模型，训练中还针对Codex CLI协作场景做了优化，更好用了。

　　思考token暴降30%

　　不仅如此，GPT-5.1-Codex-Max用起来也更省钱了。

　　在同样「medium」（中等）推理强度下，它不光表现比GPT-5.1-Codex更好，而且思考过程所用的token量减少约30%。

　　

　　对于不敏感于延迟的任务，新增的「Extra High」（xhigh）推理强度，可花费更多时间获得优质答案。

　　不过，日常使用的话，OpenAI还是推荐medium。

　　token省下来了，这就意味着在实际开发中，成本可以大幅降低，可谓开发者的福音。

　　下面这些demo中，清晰呈现了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差异。即便是token减少，前者在前端设计中的功能和颜值都不输以往。

　　比如，让它们生成一个浏览器应用——即可交互的CartPole强化学习沙盒，需要包括小型策略梯度控制器、指标面板，以及一个SVG网络可视化器。

　　

　　

　　上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

　　GPT-5.1-Codex-Max仅用27k思考token完成了任务，而且代码更加精简。

　　

　　这个demo要求的是，做一个太阳系引力井沙盒，需要可视化物体在2D引力势场中的运动，并支拖动平移视图、环绕观察场景。

　　

　　

　　上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

　　GPT-5.1-Codex-Max同样用了更少的token，和更精炼的代码完成了任务。

　　

　　GPT-5.1-Codex-Max这么强，是因为采用了一套全新机制。

　　狂跑一天，全是「压缩」

　　「压缩」机制让GPT-5.1-Codex-Max突破限制，处理那些因上下文太长而原本无法完成的任务。

　　比如，复杂重构和长时间智能体循环。

　　它会自动整理历史内容，筛选保留最关键的上下文，从而实现在长时间跨度内连贯性。

　　在Codex中，当接近上下文上限时，GPT-5.1-Codex-Max会自动执行会话压缩，刷新上下文，并多次重复这一过程直到任务完成。

　　下面这个案例中，GPT-5.1-Codex-Max正在自主重构Codex CLI的开源仓库。

　　可以看到，当上下文快满时，它会自动压缩释放空间，从而在不丢失进度情况下完成任务。

　　

　　视频已经过剪辑和加速处理，以便更清楚地展示过程

　　内部测试显示，GPT-5.1-Codex-Max能连续自主工作超24小时。

　　在此期间，可以不断迭代实现、修复测试失败，并最终交付可用成果。

　　这种长时间、连贯的任务能力，是迈向更通用、更可靠AI系统的通用基石。

　　在METR评估中，GPT-5.1-Codex-Max长程任务能力，成为了新的SOTA。

　　

　　在OpenAI内部，已有95%工程师每周都在用Codex，自从引入之后，团队的Pull Request数量提升约70%。

　　现在，GPT-5.1-Codex-Max搭配着持续升级的CLI、IDE 扩展、云集成与代码审查工具，编程效率直接起飞。

　　一些网友试用第一手感觉，瞬间惊艳了。

　　

　　

　　GPT-5.1 Pro上线，首测来了

　　至于GPT-5.1 Pro，正如开篇所说，OpenAI只是在版本更新日志里写了两段介绍。

　　虽然官方没有单开一篇博客，但提前拿到内测资格的大佬们，都非常兴奋地在第一时间放出了自己的体验感受。

　　

　　对于GPT-5.1迭代后的性能，Epoch AI三方评估后称，几乎与GPT-5实力相当。

　　它们在high（高）推理模式下，能力指数（ECI）得分均151。

　　

　　杰克森实验室教授、人类免疫学家Derya Unutmaz表示，性能相较之前明显提升了一个档次的GPT-5.0 Pro，是他现在最喜爱的模型。

　　

　　在下面的例子中，他分别向5.0和5.1 Pro询问了免疫学领域最重要的未解之谜，并要求这两个模型深入浅出地剖析每个问题，以便让没有免疫学学位的人也能理解其重要性。

　　其中，前两个回复来自GPT-5.1 Pro，接下来的两个较短回复来自GPT-5.0。

　　可以看到，GPT-5.1 Pro明显更胜一筹，因为它能让没有免疫学背景的人更轻松地理解这些解释，并且清晰地阐明了这些问题的重要性和潜在价值。

　　对比而言，GPT-5.1 Pro在清晰度和洞察力方面都有质的提升。它的回答在保持深度的同时，内容更完整自洽、更形象生动、也更易于理解。

　　虽然GPT-5.0的回复在内容上也同样出色，但剖析得不够透彻。

　　

　　GPT-5.1 Pro

　　

　　GPT-5.0

　　HyperWrite AI的CEO Matt Shumer也在一篇超级长的体验报告中表示：GPT-5.1 Pro是目前最好的「大脑」，虽然很慢，但深思熟虑。

　　对于大多数日常工作，Gemini 3更好；毕竟在一个独立的界面中等待10分钟才能得到答案显然并不理想。

　　但对于任何需要深入思考、规划和研究的任务，以及任何必须一次性做对的事情，GPT-5.1 Pro更好。

　　

　　长文地址：https://shumer.dev/gpt51proreview

　　反应较慢，但聪明得离谱

　　它不仅比大多数人类更擅长推理，而且在处理真正棘手的难题时，也比其他任何模型都要聪明。

　　预计几天内，就会出现它解决了一些人们认为当今AI系统力所不及的问题的例子。

　　指令遵循能力是最大的亮点

　　它真的会严格执行你的要求，而不会跑偏。

　　对于严肃的编码任务，它给人的感觉不那么像一个「助手」，而更像是一个依据规格说明书工作的外包工程师（哪怕你的规格说明书有点模糊）。

　　前端和用户体验设计，以及写作，都是弱项

　　不管是创意写作，还是设计漂亮的UI，Gemini 3都要更胜一筹。

　　但最大的弱点还是界面

　　它只能在ChatGPT中使用，无法集成到IDE里，也无法连接到其他工具链中。这一点与GPT-5 Pro如出一辙。

　　参考资料：

　　https://x.com/OpenAI/status/1991266192905179613?s=20

　　https://x.com/OpenAIDevs/status/1991217488550359066?s=20

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1999 跟贴 1999
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
1784 跟贴 1784

“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
125 跟贴 125

上海一三甲医院候诊屏出现"照顾号"引热议院方回应

上游新闻 2026-03-26 15:33:08
128 跟贴 128
收评：沪指跌1.09% 全市场成交额不足2万亿元

证券时报 2026-03-26 15:22:10
835 跟贴 835

生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

闪电新闻 2026-03-26 11:46:05
101 跟贴 101

泰国征兵广告用张凌赫做海报：想像“武安侯”一样帅气骑马吗？今年四月报名参军选择骑兵部队

闪电新闻 2026-03-26 17:45:38
257 跟贴 257
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432

美媒称美考虑将援助乌克兰的武器转至中东

新华社 2026-03-26 20:05:17
1575 跟贴 1575
《长征组歌》响彻“上海之春”，廖昌永石倚洁同台放歌

澎湃新闻 2026-03-26 23:04:27
2 跟贴 2
火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
147 跟贴 147
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
398 跟贴 398
广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
法系在华销冠车型降价20%，车名叫凡尔赛

第一财经资讯 2026-03-26 10:16:14
145 跟贴 145
微信聊天反复出现“对方正在输入”，说明对方在干什么？

学申论的谈妹 2026-03-26 16:15:26
64 跟贴 64
5家快递企业联合调价行业告别低价“内卷”

中国能源网 2026-03-26 07:40:03
282 跟贴 282
首秀库拉索，国足主帅邵佳一：国家队的比赛没有友谊赛

澎湃新闻 2026-03-26 15:58:27
0 跟贴 0
中东局势影响原油进口韩国多地垃圾袋紧缺，有超市每人限购10个，在韩华人：跑七八家便利店“抢到”150个垃圾袋

极目新闻 2026-03-26 19:53:02
142 跟贴 142
100只整装待发！量产机器狼“-20℃极寒测试”现场曝光

中国网 2026-03-26 15:55:11
394 跟贴 394
联大通过决议，宣布“最严重反人类罪”

澎湃新闻 2026-03-26 11:03:06
0 跟贴 0

原油飙涨！黄金、白银下跌，美股突变！特朗普威胁！霍尔木兹海峡，最新消息！

原油飙涨！黄金、白银下跌，美股突变！特朗普威胁！霍尔木兹海峡，最新消息！

证券时报e公司

2026-03-26 22:23:23

“两物不送人，子孙人上人”：这2样东西别送人，关系再好也不行

“两物不送人，子孙人上人”：这2样东西别送人，关系再好也不行

白浅娱乐聊

2026-03-17 17:13:11

演员朱珠疑似塌房？照片流出，惊呆网友！

演员朱珠疑似塌房？照片流出，惊呆网友！

大眼妹妹

2025-12-15 10:39:19

100只整装待发！量产机器狼“-20℃极寒测试”现场曝光

100只整装待发！量产机器狼“-20℃极寒测试”现场曝光

中国网

2026-03-26 15:55:11

6-2血洗欧冠德比！巴萨狂轰6球，皇马孤将双响难挡崩盘

6-2血洗欧冠德比！巴萨狂轰6球，皇马孤将双响难挡崩盘

林子说事

2026-03-26 09:42:20

德转列世预赛附加赛球队身价排行：意大利8.39亿欧居首

德转列世预赛附加赛球队身价排行：意大利8.39亿欧居首

懂球帝

2026-03-26 15:59:41

NBA正式扩军！狂砸100亿啊，再见，森林狼or灰熊，东部见

NBA正式扩军！狂砸100亿啊，再见，森林狼or灰熊，东部见

球童无忌

2026-03-26 11:34:27

5月起生效！俄罗斯关闸，8000吨黄金不卖了，全球金市变天

5月起生效！俄罗斯关闸，8000吨黄金不卖了，全球金市变天

瑛派儿老黄

2026-03-26 10:43:45

张靓颖“零透光”裙惊爆热搜，性感曲线令全场屏息，时尚女王？

张靓颖“零透光”裙惊爆热搜，性感曲线令全场屏息，时尚女王？

娱乐领航家

2025-10-28 22:00:07

美媒大胆预测：快船季后赛4-3胜骑士队

美媒大胆预测：快船季后赛4-3胜骑士队

刘笤说体坛

2026-03-27 00:09:38

1981年，彭真狱中见江青，江青出言不逊提出：我要见华国锋邓小平

1981年，彭真狱中见江青，江青出言不逊提出：我要见华国锋邓小平

微野谈写作

2026-01-27 06:00:03

以色列打不动了想停火，伊朗说不，47年的账，今天得好好算清

以色列打不动了想停火，伊朗说不，47年的账，今天得好好算清

花寒弦絮

2026-03-26 23:11:22

三分命中率64.1%，断层全联盟第一！郭士强该给他一个国家队名额

三分命中率64.1%，断层全联盟第一！郭士强该给他一个国家队名额

弄月公子

2026-03-26 11:03:13

德黑兰街头忽然空了：巴斯基帐篷被遗弃，民兵连夜跑了，为什么？

德黑兰街头忽然空了：巴斯基帐篷被遗弃，民兵连夜跑了，为什么？

老马拉车莫少装

2026-03-24 22:55:20

张雪峰遗产纷争的内幕！

八卦疯叔

2026-03-26 11:05:04

太阳报：大量枪迷想抢票见证夺冠，西汉姆联严查主队看台购票

太阳报：大量枪迷想抢票见证夺冠，西汉姆联严查主队看台购票

懂球帝

2026-03-26 13:21:13

玄学提醒：如果一个人还在穿着10年前的衣服，只说明3个问题

玄学提醒：如果一个人还在穿着10年前的衣服，只说明3个问题

洞读君

2026-03-04 14:30:12

10万亿美债将要到期，早已资不抵债，美国财政部已经宣布破产？

10万亿美债将要到期，早已资不抵债，美国财政部已经宣布破产？

史行途

2026-03-26 14:06:29

101枚导弹砸向美国航母：伊朗打出了开战以来最强一拳

101枚导弹砸向美国航母：伊朗打出了开战以来最强一拳

闻识

2026-03-27 01:19:31

这就是钱学森后人真实的样貌，女儿定居美国，儿子长孙精忠报国！

这就是钱学森后人真实的样貌，女儿定居美国，儿子长孙精忠报国！

旧史新谭

2026-03-25 13:15:22

AI产业主平台领航智能+时代

14821文章数 66720关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

特朗普：伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普：伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

艺术

本地

公开课

军事航空

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动，支持B70 / B65显卡

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”，长得像就是抄袭？

本地新闻

救命，这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版