网易首页 > 网易号 > 正文 申请入驻

OpenAI最强编程模型登场!连续干活24小时,一次处理几百万token

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西11月20日报道,今天,OpenAI发布了其最新的智能体编程模型GPT‑5.1‑Codex‑Max,这一模型基于OpenAI最新的推理模型打造,专门面向软件工程、研究、数学等复杂任务进行训练。

与此同时,OpenAI还将GPT-5 Pro升级为GPT-5.1 Pro,据说这一模型在写作、数据分析等方面的能力比前一代模型更强。不过,OpenAI并未披露更多GPT-5.1 Pro的细节。

GPT‑5.1‑Codex‑Max能在单一任务中连贯地处理上百万个token,跨多个上下文窗口运行。这得益于一项叫做压缩(compaction)的技术:模型在接近上下文窗口限制时会自动压缩上下文,保留重要信息,并赋予对话新的上下文窗口,直到任务完成。

这一模型是由OpenAI研究科学家Noam Brown牵头完成的,他在OpenAI专门从事测试时计算,也就是推理的研究。


OpenAI认为,能够持续进行连贯工作,是迈向更通用、更可靠AI系统的基础能力。GPT-5.1-Codex-Max可以独立工作数小时。在OpenAI的内部评估中,GPT-5.1-Codex-Max甚至可以针对同一任务连续工作24小时,持续迭代实现,修复测试失败,最终交付成功的结果。

性能方面,GPT‑5.1‑Codex‑Max在多个编程基准测试中评测优于前代GPT‑5.1‑Codex。该模型还是OpenAI训练的首个适用于在Windows环境里进行编程操作的模型。


推理效率上,GPT‑5.1‑Codex‑Max在中等推理强度下完成任务时,所使用的思考token比GPT‑5.1‑Codex少约30%,但仍能取得更高准确性。

对于不那么敏感延迟但追求质量的任务,还可以开启超高强度推理,让模型花更多时间思考,输出更优解。

OpenAI预计,这种token效率的提升,可以为开发者带来实际的成本节省。


▲GPT‑5.1‑Codex‑Max用更少token实现更高的准确率

目前,GPT-5.1-Codex-Max现已在Codex中提供,可用于CLI、IDE扩展、云端和代码审查,API访问也即将推出。

OpenAI分享了GPT-5.1-Codex-Max打造的多个网页。根据提示词,GPT-5.1-Codex-Max直接打造了一个完全运行在浏览器中的CartPole(倒立摆)强化学习沙箱。

用户不仅可以观看倒立摆的动态,还能通过内置的策略梯度控制器直接训练模型,让AI在实验中不断优化策略。


它提供了神经网络可视化功能,在训练或推理时,用户可以实时观察模型的权重和激活状态,直观理解决策机制。

此外,应用界面清晰展示了每个回合的步数和奖励,并记录了上一次存活时间及历史最佳存活时间,让训练过程和成果一目了然。

在成功实现类似功能的前提下,GPT-5.1-Codex-Max所使用的token数量为27k,而GPT-5.1-Codex的用量为37k。

GPT-5.1-Codex-Max还开发出一个太阳系重力的模拟器。这一应用的目标是让用户直接观察天体的运动轨迹,通过拖拽、点击与操控界面元素,直观理解轨道、速度与引力之间的关系。

这一网页的功能运行流畅,提示词中的功能都得到了不错的实现。用户可点击画布放置带质量的天体,再次点击即可为测试设置初速度向量,借此构建出任意的简易行星系统。

界面提供用于调节中心天体质量与整体时间缩放因子的滑块,允许用户观察同一轨道结构在不同物理条件下的演化过程。


GPT-5.1-Codex-Max打造的下一个案例,可帮助用户直观、动态的方式理解光在两种介质界面上的折射规律——斯涅尔定律(Snell’s Law)。

用户可以通过左右滑块调节介质1与介质2的折射率。折射率改变时,界面实时更新折射角度,呈现不同光学环境下的光线偏折情况。


也有不少网友分享了自己的使用体验。这位网友试着让昨天发布的Gemini 3 Pro和GPT-5.1-Codex-Max对决,提示词是创建一个鹈鹕骑自行车的SVG。

可以看到,GPT-5.1-Codex-Max打造的鹈鹕、自行车等元素明显包含更多细节,也更逼真。


英国定制化贺卡公司Moonpig的AI部门负责人Peter Gostev分享,自己试着让GPT-5.1-Codex-Max打造了一个金门大桥模拟器,他称这绝对是自己从类似提示词中获得的最好的效果。


与GPT-5.1-Pro相比,Gostev认为GPT-5.1-Codex-Max明显更勤快,而且速度也更快。要让GPT-5.1-Pro完成类似的效果,需要不断指出问题,给出明确要求,GPT-5.1-Codex-Max则更有主动性。

AI工程师Peter Dedene分享,自己体验时发现,GPT-5.1-Codex-Max盯着问题看了5分钟,决定以后再处理,自己以前从没见过Codex这么做。在他看来,模型似乎已经拥有意识了。


不过,需要注意的是,随着模型能力的持续提升,安全性也成为一大挑战。OpenAI称GPT-5.1-Codex-Max尚未在内部的Preparedness Framework中达到“高等级网络安全能力”,不过其安全能力已经是业内迄今为止最强大的。

目前,Codex系列模型默认运行在高度隔离的安全沙箱中,文件写入仅限自身工作空间,网络访问被关闭,除非开发者主动启用。这些措施可减少提示词注入(prompt injection)等风险。

OpenAI希望通过渐进式部署的方法从真实世界收集反馈,并及时更新模型的安全防护。

结语:编程模型正在走向“智能体化”时代

从GPT-5.1-Codex-Max可以看出,新一代编程模型已不再是简单的代码生成器,而是能够持续工作、自动调试、主动规划的编程智能体。其长时推理、上下文压缩、自我修复等能力,让模型能独立完成项目级任务。

随着运行成本下降、安全沙箱强化、能力全面增强,未来的软件开发方式也可能出现变化,从“写代码”转向“描述需求+审核结果”,智能体有望承担更多实现与迭代工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你见过最奇怪的规定是什么?网友:我们学校禁止男女生一起吃饭

你见过最奇怪的规定是什么?网友:我们学校禁止男女生一起吃饭

带你感受人间冷暖
2026-02-05 03:19:07
这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

这就是为什么不要欺负底层员工的原因!网友:1600万结款直接报废

另子维爱读史
2026-02-01 20:32:25
没老婆跟着就这状态?汪小菲年会黑脸不配合,兰姐数次破冰全失败

没老婆跟着就这状态?汪小菲年会黑脸不配合,兰姐数次破冰全失败

陈意小可爱
2026-02-14 22:00:09
辽视春晚上热搜,网友吐槽差评多,岳云鹏孟鹤堂没救回场子。

辽视春晚上热搜,网友吐槽差评多,岳云鹏孟鹤堂没救回场子。

梅亭谈
2026-02-16 02:06:54
马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

犀利辣椒
2025-12-27 06:42:38
AI 开始网暴人类了!OpenClaw 被拒后怒发「小作文」开撕,网友:我站 AI

AI 开始网暴人类了!OpenClaw 被拒后怒发「小作文」开撕,网友:我站 AI

AppSo
2026-02-14 13:09:31
虚竹活了百岁,为何不收洪七公为徒,你看他改名后成了哪个大恶人

虚竹活了百岁,为何不收洪七公为徒,你看他改名后成了哪个大恶人

耳东文史
2026-02-05 00:02:13
81年彭真会见江青,江青大骂一句,彭真一脸淡定:你还有什么要求

81年彭真会见江青,江青大骂一句,彭真一脸淡定:你还有什么要求

舆图看世界
2025-12-09 08:45:05
炸了!C919春运杀疯了!不靠补贴靠实力,国产大飞机真站起来了!

炸了!C919春运杀疯了!不靠补贴靠实力,国产大飞机真站起来了!

林子说事
2026-02-15 23:33:20
本菲卡预热皇马附加赛:光明地狱已降临过现场,我们再来一次

本菲卡预热皇马附加赛:光明地狱已降临过现场,我们再来一次

懂球帝
2026-02-16 07:25:15
李中华揭秘2015年中泰空战失利细节:装备和人的因素都存在

李中华揭秘2015年中泰空战失利细节:装备和人的因素都存在

谈史论天地
2026-02-10 14:00:07
童年最看走眼的两个明星,一个是F4里的吴建豪,一个是SHE里的E

童年最看走眼的两个明星,一个是F4里的吴建豪,一个是SHE里的E

大铁猫娱乐
2025-12-29 16:12:25
前曼联按摩师:拉什福德自己荒废了曼联生涯,不是被谁夺走的

前曼联按摩师:拉什福德自己荒废了曼联生涯,不是被谁夺走的

懂球帝
2026-02-16 00:31:35
NBA竟然输给了CBA?这扣篮大赛太拉跨了:张镇麟去都能夺冠?

NBA竟然输给了CBA?这扣篮大赛太拉跨了:张镇麟去都能夺冠?

篮球快餐车
2026-02-16 05:35:52
钱小豪“毁灭史”,他的故事比你想得更恶劣

钱小豪“毁灭史”,他的故事比你想得更恶劣

比利
2025-12-21 11:26:52
主席命令六大名将抢占东北,为何只有两人抵达,其余都“放鸽子”

主席命令六大名将抢占东北,为何只有两人抵达,其余都“放鸽子”

小港哎历史
2026-02-08 11:00:06
已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

蓝猫说剧
2026-02-10 20:59:41
张碧晨首度晒娃!女儿都这么大了,网友喊话赵丽颖:赶快定娃娃亲

张碧晨首度晒娃!女儿都这么大了,网友喊话赵丽颖:赶快定娃娃亲

八卦王者
2026-02-14 11:48:01
暴涨3-4倍!几乎所有人,都在加速存钱

暴涨3-4倍!几乎所有人,都在加速存钱

花小猫的美食日常
2026-02-15 10:09:13
搜索流量变天了!2026年AI搜索与GEO实战策略报告

搜索流量变天了!2026年AI搜索与GEO实战策略报告

运营研究社
2026-02-14 10:48:17
2026-02-16 07:52:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11235文章数 116972关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

慕安会上美国角色历史性逆转 中国议题“打满全场”

头条要闻

慕安会上美国角色历史性逆转 中国议题“打满全场”

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

亲子
艺术
家居
旅游
教育

亲子要闻

宝妈极简存钱:带娃也能悄悄攒下钱,攒下底气!

艺术要闻

入选作品选刊 | 2026年“新生活·新风尚·新年画”美术作品展

家居要闻

中古雅韵 乐韵伴日常

旅游要闻

三地推出马年春节“文旅大餐” 欢乐京津冀 一起过大年

教育要闻

重点中学校长提案取消高考,网友意见一致:请务必严查他

无障碍浏览 进入关怀版