网易首页 > 网易号 > 正文 申请入驻

OpenAI最强编程模型登场!连续干活24小时,一次处理几百万token

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西11月20日报道,今天,OpenAI发布了其最新的智能体编程模型GPT‑5.1‑Codex‑Max,这一模型基于OpenAI最新的推理模型打造,专门面向软件工程、研究、数学等复杂任务进行训练。

与此同时,OpenAI还将GPT-5 Pro升级为GPT-5.1 Pro,据说这一模型在写作、数据分析等方面的能力比前一代模型更强。不过,OpenAI并未披露更多GPT-5.1 Pro的细节。

GPT‑5.1‑Codex‑Max能在单一任务中连贯地处理上百万个token,跨多个上下文窗口运行。这得益于一项叫做压缩(compaction)的技术:模型在接近上下文窗口限制时会自动压缩上下文,保留重要信息,并赋予对话新的上下文窗口,直到任务完成。

这一模型是由OpenAI研究科学家Noam Brown牵头完成的,他在OpenAI专门从事测试时计算,也就是推理的研究。


OpenAI认为,能够持续进行连贯工作,是迈向更通用、更可靠AI系统的基础能力。GPT-5.1-Codex-Max可以独立工作数小时。在OpenAI的内部评估中,GPT-5.1-Codex-Max甚至可以针对同一任务连续工作24小时,持续迭代实现,修复测试失败,最终交付成功的结果。

性能方面,GPT‑5.1‑Codex‑Max在多个编程基准测试中评测优于前代GPT‑5.1‑Codex。该模型还是OpenAI训练的首个适用于在Windows环境里进行编程操作的模型。


推理效率上,GPT‑5.1‑Codex‑Max在中等推理强度下完成任务时,所使用的思考token比GPT‑5.1‑Codex少约30%,但仍能取得更高准确性。

对于不那么敏感延迟但追求质量的任务,还可以开启超高强度推理,让模型花更多时间思考,输出更优解。

OpenAI预计,这种token效率的提升,可以为开发者带来实际的成本节省。


▲GPT‑5.1‑Codex‑Max用更少token实现更高的准确率

目前,GPT-5.1-Codex-Max现已在Codex中提供,可用于CLI、IDE扩展、云端和代码审查,API访问也即将推出。

OpenAI分享了GPT-5.1-Codex-Max打造的多个网页。根据提示词,GPT-5.1-Codex-Max直接打造了一个完全运行在浏览器中的CartPole(倒立摆)强化学习沙箱。

用户不仅可以观看倒立摆的动态,还能通过内置的策略梯度控制器直接训练模型,让AI在实验中不断优化策略。


它提供了神经网络可视化功能,在训练或推理时,用户可以实时观察模型的权重和激活状态,直观理解决策机制。

此外,应用界面清晰展示了每个回合的步数和奖励,并记录了上一次存活时间及历史最佳存活时间,让训练过程和成果一目了然。

在成功实现类似功能的前提下,GPT-5.1-Codex-Max所使用的token数量为27k,而GPT-5.1-Codex的用量为37k。

GPT-5.1-Codex-Max还开发出一个太阳系重力的模拟器。这一应用的目标是让用户直接观察天体的运动轨迹,通过拖拽、点击与操控界面元素,直观理解轨道、速度与引力之间的关系。

这一网页的功能运行流畅,提示词中的功能都得到了不错的实现。用户可点击画布放置带质量的天体,再次点击即可为测试设置初速度向量,借此构建出任意的简易行星系统。

界面提供用于调节中心天体质量与整体时间缩放因子的滑块,允许用户观察同一轨道结构在不同物理条件下的演化过程。


GPT-5.1-Codex-Max打造的下一个案例,可帮助用户直观、动态的方式理解光在两种介质界面上的折射规律——斯涅尔定律(Snell’s Law)。

用户可以通过左右滑块调节介质1与介质2的折射率。折射率改变时,界面实时更新折射角度,呈现不同光学环境下的光线偏折情况。


也有不少网友分享了自己的使用体验。这位网友试着让昨天发布的Gemini 3 Pro和GPT-5.1-Codex-Max对决,提示词是创建一个鹈鹕骑自行车的SVG。

可以看到,GPT-5.1-Codex-Max打造的鹈鹕、自行车等元素明显包含更多细节,也更逼真。


英国定制化贺卡公司Moonpig的AI部门负责人Peter Gostev分享,自己试着让GPT-5.1-Codex-Max打造了一个金门大桥模拟器,他称这绝对是自己从类似提示词中获得的最好的效果。


与GPT-5.1-Pro相比,Gostev认为GPT-5.1-Codex-Max明显更勤快,而且速度也更快。要让GPT-5.1-Pro完成类似的效果,需要不断指出问题,给出明确要求,GPT-5.1-Codex-Max则更有主动性。

AI工程师Peter Dedene分享,自己体验时发现,GPT-5.1-Codex-Max盯着问题看了5分钟,决定以后再处理,自己以前从没见过Codex这么做。在他看来,模型似乎已经拥有意识了。


不过,需要注意的是,随着模型能力的持续提升,安全性也成为一大挑战。OpenAI称GPT-5.1-Codex-Max尚未在内部的Preparedness Framework中达到“高等级网络安全能力”,不过其安全能力已经是业内迄今为止最强大的。

目前,Codex系列模型默认运行在高度隔离的安全沙箱中,文件写入仅限自身工作空间,网络访问被关闭,除非开发者主动启用。这些措施可减少提示词注入(prompt injection)等风险。

OpenAI希望通过渐进式部署的方法从真实世界收集反馈,并及时更新模型的安全防护。

结语:编程模型正在走向“智能体化”时代

从GPT-5.1-Codex-Max可以看出,新一代编程模型已不再是简单的代码生成器,而是能够持续工作、自动调试、主动规划的编程智能体。其长时推理、上下文压缩、自我修复等能力,让模型能独立完成项目级任务。

随着运行成本下降、安全沙箱强化、能力全面增强,未来的软件开发方式也可能出现变化,从“写代码”转向“描述需求+审核结果”,智能体有望承担更多实现与迭代工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
农民工大规模返乡滞乡深刻反思:城市化冒进的结果

农民工大规模返乡滞乡深刻反思:城市化冒进的结果

瞻史
2025-11-19 14:01:23
近一半日本人支持打中国!日本民意上头:这次中国真不能再心软了

近一半日本人支持打中国!日本民意上头:这次中国真不能再心软了

奉壹数码
2025-11-19 21:17:27
枪决前死囚突然要一支烟,抽烟时敲击的节奏,正是我俩的密语!

枪决前死囚突然要一支烟,抽烟时敲击的节奏,正是我俩的密语!

萧竹轻语
2025-11-18 18:05:29
工商银行涨近2%再创历史新高 A股总市值突破2.25万亿

工商银行涨近2%再创历史新高 A股总市值突破2.25万亿

财联社
2025-11-20 11:02:06
网传男子吐槽自己醉驾被双开,十年努力成泡影,家庭、工作都没了

网传男子吐槽自己醉驾被双开,十年努力成泡影,家庭、工作都没了

笔尖下的人生
2025-11-19 18:51:43
俄罗斯什么时候会停止战争?没钱打仗的时候

俄罗斯什么时候会停止战争?没钱打仗的时候

山河路口
2025-11-16 12:44:41
1449元!华为新品官宣:11月25日,正式首销

1449元!华为新品官宣:11月25日,正式首销

科技堡垒
2025-11-19 11:15:19
通用、特斯拉的“大撤退”:一场草蛇灰线的供应链阳谋

通用、特斯拉的“大撤退”:一场草蛇灰线的供应链阳谋

生活魔术专家
2025-11-18 09:13:32
周杰伦发文:我觉得有点受够了

周杰伦发文:我觉得有点受够了

TVB的四小花
2025-11-19 12:54:26
1945年,机枪手曾岳峰撞见100多吃饭的日军,偷偷架起机枪开了火

1945年,机枪手曾岳峰撞见100多吃饭的日军,偷偷架起机枪开了火

野史日记
2025-11-19 12:50:03
夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

精彩分享快乐
2025-11-20 00:05:03
“萝莉岛”名单即将解密 美政坛先“炸开”了

“萝莉岛”名单即将解密 美政坛先“炸开”了

上游新闻
2025-11-20 14:46:13
中日关系极度紧张:许多中国游客仍然赴日,给出的理由竟惊人一致

中日关系极度紧张:许多中国游客仍然赴日,给出的理由竟惊人一致

户外小阿隋
2025-11-19 09:57:33
被无数人吐槽的“蠢设计”,了解正确用法后:蠢的是我自己

被无数人吐槽的“蠢设计”,了解正确用法后:蠢的是我自己

美家指南
2025-11-18 17:29:04
中国啥馅的“饺子”最好吃,经评选,这十种上榜,有你家乡的吗?

中国啥馅的“饺子”最好吃,经评选,这十种上榜,有你家乡的吗?

美食格物
2025-11-20 13:49:08
“电池没电,燃气立即就停了”,智能燃气表谁掏电池钱? 南京市民起诉港华燃气案开庭

“电池没电,燃气立即就停了”,智能燃气表谁掏电池钱? 南京市民起诉港华燃气案开庭

水泥土的搞笑
2025-11-20 10:59:19
国家的钱是从哪来的?主要有四大收入来源,每一份都有你的贡献

国家的钱是从哪来的?主要有四大收入来源,每一份都有你的贡献

一只番茄鱼
2025-11-19 09:18:23
什么是文明?看挪威富裕后如何对待自己的国民​

什么是文明?看挪威富裕后如何对待自己的国民​

深度报
2025-11-07 22:57:08
正式确定!中国男篮新星加盟广东宏远,朱芳雨大获全胜,未来可期

正式确定!中国男篮新星加盟广东宏远,朱芳雨大获全胜,未来可期

体坛瞎白话
2025-11-20 11:13:52
是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

风过乡
2025-11-20 07:01:16
2025-11-20 16:43:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10769文章数 116905关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

头条要闻

户外博主发现南太行失联43天男子遗体:先发现黑色鞋子

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

教育
健康
房产
手机
公开课

教育要闻

AI都能手搓APP了,少儿编程课还有必要报吗?

警惕超声报告这六大"坑"

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

手机要闻

三星旗舰手机规划曝光:首款三折叠12月登场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版