网易首页 > 网易号 > 正文 申请入驻

GPT-5.4发布,百万上下文、最强全能模型

0
分享至

OpenAI 刚刚发布了 GPT-5.4,把推理、编程、Agent 工作流全部塞进了一个前沿模型里,还首次支持百万级上下文窗口。


GPT-5.4 有三个版本:ChatGPT 里叫 GPT-5.4 Thinking,API 和 Codex 里叫 GPT-5.4,追求极限性能的还有 GPT-5.4 Pro。


这次,OpenAI 把 GPT-5.2 的通用推理能力和 GPT-5.3-Codex 业界领先的编程能力合并到了一个模型里,同时在工具调用、电脑操控、办公文档处理等方面全面升级。


用 OpenAI 的话说:用更少的来回,更准确地完成复杂的实际工作。

百万上下文

GPT-5.4 在 Codex 和 API 中实验性支持100 万 token的上下文窗口。


100 万 token 是什么概念?

大约相当于 5000 页文档,或者一整个大型代码仓库。

这让 Agent 能够在超长的任务链中规划、执行和验证,不再因为「记性不够」半途而废。

再也不必上下文恐慌了。

超过标准 272K 上下文的部分,按 2 倍费率计费。开发者可以通过配置model_context_windowmodel_auto_compact_token_limit来启用。

同时,GPT-5.4 还能在长时间思考时更好地保持对早期上下文的感知,不会像以前那样想着想着就忘了前面在讲什么。

可以打断

这次在 ChatGPT 中最让人眼前一亮的,是「中途打断」功能

以前跟 ChatGPT 对话,它开始回答了,你只能干等着。万一方向跑偏了,只能等它说完再重新提问。

现在不用了。

GPT-5.4 Thinking 会先给出一个思考计划,你可以在它回答的过程中随时插嘴,补充信息、调整方向、纠正偏差,模型会立刻把你的新指令融入进去,继续生成。

比如你让它规划旅行路线,它正在推荐机票,你突然想改成自驾游,直接点「Update」按钮告诉它就行,不用从头来一轮。

对于 GPT-5 Pro 和 Deep Research 用户来说尤其有用,那些长时间的多步查询,中途能调整方向意味着省下大量的时间和 quota。

这是一个从「回合制对话」到「实时协作」的转变。目前已在网页端和 Android 上线,iOS 稍后跟进。

此外,GPT-5.4 Thinking 的深度网页搜索能力也有显著提升,特别是在高度具体的查询上,能更持久地跨多轮搜索找到最相关的信息源。


在 BrowseComp 测试中,GPT-5.4 达到82.7%,比 GPT-5.2 的 65.8% 跃升了 17 个百分点。GPT-5.4 Pro 更是拿下89.3%的新纪录。

会操作电脑了

GPT-5.4 是 OpenAI第一个原生支持 Computer Use 的通用模型

什么叫 Computer Use?就是模型可以像人一样操控电脑:看屏幕截图,点鼠标,敲键盘,跨应用完成复杂任务。既能通过 Playwright 之类的库写代码操控,也能直接对着截图发出鼠标和键盘指令。

开发者还可以通过 developer message 调整模型行为,甚至配置自定义的安全确认策略来适配不同的风险等级。


在 OSWorld 测试中(模拟桌面环境操作),GPT-5.4 达到了75.0%的成功率。

做个对比:

  • GPT-5.2 是 47.3%

  • 人类水平是 72.4%

GPT-5.4 超过了人类。

在浏览器操作测试 WebArena 上拿到67.3%,在 Online-Mind2Web 上更是高达92.8%(ChatGPT Atlas Agent Mode 为 70.9%)。

视觉大升级

Computer Use 背后的关键是视觉能力的飞跃。

GPT-5.4 新增了original图片输入模式,支持最高1024 万像素的全分辨率图片(或 6000 像素最大边长),high模式也升级到 256 万像素(2048 像素最大边长)。


在 MMMU-Pro 视觉理解测试中,GPT-5.4 不使用工具就达到81.2%(GPT-5.2 为 79.5%),使用工具则达到82.1%

文档解析能力也更强了。在 OmniDocBench 上,GPT-5.4 即使不开推理,平均错误率也从 GPT-5.2 的 0.140 降到了0.109

API 早期测试用户反馈,在使用originalhigh模式后,定位能力、图像理解和点击准确率都有明显提升。

更强编程

GPT-5.4 整合了 GPT-5.3-Codex 的前沿编程能力,在 SWE-Bench Pro 上达到57.7%(GPT-5.3-Codex 为 56.8%),同时延迟更低。

在 Terminal-Bench 2.0 上得分75.1%,GPT-5.2 只有 62.2%。


但还是比 GPT-5.3-Codex 略差……

OpenAI 特别提到,GPT-5.4 在复杂前端任务上表现突出,生成的界面比以往所有模型都更美观、更可用。

Codex 里开/fast 模式,token 生成速度能提升到1.5 倍,用的是同一个模型、同样的智能水平,纯粹就是更快。开发者在 API 中可以通过 Priority Processing 获得同样的加速。

作为 Computer Use 和编程能力协同工作的示例,OpenAI 还发布了一个实验性的 Codex Skill:Playwright (Interactive),可以在构建 Web 和 Electron 应用的过程中实时做可视化调试。边写边测,自己调自己。

极高 Token 效率

GPT-5.4 是 OpenAI最省 token 的推理模型,解决同样的问题,消耗的推理 token 比 GPT-5.2 少得多,速度也更快。


此外,GPT-5.4 引入了Tool Search机制,解决了工具调用的老大难问题。


以前给模型配工具,所有工具的定义都要塞进 prompt 里。工具一多,光定义就吃掉上万 token,又贵又慢。


现在 GPT-5.4 只需要一个轻量的工具列表。需要用哪个工具时,模型会自己去查找那个工具的定义,临时加载。这样做还有个好处:保护了缓存,让请求更快更便宜。


OpenAI 用 MCP Atlas 基准测试做了验证:36 个 MCP 服务器全部启用,Tool Search 模式比传统模式减少了 47% 的 token 消耗,准确率不变。

对于那些动辄几万 token 工具定义的 MCP 服务器来说,这个提升非常实在。


工具调用准确率也在提升。在 Toolathlon 测试中,GPT-5.4 得分54.6%(GPT-5.2 为 45.7%),用更少的轮次达到更高的准确率。在 MCP Atlas 上,GPT-5.4 得分67.2%(GPT-5.2 为 60.6%)。


最不会胡说

GPT-5.4 是 OpenAI 目前最不容易产生幻觉的模型

跟 GPT-5.2 相比:

  • 单条回答中的错误声明减少了33%

  • 整条回答包含任何错误的概率降低了18%

在知识工作测试 GDPval 上,GPT-5.4 在 44 个职业的实际工作任务中,83.0%的情况下达到或超过了行业专业人员的水平。GPT-5.2 只有 70.9%。


办公场景也明显提升:

  • 投行分析师的电子表格建模任务:87.3%(GPT-5.2 为 68.4%)

  • PPT 制作:人类评审有68%的概率更喜欢 GPT-5.4 的版本,因为视觉更丰富、美感更强、图片运用更好

跑分一览

我们挑几个关键的来看下:

编程:

  • SWE-Bench Pro:57.7%(GPT-5.2 为 55.6%)

  • Terminal-Bench 2.0:75.1%(GPT-5.2 为 62.2%)

电脑操作和视觉:

  • OSWorld:75.0%(GPT-5.2 为 47.3%,人类 72.4%)

  • MMMU-Pro:81.2%(GPT-5.2 为 79.5%)

工具和搜索:

  • BrowseComp:82.7%(GPT-5.2 为 65.8%)

  • Toolathlon:54.6%(GPT-5.2 为 45.7%)

  • MCP Atlas:67.2%(GPT-5.2 为 60.6%)

学术和推理:

  • ARC-AGI-2:73.3%(GPT-5.2 为 52.9%)

  • FrontierMath Tier 4:27.1%(GPT-5.2 为 18.8%)

  • Humanity's Last Exam(带工具):52.1%(GPT-5.2 为 45.5%)

  • GPQA Diamond:92.8%(GPT-5.2 为 92.4%)

GPT-5.4 Pro 在多项测试中进一步拉高上限:ARC-AGI-2 达到83.3%,BrowseComp 达到89.3%,Humanity's Last Exam 达到58.7%,FrontierMath Tier 4 达到38.0%

安全机制

GPT-5.4 被列为 OpenAI Preparedness Framework 下的**「高网络能力」等级**(与 GPT-5.3-Codex 相同),部署了对应的保护措施:

  • 扩展的网络安全防护栈,包括监控系统、可信访问控制

  • 对零数据留存(ZDR)平台上的高风险请求做异步拦截

  • 减少了不必要的拒绝和过度谨慎的回答

OpenAI 还引入了一项新的开源评测:CoT Controllability,测试模型是否能故意隐藏自己的推理过程来逃避监控。结果显示 GPT-5.4 Thinking做不到。这对安全来说是个好消息,说明思维链监控仍然是一个有效的安全工具。

价格


API 定价对比:

模型输入缓存输入输出GPT-5.2$1.75/M$0.175/M$14/MGPT-5.4$2.50/M$0.25/M$15/MGPT-5.2 Pro$21/M—$168/MGPT-5.4 Pro$30/M$180/M

单价比 GPT-5.2 贵了一些,但由于 token 效率提升,很多任务的总成本反而会降低。

Batch 和 Flex 定价半价,Priority 加速处理 2 倍价。

谁能用

ChatGPT 方面,GPT-5.4 Thinking 即日起向Plus、Team、Pro用户开放,替代 GPT-5.2 Thinking。Enterprise 和 Edu 用户可通过管理员设置开启早期访问。

GPT-5.2 Thinking 将保留三个月,6 月 5 日正式退役,期间可在 Legacy Models 中找到。

GPT-5.4 Pro 面向 Pro 和 Enterprise 用户。

API 方面,模型 ID 分别是gpt-5.4gpt-5.4-pro,现已可用。

OpenAI 表示,未来 Instant 系列和 Thinking 系列模型会以不同的节奏各自演进。

好了,这次又轮到 OpenAI 了:


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

连民生用水都不能吐槽了吗?到底是谁在害怕?不去解决问题,解决提问题的?

盐城市民网
2026-03-06 11:25:34
虎跳峡落水失踪男子遗体找到 救援人员:打捞工作正在进行

虎跳峡落水失踪男子遗体找到 救援人员:打捞工作正在进行

红星新闻
2026-03-06 18:25:17
伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

东极妙严
2026-03-06 15:09:57
神袍之下,三千亿财富帝国

神袍之下,三千亿财富帝国

老鹰哥
2026-03-04 09:52:15
过道被邻居改成厕所后续:房门被圈死,走廊变私宅,博主坚决维权

过道被邻居改成厕所后续:房门被圈死,走廊变私宅,博主坚决维权

离离言几许
2026-03-05 12:08:33
今天,我无聊地想起了马杜罗……司机

今天,我无聊地想起了马杜罗……司机

忽然亦周
2026-03-06 09:59:41
中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

中国石油股东赌赢了!数百艘油轮堵在石油海峡,德黑兰突然踩刹车

有范又有料
2026-03-06 18:35:54
阿里天才少年出走,硅谷大佬砸重金抢人

阿里天才少年出走,硅谷大佬砸重金抢人

大佬灼见
2026-03-06 16:20:57
北斗覆盖120国,美伊争信号,中国悄悄改规则

北斗覆盖120国,美伊争信号,中国悄悄改规则

网络易不易
2026-03-06 07:50:14
贵州44岁女子返岗途中突发心梗离世,老板派人千里吊唁,逝者丈夫:想当面向老板表示感谢,对方说都是兄弟姐妹不用太声张

贵州44岁女子返岗途中突发心梗离世,老板派人千里吊唁,逝者丈夫:想当面向老板表示感谢,对方说都是兄弟姐妹不用太声张

极目新闻
2026-03-05 16:19:29
不是取消!私家车年检迎来史上最大松绑,车主:这才是真便民

不是取消!私家车年检迎来史上最大松绑,车主:这才是真便民

芭比衣橱
2026-03-06 14:06:42
女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

女子实名举报某团外卖:不上大额券就让我变成“凌晨营业”,你们真黑!

回旋镖
2026-03-06 21:13:59
姜至鹏肘击染红!媒体人热议:太严厉,肘击并不典型,见血从严

姜至鹏肘击染红!媒体人热议:太严厉,肘击并不典型,见血从严

奥拜尔
2026-03-06 20:28:51
大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风新闻
2026-03-06 13:45:07
美以伊军事冲突最大副作用,是斩断了俄罗斯的“救命稻草”

美以伊军事冲突最大副作用,是斩断了俄罗斯的“救命稻草”

廖保平
2026-03-05 12:08:52
美以伊冲突7日复盘:伤亡数千,美军行动每天成本数十亿美元

美以伊冲突7日复盘:伤亡数千,美军行动每天成本数十亿美元

网易新闻出品
2026-03-06 21:29:45
伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

麓谷隐士
2026-03-06 07:37:46
办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

大风新闻
2026-03-06 16:46:09
长城汽车董事长魏建军就海报抄袭路虎致歉:审核把关不严,愿承担此次事件带来的全部法律与经济责任

长城汽车董事长魏建军就海报抄袭路虎致歉:审核把关不严,愿承担此次事件带来的全部法律与经济责任

极目新闻
2026-03-06 20:03:45
张一鸣成为中国首富

张一鸣成为中国首富

江西工人报
2026-03-05 20:32:13
2026-03-06 22:03:00
呼呼历史论
呼呼历史论
分享有趣的历史
440文章数 16543关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

数码
教育
旅游
家居
公开课

数码要闻

维咖NUT108铝合金机械键盘发布:套件499元起,成品599元起

教育要闻

高考地理中的冲淤原理

旅游要闻

福星村的市井极具大理特色,但巷子又多又窄,很容易让人迷失方向

家居要闻

暖棕撞色 轻法奶油风

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版