OpenAI 深夜大更新，全世界最好的模型又回来了？！|调用|代码|上下文|mcp|新论文|openai|benchmark

OpenAI 深夜大更新，全世界最好的模型又回来了？！

2026-03-06 09:47:40　来源: 呼呼历史论

辽宁举报

分享至

大半夜的， OpenAI更新GPT-5.4了。

AI开始的前两年，真的很少看到OpenAI 这么高频率的迭代发布模型。

今年以来，2月份更了5.3 Codex，写代码上真的口碑好到爆炸，这才刚过一个月，又是更新了GPT-5.3 Instant 缓解了已经臭名在外的对话能力，然后又直接把GPT-5.4端上桌了。

先说参数上对我感知最大的提升，上下文窗口提升到1M了。而且GPT-5.4的价格比Claude 要便宜。

至此，海外三家模型的上下文长度都已经提升到1百万。

算力足够，就是可以很韧性。

Benchmark 跑分

这里列几个我自己比较关注的Benchmark表现，完整的可以去看OpenAI官方的博客。

链接在此： https://openai.com/index/introducing-gpt-5-4/

知识工作方面，

在GDPval上，GPT-5.4 的表现反而比GPT-5.4 Pro 还要好一些，两个基本都超过GPT-5.2 Pro约10%

计算机使用以及视觉方面，

GPT-5.4 是OpenAI首个支持computer-use 能力的通用模型。它可以更好的通过使用截图来操作电脑。

OSWorld-Verified 上，使用更少的工具产出却获得更高的分数。

视觉理解上，MMMU Pro 再次超越前代的GPT-5.2。文档OCR理解 OmniDocBench 上, GPT
-5.4 在推理能力没开启的情况下就超越了前代GPT-5.2

代码方面，

一句话就是，GPT-5.4 速度更快，效果更好。

以及，OpenAI 大概率也是觉得之前Codex 很慢，所以专门还设定了一个快速模式。

开启快速模式，用GPT-5.4速度快至1.5倍，并且他们特意强调只是速度更快，质量不会降低。

工具使用方面，

这次GPT-5.4引入了一个新特性，工具搜索。它可以让模型在面对多工具时，工作得更有效率。

他们做了一个实验，在MCP Atlas Benchmark 上，开启两种模式来启用36个MCP服务器:一种是直接在模型上下文中暴露每个MCP功能，二是将所有MCP服务器放置在工具搜索之后。

工具搜索配置将总token使用量减少了47%，同时实现了相同的准确度。

代理工具调用方面，

更少的工具调用回合下，GPT-5.4准确率更高。

实测

看完了Benchmark，我直接在Codex 上简单进行了几个测试。

第一个是经典的魔方测试：

CODE

使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能, 写成一个HTML文件

这个效果真不错，是我测到现在感觉最丝滑，而且魔方面旋转的时候没破损。

第二个是创建的3D视角的房间。

CODE

使用 Three.js 构建一个高级、可交互的等距视角（Isometric）3D 温馨房间场景，并将完整代码写在一个 HTML 代码块中。


  要求：
  1. 场景中的所有物体必须使用代码直接建模生成（procedural modeling），禁止使用任何外部资源或素材（如模型、贴图、图片等）。
  2. 场景整体风格为「cozy room」——温馨、舒适、有生活气息的房间，例如可以包含桌子、沙发、书架、灯、植物、窗户等元素。
  3. 使用等距视角（Isometric view）呈现整个房间。
  4. 为场景加入细微的环境动画（subtle ambient animations），例如灯光轻微闪烁、植物轻微摆动、蒸汽、漂浮的灰尘、窗外光线变化等，使画面更有生命力。
  5. 保证代码结构清晰、可直接运行，所有逻辑都写在同一个 HTML 文件中。
  6. 在以上基础上，你可以自行选择并额外实现 **两个你认为能够提升体验的功能或细节**（例如交互、动态效果、环境细节等），让整体效果更好。

这个是两步完成的效果，还不错，基本要求的功能都有了。

其他方面还需要时间再多测测感受一下。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.