大半夜的, OpenAI更新GPT-5.4了。
![]()
AI开始的前两年,真的很少看到OpenAI 这么高频率的迭代发布模型。
今年以来,2月份更了5.3 Codex,写代码上真的口碑好到爆炸,这才刚过一个月,又是更新了GPT-5.3 Instant 缓解了已经臭名在外的对话能力,然后又直接把GPT-5.4端上桌了。
先说参数上对我感知最大的提升,上下文窗口提升到1M了。 而且GPT-5.4的价格比Claude 要便宜。
![]()
至此,海外三家模型的上下文长度都已经提升到1百万。
算力足够,就是可以很韧性。
Benchmark 跑分
这里列几个我自己比较关注的Benchmark表现,完整的可以去看OpenAI官方的博客。
链接在此: https://openai.com/index/introducing-gpt-5-4/
知识工作方面,
![]()
在GDPval上,GPT-5.4 的表现反而比GPT-5.4 Pro 还要好一些,两个基本都超过GPT-5.2 Pro约10%
计算机使用以及视觉方面,
GPT-5.4 是OpenAI首个支持computer-use 能力的通用模型。 它可以更好的通过使用截图来操作电脑。
![]()
OSWorld-Verified 上,使用更少的工具产出却获得更高的分数。
![]()
视觉理解上,MMMU Pro 再次超越前代的GPT-5.2。 文档OCR理解 OmniDocBench 上, GPT
-5.4 在推理能力没开启的情况下就超越了前代GPT-5.2
代码方面,
![]()
一句话就是,GPT-5.4 速度更快,效果更好。
以及,OpenAI 大概率也是觉得之前Codex 很慢,所以专门还设定了一个快速模式。
开启快速模式,用GPT-5.4速度快至1.5倍,并且他们特意强调只是速度更快,质量不会降低。
![]()
工具使用方面,
这次GPT-5.4引入了一个新特性,工具搜索。它可以让模型在面对多工具时,工作得更有效率。
![]()
他们做了一个实验,在MCP Atlas Benchmark 上,开启两种模式来启用36个MCP服务器:一种是直接在模型上下文中暴露每个MCP功能,二是将所有MCP服务器放置在工具搜索之后。
工具搜索配置将总token使用量减少了47%,同时实现了相同的准确度。
代理工具调用方面,
![]()
更少的工具调用回合下,GPT-5.4准确率更高。
实测
看完了Benchmark,我直接在Codex 上简单进行了几个测试。
第一个是经典的魔方测试:
CODE
使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能, 写成一个HTML文件这个效果真不错,是我测到现在感觉最丝滑,而且魔方面旋转的时候没破损。
第二个是创建的3D视角的房间。
CODE
使用 Three.js 构建一个高级、可交互的等距视角(Isometric)3D 温馨房间场景,并将完整代码写在一个 HTML 代码块中。要求:
1. 场景中的所有物体必须使用代码直接建模生成(procedural modeling),禁止使用任何外部资源或素材(如模型、贴图、图片等)。
2. 场景整体风格为「cozy room」——温馨、舒适、有生活气息的房间,例如可以包含桌子、沙发、书架、灯、植物、窗户等元素。
3. 使用等距视角(Isometric view)呈现整个房间。
4. 为场景加入细微的环境动画(subtle ambient animations),例如灯光轻微闪烁、植物轻微摆动、蒸汽、漂浮的灰尘、窗外光线变化等,使画面更有生命力。
5. 保证代码结构清晰、可直接运行,所有逻辑都写在同一个 HTML 文件中。
6. 在以上基础上,你可以自行选择并额外实现 **两个你认为能够提升体验的功能或细节**(例如交互、动态效果、环境细节等),让整体效果更好。
这个是两步完成的效果,还不错,基本要求的功能都有了。
其他方面还需要时间再多测测感受一下。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.