GPT-5.4 全整理：非常好用，非常贵|调用|评测|代码|上下文|gpt|新论文

分享至

今天凌晨，OpenAI 发布了他们家最新的模型系列：GPT-5.4
同一时间，我的数十只龙虾已经在用这个跑项目了，相信不日会和大家见面

这次同步发布两个版本：5.4和5.4 Pro

GPT-5.4是主力版本，在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现，面向 Plus、Team、Pro 用户，同步上线 API 和 Codex，标准 API 定价$2.50/M 输入，$15/M 输出

在 ChatGPT 里，这俩模型是这样的

GPT-5.4 Pro针对最复杂的任务场景，仅限 ChatGPT Pro 和 Enterprise 用户，API 定价$30/M 输入，$180/M 输出，是标准版的 12 倍，贵的理由后面细讲，先说模型本身

GPT-5.4 把三件事合并进了同一个模型：代码能力、通用推理，原生 Computer Use 能力

这是 OpenAI 第一次在通用模型里内置 Computer Use，之前这个能力只在专门版本里有

模型上下文窗口1M tokens，最大输出 128K tokens，知识截止日 2025 年 8 月 31 日

对此，我给做了个图

GPT-5.4 对比专业工作能力

OpenAI 有一个叫 GDPval 的内部评测，设计逻辑是：让模型做美国 GDP 前 9 大行业里实际存在的工作任务，覆盖 44 种职业，任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等，然后由人工评估者判断模型输出是否能和行业从业者持平或更好

GPT-5.4 在这个评测上得了83.0%，GPT-5.2 是 70.9%，GPT-5.4 Pro 是 82.0%

在电子表格方向，OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试，GPT-5.4 得分87.3%，GPT-5.2 是 68.4%，提升了 19 个百分点

演示文稿方向，拿 GPT-5.4 和 GPT-5.2 的输出做盲测，人工评审在68% 的对比里更偏好 GPT-5.4 的结果，主要原因是视觉更多样，图片生成用得更到位

这次随模型同步发布了 ChatGPT for Excel 插件，Codex 和 API 也更新了电子表格和演示文稿的技能包（Skill）

https://openai.com/index/chatgpt-for-excel/

下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比：

电子表格输出对比：GPT-5.2 vs GPT-5.4文档输出对比：GPT-5.2 vs GPT-5.4演示文稿输出对比：GPT-5.2 vs GPT-5.4

幻觉控制方面，GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型

测试方法是拿一批用户真实举报过事实错误的 prompt，对比两个模型的输出：单条声明出错概率比 GPT-5.2 低33%，完整回复包含错误的概率低18%

Computer Use 和视觉感知

OSWorld-Verified 75.0%，人类基准 72.4%

OSWorld 是一个桌面操作评测，测的是模型能不能通过截图来控制真实的桌面环境，包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了75.0%，GPT-5.2 是 47.3%，人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平

这个能力现在通过标准 API 的computer工具直接提供，开发者不需要再路由到独立模型

模型支持两种操控方式：用 Playwright 这类库写代码来操作浏览器，或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为，也可以配置自定义的确认策略来控制高风险操作的审批门槛

这个方向和 OpenClaw（一个已经能稳定操控电脑、执行复杂任务的 Agent 框架）在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API，降低了集成门槛

下面两个视频是 GPT-5.4 做 Computer Use 任务的演示，视频没有加速：

现实这个，AI 通过通过坐标点击来发邮件、排日历，全程截图驱动

GPT-5.4 操控浏览器界面处理邮件和日历

然后是这个：用 Playwright 自动化，把一批记录依次提交到十个表单里

GPT-5.4 批量填写十个 web 表单

浏览器操作方向，WebArena-Verified 是一个专门测浏览器控制能力的评测，同时支持 DOM 分析和截图两种交互方式，GPT-5.4 得了67.3%，GPT-5.2 是 65.4%

视觉理解方面，MMMU-Pro 是一个测多模态理解和推理的综合评测，GPT-5.4 在不使用外部工具的情况下得了81.2%，GPT-5.2 是 79.5%

文档解析方面，OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度，用归一化编辑距离衡量误差，数字越小越好。GPT-5.4 是0.109，GPT-5.2 是 0.140

图像输入这次新增了original精度级别，支持最高10.24M 像素或 6000 像素边长的全分辨率输入。high级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善，对需要处理高分辨率截图的 Computer Use 场景帮助最大

代码能力

GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来，同时让它在更长周期的任务里跑得更稳

SWE-Bench Pro 是目前代码能力最主流的评测之一，测的是模型处理真实 GitHub 问题的能力，GPT-5.4 得了57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%

Terminal-Bench 2.0 测的是终端操作能力，GPT-5.4 是75.1%，这里有一个需要说的点：GPT-5.3-Codex 是 77.3%，GPT-5.4 在这个子项上小幅回退了

Codex 里新增了/fast模式，token 生成速度最多提升1.5 倍，模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度

还有一个实验性的新技能叫 Playwright Interactive，允许 Codex 在写 web 应用或 Electron 应用的时候，边写边启动浏览器做视觉调试，可以在构建过程中直接拿正在开发的应用跑测试、验证交互

下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo：

主题公园模拟游戏，从一条 prompt 生成，Playwright 用于浏览器游玩测试

含路径、景点建造、游客 AI、队列、骑乘状态，Playwright 用于多轮次游玩验证

战棋 RPG，多轮对话迭代生成，配合 Playwright 调试界面和着色器

回合制战斗、格子地图、移动和动作系统，人物图片用 imagegen 生成

金门大桥三维飞越体验，Playwright 用于验证飞行控制和视角控制

下面的视频，也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示

问就是一把梭 Tool Search 与 Agent 工具链

Tool Search 让 token 消耗减少了 47%

之前 API 里如果系统挂了很多工具，每次请求都要把所有工具的定义完整塞进 prompt，工具一多这个开销就很大。GPT-5.4 改成了按需检索：模型收到一个轻量的工具列表，需要用某个工具时再主动查询它的完整定义，临时追加进对话

MCP Atlas 是一个测模型使用 MCP（Model Context Protocol）服务器能力的评测，测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里，Tool Search 让 token 用量减少 47%，准确率没有下降，GPT-5.4 整体得分67.2%，GPT-5.2 是 60.6%

MCP Atlas benchmark 结果

Toolathlon 是一个覆盖多种工具使用场景的综合评测，涵盖搜索、代码执行、文件操作等各类工具的混合使用，GPT-5.4 得了54.6%，GPT-5.3-Codex 是 51.9%，GPT-5.2 是 45.7%

Toolathlon benchmark 结果

BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测，任务通常需要跨多个页面反复检索才能找到答案，GPT-5.4 得了82.7%，Pro 版89.3%，GPT-5.2 是 65.8%

BrowseComp benchmark 结果

τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测，场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了98.9%，GPT-5.2 是 98.7%，两者差距不大；在不启用推理的轻量模式下，GPT-5.4 得了 64.3%，GPT-5.2 是 57.2%，GPT-4.1 是 43.6%，这个提升更明显

τ 2-bench Telecom benchmark 结果 ChatGPT 侧的变化

在 ChatGPT 里，GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式：对于复杂任务，模型会先展示执行思路，用户可以在这个阶段插入指令调整方向，不需要等它跑完再重来

这个东西，本周在 Android 和 Web 端上线，iOS 近期跟进

GPT-5.4 在长时间推理时的上下文保持有明显改善，复杂问题跑到后段不容易跑偏。深网研究（针对高度具体的查询）的质量也比 GPT-5.2 提升了

长上下文

Codex 里支持 1M token 上下文窗口，目前是实验性功能，通过配置model_context_window和model_auto_compact_token_limit来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费

MRCR v2 是 OpenAI 自己的长上下文检索评测，测的是在超长文档里找到多个特定信息的能力：

• 0 到 128K token 范围：准确率在 86% 到 97% 之间
• 128K 到 256K：79.3%
• 256K 到 512K：57.5%
• 512K 到 1M：36.6%

512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳，这点官方没有回避

学术基准

ARC-AGI-2 是目前公认较难的抽象推理评测，测的是模型能否从少量样本里推出规律，GPT-5.4 得了73.3%，Pro 版83.3%，GPT-5.2 是 52.9%，跳幅在所有评测里最大

GPQA Diamond 是一个研究生级别的多学科问答评测，GPT-5.4 得了92.8%

FrontierMath 是一个数学竞赛级别的推理评测，其中 Tier 4 是最高难度题目，GPT-5.4 得了27.1%，Pro 版38.0%，GPT-5.2 是 18.8%

Humanity's Last Exam 是一个跨学科极难题库，GPT-5.4 在不使用外部工具时得了39.8%，带工具时52.1%

Frontier Science Research 是测科研能力的评测，GPT-5.4 得了33.0%，Pro 版36.7%，GPT-5.2 是 25.2%

需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是62.6%，GPT-5.2 是 63.3%，小幅退步了。Hard 子集 40.1% vs 42.0%，同样略有下降。不过 Consensus 子集（测的是答案和专家共识的吻合程度）提升了，96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符，模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒，写在 System Card 里了

安全分级与 CoT 特性

GPT-5.4 在 OpenAI 的 Preparedness Framework（一个评估前沿模型风险能力的框架）下被评为两个领域的高能力模型：网络安全（Cyber）High和生物化学（Bio/Chem）High，对应部署了两套防护体系

网络安全方向有一个叫 Cyber Range 的内部测试，模拟真实网络环境里的端到端攻击任务，测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率73.33%，GPT-5.3-Codex 是 80%，GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景，GPT-5.3-Codex 除了多通过了 Firewall 绕过之外，其余也一样卡住

评测机构 Irregular 用自己的场景化评测（CyScenarioBench）做了独立测试，GPT-5.4 通过了 11 个长周期攻击场景中的 5 个，GPT-5.2 只通过了 1 个

对应的防护体系：在 Zero Data Retention 表面（即零数据留存用户），未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截；非零数据留存表面走离线执法机制；账户级违规达到一定阈值会触发人工审核

CoT 可控性极低：10K 字符的推理链里，只有 0.3% 能被用户指令成功控制，和 GPT-5.2 的 0.2% 基本一致

OpenAI 把这个数字当安全的正向指标来讲：模型推理过程难以被外部指令刻意改写，说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控

外部安全机构 Apollo Research 的评估：无诱导条件下整体欺骗率约1%，和 GPT-5.3-Codex 相当，低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为（自我外泄、禁用监控、目标守护）。Sandbagging（有意压低表现）只在给出明确工具性目标时才出现，准确率下降约 6 个百分点，不给目标时不发生

Prompt Injection 防护（即防止模型被工具返回内容里的恶意指令劫持）：连接器场景0.998，较前代改善；函数调用场景0.978，较前代小幅回退

定价与可用性

API 模型

输入

输出

gpt-5.2

$1.75/M

$0.175/M

$14/M

gpt-5.4$2.50/M$0.25/M$15/M

gpt-5.2-pro

$21/M

$168/M

gpt-5.4-pro$30/M

$180/M

批量/Flex 处理半价，Priority 处理 2 倍价格。超过 272K token 的请求，当次完整会话按 2 倍输入、1.5 倍输出计费。Regional Processing（数据驻留）端点额外加收 10%

GPT-5.4 Pro 的定价是标准版的 12 倍输入、12 倍输出，针对的是最复杂的任务场景

有一个细节值得注意：从 GDPval 来看，Pro 版是 82.0%，标准版是 83.0%，Pro 在这个知识工作综合评测上反而略低。但在 BrowseComp 这个 Agent 工具链任务里，Pro 版 89.3% vs 标准版 82.7%，优势明显。两个版本的适用场景是不一样的

ChatGPT 侧的时间线：GPT-5.4 Thinking 今天起对 Plus、Team、Pro 用户逐步开放，取代 GPT-5.2 Thinking 成为默认模型。GPT-5.2 Thinking 进入 Legacy 列表，再保留三个月，退役日期 2026 年 6 月 5 日

Enterprise 和 Edu 管理员可以在后台提前开启。GPT-5.4 Pro 仅限 Pro 和 Enterprise 用户。Free 用户在系统自动路由时会用到 GPT-5.4，但不能主动选

GPT-5.4 在 Agent 方向把三件分散的事情合并进了一个模型出口：推理、代码、Computer Use

开发者之前要在不同模型之间路由，现在至少在 API 层面不需要了

剩下的事，就交给龙虾了

官方 Blog
openai.com/index/introducing-gpt-5-4

System Card
deploymentsafety.openai.com/gpt-5-4-thinking

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.