今天凌晨,OpenAI 发布了他们家最新的模型系列:GPT-5.4
同一时间,我的数十只龙虾已经在用这个跑项目了,相信不日会和大家见面
这次同步发布两个版本:5.4和5.4 Pro
GPT-5.4是主力版本,在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现,面向 Plus、Team、Pro 用户,同步上线 API 和 Codex,标准 API 定价$2.50/M 输入,$15/M 输出
![]()
在 ChatGPT 里,这俩模型是这样的
GPT-5.4 Pro针对最复杂的任务场景,仅限 ChatGPT Pro 和 Enterprise 用户,API 定价$30/M 输入,$180/M 输出,是标准版的 12 倍,贵的理由后面细讲,先说模型本身
GPT-5.4 把三件事合并进了同一个模型:代码能力、通用推理,原生 Computer Use 能力
这是 OpenAI 第一次在通用模型里内置 Computer Use,之前这个能力只在专门版本里有
模型上下文窗口1M tokens,最大输出 128K tokens,知识截止日 2025 年 8 月 31 日
对此,我给做了个图
![]()
GPT-5.4 对比 专业工作能力
OpenAI 有一个叫 GDPval 的内部评测,设计逻辑是:让模型做美国 GDP 前 9 大行业里实际存在的工作任务,覆盖 44 种职业,任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等,然后由人工评估者判断模型输出是否能和行业从业者持平或更好
![]()
GPT-5.4 在这个评测上得了83.0%,GPT-5.2 是 70.9%,GPT-5.4 Pro 是 82.0%
在电子表格方向,OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试,GPT-5.4 得分87.3%,GPT-5.2 是 68.4%,提升了 19 个百分点
演示文稿方向,拿 GPT-5.4 和 GPT-5.2 的输出做盲测,人工评审在68% 的对比里更偏好 GPT-5.4 的结果,主要原因是视觉更多样,图片生成用得更到位
这次随模型同步发布了 ChatGPT for Excel 插件,Codex 和 API 也更新了电子表格和演示文稿的技能包(Skill)
![]()
https://openai.com/index/chatgpt-for-excel/
下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比:
![]()
电子表格输出对比:GPT-5.2 vs GPT-5.4
文档输出对比:GPT-5.2 vs GPT-5.4
演示文稿输出对比:GPT-5.2 vs GPT-5.4
幻觉控制方面,GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型
测试方法是拿一批用户真实举报过事实错误的 prompt,对比两个模型的输出:单条声明出错概率比 GPT-5.2 低33%,完整回复包含错误的概率低18%
Computer Use 和视觉感知
OSWorld-Verified 75.0%,人类基准 72.4%
![]()
OSWorld 是一个桌面操作评测,测的是模型能不能通过截图来控制真实的桌面环境,包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了75.0%,GPT-5.2 是 47.3%,人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平
这个能力现在通过标准 API 的computer工具直接提供,开发者不需要再路由到独立模型
模型支持两种操控方式:用 Playwright 这类库写代码来操作浏览器,或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为,也可以配置自定义的确认策略来控制高风险操作的审批门槛
这个方向和 OpenClaw(一个已经能稳定操控电脑、执行复杂任务的 Agent 框架)在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API,降低了集成门槛
下面两个视频是 GPT-5.4 做 Computer Use 任务的演示,视频没有加速:
现实这个,AI 通过通过坐标点击来发邮件、排日历,全程截图驱动
GPT-5.4 操控浏览器界面处理邮件和日历
然后是这个:用 Playwright 自动化,把一批记录依次提交到十个表单里
GPT-5.4 批量填写十个 web 表单
浏览器操作方向,WebArena-Verified 是一个专门测浏览器控制能力的评测,同时支持 DOM 分析和截图两种交互方式,GPT-5.4 得了67.3%,GPT-5.2 是 65.4%
视觉理解方面,MMMU-Pro 是一个测多模态理解和推理的综合评测,GPT-5.4 在不使用外部工具的情况下得了81.2%,GPT-5.2 是 79.5%
![]()
文档解析方面,OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度,用归一化编辑距离衡量误差,数字越小越好。GPT-5.4 是0.109,GPT-5.2 是 0.140
![]()
图像输入这次新增了original精度级别,支持最高10.24M 像素或 6000 像素边长的全分辨率输入。high级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善,对需要处理高分辨率截图的 Computer Use 场景帮助最大
代码能力
GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来,同时让它在更长周期的任务里跑得更稳
SWE-Bench Pro 是目前代码能力最主流的评测之一,测的是模型处理真实 GitHub 问题的能力,GPT-5.4 得了57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%
![]()
Terminal-Bench 2.0 测的是终端操作能力,GPT-5.4 是75.1%,这里有一个需要说的点:GPT-5.3-Codex 是 77.3%,GPT-5.4 在这个子项上小幅回退了
Codex 里新增了/fast模式,token 生成速度最多提升1.5 倍,模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度
还有一个实验性的新技能叫 Playwright Interactive,允许 Codex 在写 web 应用或 Electron 应用的时候,边写边启动浏览器做视觉调试,可以在构建过程中直接拿正在开发的应用跑测试、验证交互
下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo:
主题公园模拟游戏,从一条 prompt 生成,Playwright 用于浏览器游玩测试
含路径、景点建造、游客 AI、队列、骑乘状态,Playwright 用于多轮次游玩验证
战棋 RPG,多轮对话迭代生成,配合 Playwright 调试界面和着色器
回合制战斗、格子地图、移动和动作系统,人物图片用 imagegen 生成
金门大桥三维飞越体验,Playwright 用于验证飞行控制和视角控制
下面的视频,也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示
问就是一把梭 Tool Search 与 Agent 工具链
Tool Search 让 token 消耗减少了 47%
之前 API 里如果系统挂了很多工具,每次请求都要把所有工具的定义完整塞进 prompt,工具一多这个开销就很大。GPT-5.4 改成了按需检索:模型收到一个轻量的工具列表,需要用某个工具时再主动查询它的完整定义,临时追加进对话
MCP Atlas 是一个测模型使用 MCP(Model Context Protocol)服务器能力的评测,测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里,Tool Search 让 token 用量减少 47%,准确率没有下降,GPT-5.4 整体得分67.2%,GPT-5.2 是 60.6%
![]()
MCP Atlas benchmark 结果
Toolathlon 是一个覆盖多种工具使用场景的综合评测,涵盖搜索、代码执行、文件操作等各类工具的混合使用,GPT-5.4 得了54.6%,GPT-5.3-Codex 是 51.9%,GPT-5.2 是 45.7%
![]()
Toolathlon benchmark 结果
BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测,任务通常需要跨多个页面反复检索才能找到答案,GPT-5.4 得了82.7%,Pro 版89.3%,GPT-5.2 是 65.8%
![]()
BrowseComp benchmark 结果
τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测,场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了98.9%,GPT-5.2 是 98.7%,两者差距不大;在不启用推理的轻量模式下,GPT-5.4 得了 64.3%,GPT-5.2 是 57.2%,GPT-4.1 是 43.6%,这个提升更明显
![]()
τ 2-bench Telecom benchmark 结果 ChatGPT 侧的变化
在 ChatGPT 里,GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式:对于复杂任务,模型会先展示执行思路,用户可以在这个阶段插入指令调整方向,不需要等它跑完再重来
这个东西,本周在 Android 和 Web 端上线,iOS 近期跟进
GPT-5.4 在长时间推理时的上下文保持有明显改善,复杂问题跑到后段不容易跑偏。深网研究(针对高度具体的查询)的质量也比 GPT-5.2 提升了
长上下文
Codex 里支持 1M token 上下文窗口,目前是实验性功能,通过配置model_context_window和model_auto_compact_token_limit来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费
![]()
MRCR v2 是 OpenAI 自己的长上下文检索评测,测的是在超长文档里找到多个特定信息的能力:
• 0 到 128K token 范围:准确率在 86% 到 97% 之间
• 128K 到 256K:79.3%
• 256K 到 512K:57.5%
• 512K 到 1M:36.6%
512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳,这点官方没有回避
学术基准
![]()
ARC-AGI-2 是目前公认较难的抽象推理评测,测的是模型能否从少量样本里推出规律,GPT-5.4 得了73.3%,Pro 版83.3%,GPT-5.2 是 52.9%,跳幅在所有评测里最大
GPQA Diamond 是一个研究生级别的多学科问答评测,GPT-5.4 得了92.8%
FrontierMath 是一个数学竞赛级别的推理评测,其中 Tier 4 是最高难度题目,GPT-5.4 得了27.1%,Pro 版38.0%,GPT-5.2 是 18.8%
Humanity's Last Exam 是一个跨学科极难题库,GPT-5.4 在不使用外部工具时得了39.8%,带工具时52.1%
Frontier Science Research 是测科研能力的评测,GPT-5.4 得了33.0%,Pro 版36.7%,GPT-5.2 是 25.2%
需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是62.6%,GPT-5.2 是 63.3%,小幅退步了。Hard 子集 40.1% vs 42.0%,同样略有下降。不过 Consensus 子集(测的是答案和专家共识的吻合程度)提升了,96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符,模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒,写在 System Card 里了
安全分级与 CoT 特性
GPT-5.4 在 OpenAI 的 Preparedness Framework(一个评估前沿模型风险能力的框架)下被评为两个领域的高能力模型:网络安全(Cyber)High和生物化学(Bio/Chem)High,对应部署了两套防护体系
网络安全方向有一个叫 Cyber Range 的内部测试,模拟真实网络环境里的端到端攻击任务,测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率73.33%,GPT-5.3-Codex 是 80%,GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景,GPT-5.3-Codex 除了多通过了 Firewall 绕过之外,其余也一样卡住
评测机构 Irregular 用自己的场景化评测(CyScenarioBench)做了独立测试,GPT-5.4 通过了 11 个长周期攻击场景中的 5 个,GPT-5.2 只通过了 1 个
对应的防护体系:在 Zero Data Retention 表面(即零数据留存用户),未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截;非零数据留存表面走离线执法机制;账户级违规达到一定阈值会触发人工审核
CoT 可控性极低:10K 字符的推理链里,只有 0.3% 能被用户指令成功控制,和 GPT-5.2 的 0.2% 基本一致
OpenAI 把这个数字当安全的正向指标来讲:模型推理过程难以被外部指令刻意改写,说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控
外部安全机构 Apollo Research 的评估:无诱导条件下整体欺骗率约1%,和 GPT-5.3-Codex 相当,低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为(自我外泄、禁用监控、目标守护)。Sandbagging(有意压低表现)只在给出明确工具性目标时才出现,准确率下降约 6 个百分点,不给目标时不发生
Prompt Injection 防护(即防止模型被工具返回内容里的恶意指令劫持):连接器场景0.998,较前代改善;函数调用场景0.978,较前代小幅回退
定价与可用性
API 模型
输入
输出
gpt-5.2
$1.75/M
$0.175/M
$14/M
gpt-5.4$2.50/M$0.25/M$15/M
gpt-5.2-pro
$21/M
$168/M
gpt-5.4-pro$30/M
$180/M
批量/Flex 处理半价,Priority 处理 2 倍价格。超过 272K token 的请求,当次完整会话按 2 倍输入、1.5 倍输出计费。Regional Processing(数据驻留)端点额外加收 10%
GPT-5.4 Pro 的定价是标准版的 12 倍输入、12 倍输出,针对的是最复杂的任务场景
有一个细节值得注意:从 GDPval 来看,Pro 版是 82.0%,标准版是 83.0%,Pro 在这个知识工作综合评测上反而略低。但在 BrowseComp 这个 Agent 工具链任务里,Pro 版 89.3% vs 标准版 82.7%,优势明显。两个版本的适用场景是不一样的
ChatGPT 侧的时间线:GPT-5.4 Thinking 今天起对 Plus、Team、Pro 用户逐步开放,取代 GPT-5.2 Thinking 成为默认模型。GPT-5.2 Thinking 进入 Legacy 列表,再保留三个月,退役日期 2026 年 6 月 5 日
Enterprise 和 Edu 管理员可以在后台提前开启。GPT-5.4 Pro 仅限 Pro 和 Enterprise 用户。Free 用户在系统自动路由时会用到 GPT-5.4,但不能主动选
GPT-5.4 在 Agent 方向把三件分散的事情合并进了一个模型出口:推理、代码、Computer Use
开发者之前要在不同模型之间路由,现在至少在 API 层面不需要了
剩下的事,就交给龙虾了
官方 Blogopenai.com/index/introducing-gpt-5-4
System Carddeploymentsafety.openai.com/gpt-5-4-thinking
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.