网易首页 > 网易号 > 正文 申请入驻

GPT-5.4 全整理:非常好用,非常贵

0
分享至

今天凌晨,OpenAI 发布了他们家最新的模型系列:GPT-5.4
同一时间,我的数十只龙虾已经在用这个跑项目了,相信不日会和大家见面

这次同步发布两个版本:5.45.4 Pro

GPT-5.4是主力版本,在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现,面向 Plus、Team、Pro 用户,同步上线 API 和 Codex,标准 API 定价$2.50/M 输入,$15/M 输出


在 ChatGPT 里,这俩模型是这样的

GPT-5.4 Pro针对最复杂的任务场景,仅限 ChatGPT Pro 和 Enterprise 用户,API 定价$30/M 输入,$180/M 输出,是标准版的 12 倍,贵的理由后面细讲,先说模型本身

GPT-5.4 把三件事合并进了同一个模型:代码能力通用推理原生 Computer Use 能力

这是 OpenAI 第一次在通用模型里内置 Computer Use,之前这个能力只在专门版本里有

模型上下文窗口1M tokens,最大输出 128K tokens,知识截止日 2025 年 8 月 31 日

对此,我给做了个图


GPT-5.4 对比 专业工作能力

OpenAI 有一个叫 GDPval 的内部评测,设计逻辑是:让模型做美国 GDP 前 9 大行业里实际存在的工作任务,覆盖 44 种职业,任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等,然后由人工评估者判断模型输出是否能和行业从业者持平或更好


GPT-5.4 在这个评测上得了83.0%,GPT-5.2 是 70.9%,GPT-5.4 Pro 是 82.0%

在电子表格方向,OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试,GPT-5.4 得分87.3%,GPT-5.2 是 68.4%,提升了 19 个百分点

演示文稿方向,拿 GPT-5.4 和 GPT-5.2 的输出做盲测,人工评审在68% 的对比里更偏好 GPT-5.4 的结果,主要原因是视觉更多样,图片生成用得更到位

这次随模型同步发布了 ChatGPT for Excel 插件,Codex 和 API 也更新了电子表格和演示文稿的技能包(Skill)


https://openai.com/index/chatgpt-for-excel/

下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比:


电子表格输出对比:GPT-5.2 vs GPT-5.4文档输出对比:GPT-5.2 vs GPT-5.4演示文稿输出对比:GPT-5.2 vs GPT-5.4

幻觉控制方面,GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型

测试方法是拿一批用户真实举报过事实错误的 prompt,对比两个模型的输出:单条声明出错概率比 GPT-5.2 低33%,完整回复包含错误的概率低18%

Computer Use 和视觉感知

OSWorld-Verified 75.0%,人类基准 72.4%


OSWorld 是一个桌面操作评测,测的是模型能不能通过截图来控制真实的桌面环境,包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了75.0%,GPT-5.2 是 47.3%,人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平

这个能力现在通过标准 API 的computer工具直接提供,开发者不需要再路由到独立模型

模型支持两种操控方式:用 Playwright 这类库写代码来操作浏览器,或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为,也可以配置自定义的确认策略来控制高风险操作的审批门槛

这个方向和 OpenClaw(一个已经能稳定操控电脑、执行复杂任务的 Agent 框架)在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API,降低了集成门槛

下面两个视频是 GPT-5.4 做 Computer Use 任务的演示,视频没有加速:

现实这个,AI 通过通过坐标点击来发邮件、排日历,全程截图驱动

GPT-5.4 操控浏览器界面处理邮件和日历

然后是这个:用 Playwright 自动化,把一批记录依次提交到十个表单里

GPT-5.4 批量填写十个 web 表单

浏览器操作方向,WebArena-Verified 是一个专门测浏览器控制能力的评测,同时支持 DOM 分析和截图两种交互方式,GPT-5.4 得了67.3%,GPT-5.2 是 65.4%

视觉理解方面,MMMU-Pro 是一个测多模态理解和推理的综合评测,GPT-5.4 在不使用外部工具的情况下得了81.2%,GPT-5.2 是 79.5%


文档解析方面,OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度,用归一化编辑距离衡量误差,数字越小越好。GPT-5.4 是0.109,GPT-5.2 是 0.140


图像输入这次新增了original精度级别,支持最高10.24M 像素或 6000 像素边长的全分辨率输入。high级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善,对需要处理高分辨率截图的 Computer Use 场景帮助最大

代码能力

GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来,同时让它在更长周期的任务里跑得更稳

SWE-Bench Pro 是目前代码能力最主流的评测之一,测的是模型处理真实 GitHub 问题的能力,GPT-5.4 得了57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%


Terminal-Bench 2.0 测的是终端操作能力,GPT-5.4 是75.1%,这里有一个需要说的点:GPT-5.3-Codex 是 77.3%,GPT-5.4 在这个子项上小幅回退了

Codex 里新增了/fast模式,token 生成速度最多提升1.5 倍,模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度

还有一个实验性的新技能叫 Playwright Interactive,允许 Codex 在写 web 应用或 Electron 应用的时候,边写边启动浏览器做视觉调试,可以在构建过程中直接拿正在开发的应用跑测试、验证交互

下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo:

主题公园模拟游戏,从一条 prompt 生成,Playwright 用于浏览器游玩测试

含路径、景点建造、游客 AI、队列、骑乘状态,Playwright 用于多轮次游玩验证

战棋 RPG,多轮对话迭代生成,配合 Playwright 调试界面和着色器

回合制战斗、格子地图、移动和动作系统,人物图片用 imagegen 生成

金门大桥三维飞越体验,Playwright 用于验证飞行控制和视角控制

下面的视频,也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示

问就是一把梭 Tool Search 与 Agent 工具链

Tool Search 让 token 消耗减少了 47%

之前 API 里如果系统挂了很多工具,每次请求都要把所有工具的定义完整塞进 prompt,工具一多这个开销就很大。GPT-5.4 改成了按需检索:模型收到一个轻量的工具列表,需要用某个工具时再主动查询它的完整定义,临时追加进对话

MCP Atlas 是一个测模型使用 MCP(Model Context Protocol)服务器能力的评测,测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里,Tool Search 让 token 用量减少 47%,准确率没有下降,GPT-5.4 整体得分67.2%,GPT-5.2 是 60.6%


MCP Atlas benchmark 结果

Toolathlon 是一个覆盖多种工具使用场景的综合评测,涵盖搜索、代码执行、文件操作等各类工具的混合使用,GPT-5.4 得了54.6%,GPT-5.3-Codex 是 51.9%,GPT-5.2 是 45.7%


Toolathlon benchmark 结果

BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测,任务通常需要跨多个页面反复检索才能找到答案,GPT-5.4 得了82.7%,Pro 版89.3%,GPT-5.2 是 65.8%


BrowseComp benchmark 结果

τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测,场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了98.9%,GPT-5.2 是 98.7%,两者差距不大;在不启用推理的轻量模式下,GPT-5.4 得了 64.3%,GPT-5.2 是 57.2%,GPT-4.1 是 43.6%,这个提升更明显


τ 2-bench Telecom benchmark 结果 ChatGPT 侧的变化

在 ChatGPT 里,GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式:对于复杂任务,模型会先展示执行思路,用户可以在这个阶段插入指令调整方向,不需要等它跑完再重来

这个东西,本周在 Android 和 Web 端上线,iOS 近期跟进

GPT-5.4 在长时间推理时的上下文保持有明显改善,复杂问题跑到后段不容易跑偏。深网研究(针对高度具体的查询)的质量也比 GPT-5.2 提升了

长上下文

Codex 里支持 1M token 上下文窗口,目前是实验性功能,通过配置model_context_windowmodel_auto_compact_token_limit来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费


MRCR v2 是 OpenAI 自己的长上下文检索评测,测的是在超长文档里找到多个特定信息的能力:

  • • 0 到 128K token 范围:准确率在 86% 到 97% 之间

  • • 128K 到 256K:79.3%

  • • 256K 到 512K:57.5%

  • • 512K 到 1M:36.6%

512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳,这点官方没有回避

学术基准


ARC-AGI-2 是目前公认较难的抽象推理评测,测的是模型能否从少量样本里推出规律,GPT-5.4 得了73.3%,Pro 版83.3%,GPT-5.2 是 52.9%,跳幅在所有评测里最大

GPQA Diamond 是一个研究生级别的多学科问答评测,GPT-5.4 得了92.8%

FrontierMath 是一个数学竞赛级别的推理评测,其中 Tier 4 是最高难度题目,GPT-5.4 得了27.1%,Pro 版38.0%,GPT-5.2 是 18.8%

Humanity's Last Exam 是一个跨学科极难题库,GPT-5.4 在不使用外部工具时得了39.8%,带工具时52.1%

Frontier Science Research 是测科研能力的评测,GPT-5.4 得了33.0%,Pro 版36.7%,GPT-5.2 是 25.2%

需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是62.6%,GPT-5.2 是 63.3%,小幅退步了。Hard 子集 40.1% vs 42.0%,同样略有下降。不过 Consensus 子集(测的是答案和专家共识的吻合程度)提升了,96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符,模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒,写在 System Card 里了

安全分级与 CoT 特性

GPT-5.4 在 OpenAI 的 Preparedness Framework(一个评估前沿模型风险能力的框架)下被评为两个领域的高能力模型:网络安全(Cyber)High生物化学(Bio/Chem)High,对应部署了两套防护体系

网络安全方向有一个叫 Cyber Range 的内部测试,模拟真实网络环境里的端到端攻击任务,测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率73.33%,GPT-5.3-Codex 是 80%,GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景,GPT-5.3-Codex 除了多通过了 Firewall 绕过之外,其余也一样卡住

评测机构 Irregular 用自己的场景化评测(CyScenarioBench)做了独立测试,GPT-5.4 通过了 11 个长周期攻击场景中的 5 个,GPT-5.2 只通过了 1 个

对应的防护体系:在 Zero Data Retention 表面(即零数据留存用户),未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截;非零数据留存表面走离线执法机制;账户级违规达到一定阈值会触发人工审核

CoT 可控性极低:10K 字符的推理链里,只有 0.3% 能被用户指令成功控制,和 GPT-5.2 的 0.2% 基本一致

OpenAI 把这个数字当安全的正向指标来讲:模型推理过程难以被外部指令刻意改写,说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控

外部安全机构 Apollo Research 的评估:无诱导条件下整体欺骗率约1%,和 GPT-5.3-Codex 相当,低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为(自我外泄、禁用监控、目标守护)。Sandbagging(有意压低表现)只在给出明确工具性目标时才出现,准确率下降约 6 个百分点,不给目标时不发生

Prompt Injection 防护(即防止模型被工具返回内容里的恶意指令劫持):连接器场景0.998,较前代改善;函数调用场景0.978,较前代小幅回退

定价与可用性

API 模型

输入

输出

gpt-5.2

$1.75/M

$0.175/M

$14/M

gpt-5.4$2.50/M$0.25/M$15/M

gpt-5.2-pro

$21/M

$168/M

gpt-5.4-pro$30/M

$180/M

批量/Flex 处理半价,Priority 处理 2 倍价格。超过 272K token 的请求,当次完整会话按 2 倍输入、1.5 倍输出计费。Regional Processing(数据驻留)端点额外加收 10%

GPT-5.4 Pro 的定价是标准版的 12 倍输入、12 倍输出,针对的是最复杂的任务场景

有一个细节值得注意:从 GDPval 来看,Pro 版是 82.0%,标准版是 83.0%,Pro 在这个知识工作综合评测上反而略低。但在 BrowseComp 这个 Agent 工具链任务里,Pro 版 89.3% vs 标准版 82.7%,优势明显。两个版本的适用场景是不一样的

ChatGPT 侧的时间线:GPT-5.4 Thinking 今天起对 Plus、Team、Pro 用户逐步开放,取代 GPT-5.2 Thinking 成为默认模型。GPT-5.2 Thinking 进入 Legacy 列表,再保留三个月,退役日期 2026 年 6 月 5 日

Enterprise 和 Edu 管理员可以在后台提前开启。GPT-5.4 Pro 仅限 Pro 和 Enterprise 用户。Free 用户在系统自动路由时会用到 GPT-5.4,但不能主动选

GPT-5.4 在 Agent 方向把三件分散的事情合并进了一个模型出口:推理代码Computer Use

开发者之前要在不同模型之间路由,现在至少在 API 层面不需要了

剩下的事,就交给龙虾了

官方 Blog
openai.com/index/introducing-gpt-5-4

System Card
deploymentsafety.openai.com/gpt-5-4-thinking

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国人大报告:完善民办高校退出机制

全国人大报告:完善民办高校退出机制

麦可思研究
2026-03-03 18:44:57
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
油车降费电车缴费,2026年公路税费大改,你的车一年到底亏没亏?

油车降费电车缴费,2026年公路税费大改,你的车一年到底亏没亏?

番外行
2026-02-26 19:43:18
全英赛又见冷门!6种子出局,国羽王牌被逆转,男队4场以弱胜强!

全英赛又见冷门!6种子出局,国羽王牌被逆转,男队4场以弱胜强!

刘姚尧的文字城堡
2026-03-06 08:07:07
密春雷百亿帝国倒塌,董卿却在大年初二亲手下厨,是怎样心态?

密春雷百亿帝国倒塌,董卿却在大年初二亲手下厨,是怎样心态?

南权先生
2026-03-04 15:26:24
又一白酒在湖北“一炮打响”0添加、0香料,不是白云边、稻花香

又一白酒在湖北“一炮打响”0添加、0香料,不是白云边、稻花香

影像渭南
2026-03-06 18:04:03
伊朗说尚未选出新任最高领袖

伊朗说尚未选出新任最高领袖

新华社
2026-03-06 11:29:40
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
两会第一天,传出了4大好消息!网友拍手叫好:这才是人民好代表

两会第一天,传出了4大好消息!网友拍手叫好:这才是人民好代表

奇思妙想草叶君
2026-03-06 15:17:14
澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

第7情感
2026-02-23 20:45:16
有人大胆预测,樊振东若不回归,洛杉矶奥运男单:国乒丢金概率高达八成

有人大胆预测,樊振东若不回归,洛杉矶奥运男单:国乒丢金概率高达八成

最爱乒乓球
2026-03-06 12:05:17
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
硅谷在封,中国在抢:OpenClaw到底改变了什么?

硅谷在封,中国在抢:OpenClaw到底改变了什么?

版面之外
2026-03-06 17:35:42
斯里兰卡将伊朗军舰官兵接上岸 总统: 虽然保持中立 但我们把人道主义放在首位

斯里兰卡将伊朗军舰官兵接上岸 总统: 虽然保持中立 但我们把人道主义放在首位

闪电新闻
2026-03-06 16:44:36
清华才女用几块农村“破砖头”拿下国际大奖,彻底颠覆西方认知

清华才女用几块农村“破砖头”拿下国际大奖,彻底颠覆西方认知

近史谈
2026-03-05 15:42:08
国家发改委:预计今年GDP增量超过6万亿元,相当于一个发达经济体全年的GDP总量

国家发改委:预计今年GDP增量超过6万亿元,相当于一个发达经济体全年的GDP总量

极目新闻
2026-03-06 16:19:45
如今黄河已成悬河,为啥不让挖泥船把泥沙清走,让黄河整体下移?

如今黄河已成悬河,为啥不让挖泥船把泥沙清走,让黄河整体下移?

天下十三洲猎奇
2026-03-01 00:21:41
女单史上第2长!世界第一安洗莹跨赛季35连胜,超越谢杏芳

女单史上第2长!世界第一安洗莹跨赛季35连胜,超越谢杏芳

体育妞世界
2026-03-05 21:45:30
61岁雪梨自曝被TVB高层性侵,满脸惊恐:不能说名字,会死人的!

61岁雪梨自曝被TVB高层性侵,满脸惊恐:不能说名字,会死人的!

潮鹿逐梦
2026-03-05 22:34:12
被央视怒批、德不配位,脑袋空空,难怪两会从不邀请“流量”明星

被央视怒批、德不配位,脑袋空空,难怪两会从不邀请“流量”明星

深度解析热点
2026-03-06 21:01:12
2026-03-06 21:43:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
315文章数 45关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

亲子
本地
游戏
公开课
军事航空

亲子要闻

中韩双胞胎萌娃回国第一天,简直太幸福了

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

《失落星船:马拉松》首发Steam峰值8.8万 不及《命运2》首发表现

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版