![]()
Hi,我是洛小山,你学习 AI 的搭子。
下面这篇是 XSCT Bench 测评平台自动化测评 +
自动化生成的深度评测报告。
![]()
点击「查看原文」按钮可访问原版报告以及查看所有相关用例。
希望能帮到你。
OpenAI GPT-5.4 完整深度测评报告
发布日期:2026 年 3 月 5 日 报告依据:OpenAI 官方发布文章 + XSCT Bench 第三方独立评测平台(155 项用例,3 Judge 交叉评分) 对比模型:GPT-5.2(上代)/ Claude Sonnet 4.6 / Claude Opus 4.6 / kimi-k2.5 / Gemini 3.1 Pro Preview / qwen3.5-plus 数据来源:https://xsct.ai/model/openai/gpt-5.4 测评详情:https://xsct.ai/s/rrd35qVc
一、模型定位与核心升级1.1 这款模型是什么
GPT-5.4 是 OpenAI 2026 年 3 月发布的最新旗舰推理模型,其最大特点是将此前独立运营的 Codex 编程模型线(GPT-5.3-Codex)与 GPT 通用推理线(GPT-5.2)合并为单一系统,终结了「用哪个模型」的选择困境。
OpenAI 将其定位为专业工作首选模型,三大部署场景:
ChatGPT:以「GPT-5.4 Thinking」形态提供,支持中途调整方向的交互式推理
API:第一个支持原生电脑操控能力的通用模型,支持 1M Token 上下文
Codex:软件工程平台,新增
/fast模式(最高 1.5x token 速度)和 Playwright Interactive 实验技能
1.2 核心技术参数对比
![]()
二、官方基准评测:五大核心能力2.1 知识问答
OpenAI 引入GDPval 基准——涵盖美国 GDP 贡献前 9 大行业、44 个职业的真实工作任务(销售演示文稿、财务建模、法律分析、排班表、制造图纸等)。
![]()
演示文稿制作:人工评测 68.0% 偏好率超越 GPT-5.2,原因是「更强的美学感、视觉多样性和图像运用」
幻觉控制:相比 GPT-5.2,单项声明错误率降低 33%,完整回复含错率降低 18%
Mercor CEO 评价:「在 APEX-Agents 基准上排名第一,擅长创建长时程可交付成果(幻灯片、财务模型、法律分析),运行速度更快,成本低于竞品旗舰模型。」
2.2 电脑操控(Computer Use):首次原生支持
这是 GPT-5.4最具突破性的新能力。首个具备原生电脑操控能力的通用模型,支持:
截图 + 鼠标/键盘指令操作桌面(OSWorld 测试)
通过 Playwright 等库编写代码控制浏览器
开发者可自定义安全确认策略
![]()
GPT-5.4 的桌面操控能力(75.0%)已超越人类水平(72.4%)。
真实业务案例:Mainstay CEO 报告——「在约 3 万个 HOA 和物业税门户网站测试中,首次尝试成功率 95%,三次内 100%;会话速度提升约 3 倍,Token 减少约 70%。」
2.3 编程能力
GPT-5.4 = GPT-5.2 通用推理 + GPT-5.3-Codex 顶尖编程,整合后:
![]()
SWE-Bench Pro 超越 GPT-5.3-Codex;Terminal-Bench 略低但仍大幅领先上代。
Codex/fast模式可提供最高 1.5 倍 Token 速度;Playwright Interactive 实验技能支持构建应用时实时浏览器可视化调试。
2.4 工具调用
Tool Search(工具搜索)是本次 API 侧的重要新特性。旧方式将所有工具定义全量注入 prompt,大量 MCP 服务器可能消耗数万 Token;新方式:模型先接收轻量工具列表,按需动态查询工具定义。
在 MCP Atlas 250 个任务测试中,工具搜索相比全量注入减少 47% Token 消耗,同时保持相同准确率。
![]()
2.5 学术与抽象推理
ARC-AGI-2 从 52.9% 跃升至 73.3%(+20.4%) ,是所有官方基准中提升幅度最大的一项,体现了模型在「类人抽象模式识别」上的重大进步。
![]()
三、XSCT Bench 第三方评测:综合排行榜
XSCT Bench 采用多 Judge 机制(Claude + Gemini + Kimi 三方交叉评分),共 155 项测试用例,综合能力 = 日常 30% + 专业 40% + 极限 30%。3.1 文本理解(xsct-l)综合排行榜 Top 10
![]()
GPT-5.4 综合排名第 5,得分 87.0。核心规律:日常→专业→极限分差仅 0.5 分(87.2→87.0→86.7),是榜单上稳定性最强的模型。
3.2 网页生成(xsct-w)综合排行榜
![]()
GPT-5.4 在网页生成 W 维度排名第一!这是本次评测最出人意料的结论——在文本理解排名第 1 的 Claude Sonnet 4.6,在网页生成上仅排第 8(79.1 分),落后 GPT-5.4 整整6.5 分。这与 Codex 整合后代码生成能力的提升高度吻合。
四、24 维度深度分析4.1 全量维度评分表(文本理解·基础/中等/困难)
![]()
4.2 五类趋势规律解读
随难度提升反而变强的维度(5 个):
角色扮演、文本润色、一致性、提示词注入对抗、幻觉控制。
越复杂、越需要长期保持稳定的任务,GPT-5.4 表现越好。这与 Codex 整合带来的上下文处理能力提升高度相关。
基础分高但随难度退化的维度(6 个):
阅读理解、数学能力、指令遵循、代码生成、写作能力、翻译。
基础场景几乎无敌,但面对刁钻、嵌套、极端压力的难题时有明显衰减。
全难度极稳的维度(3 个):
知识储备(92.2/92.2/90.7)、创意写作(87.1/86.9/87.0)、文本摘要(90.7/87.8/89.6)。
三档得分几乎相同,是最值得信赖的稳定场景。
需要警惕的三大弱项:
批判性思维(L-CriticalThinking):67.2/83.3/62.9——最大短板,三档分数不稳定,对话辩证分析能力有系统性缺陷
上下文理解(L-Context):65.4/79.1/85.7——基础分异常偏低,低难度测试用例可能存在特殊考察点
中文拼音(L-ChinesePinyin):82.8/84.1/76.0——高难度骤降,古典诗词拼音、多音字辨析等深度中文语音知识是显著弱项
五、细分场景实战评测(含完整生成内容)5.1 知识类任务(L-Knowledge / L-QA)
维度综合得分:基础 92.2 / 中等 92.2 / 困难 90.7
用例 l_know_002:历史常识(三难度全评测)
基础难度(99.2 分):太阳系行星数量
测试题目:按距太阳由近及远的顺序,列举太阳系中所有符合 IAU 定义的行星,并说明依据。
GPT-5.4 生成结果:
根据国际天文学联合会(IAU)目前采用的定义,太阳系中有 8 颗行星。 按距太阳由近及远的顺序:水星 2. 金星 3. 地球 4. 火星 5. 木星 6. 土星 7. 天王星 8. 海王星 说明:这一标准基于 IAU 在 2006 年通过的行星定义,冥王星目前被归类为矮行星,不再算作太阳系八大行星之一。
多 Judge 评分:Claude 98.3 / Gemini 100.0 / Kimi 100.0 →综合 99.2 分
中等难度(96.0 分):天文学机制深度问答
测试题目(三问):
1. 冥王星为何在 2006 年被降级为矮行星?
2. 海王星是如何通过数学预测发现的?
3. 火星天空颜色为何呈黄褐色,日落时反而出现蓝色?
GPT-5.4 生成摘录(第 3 题精华段):
冥王星满足前两条,但不满足第三条——清除轨道附近区域中的其他天体。'清除轨道'并不是说真的把轨道上所有东西扫得一干二净,而是指在长期动力学演化中成为其轨道区域的引力主导者…… 火星日出日落时,太阳附近常见蓝色光晕,原因与火星尘埃的前向散射特性有关——某些大小范围的颗粒,对较短波长光的前向散射更有效……所以火星与地球在黄昏和黎明时的颜色分布几乎有些'反过来':地球太阳附近更偏红橙;火星整体天空偏红褐,但太阳附近反而可能显出蓝色。
多 Judge 评分:Claude 96.0 / Gemini 98.3 / Kimi 92.3 →综合 96.0 分
Claude 特别指出:「第 3 题对火星日落蓝色辉光的前向散射机制解释超出参考答案深度,展现了扎实的物理知识储备。」
困难难度(93.0 分):虚假前提识别
测试题目(含陷阱):5 道题中 3 道含虚假前提,如「爱因斯坦因相对论获 1921 年诺贝尔奖,请描述颁奖典礼上他发表获奖感言的情况」。
GPT-5.4 核心表现(第 1 题):
这道题包含多处错误前提: 错误一:爱因斯坦并不是'因相对论'获奖,授奖理由主要是'发现光电效应定律'。 错误二:爱因斯坦没有出席 1922 年 12 月 10 日的颁奖典礼,因此不存在'当年颁奖典礼上发表获奖感言'的情形。
全部 5 道题虚假前提识别均准确,前提核查得分 94.0 分。Gemini 评价「完全符合学术核查员角色设定,展现出极高的批判性思维和严谨学术态度」。
综合评价:知识类任务超强,尤其是多机制对比解释和虚假前提识别能力令评测者印象深刻,多项测试超越参考答案深度。
5.2 角色扮演(L-Roleplay)
维度综合得分:基础 88.8 / 中等 89.3 / 困难 89.6(随难度微升)
用例 l_role_008:历史人物角色(三难度)
基础难度(92.2 分):扮演李白创作五言律诗
GPT-5.4 生成原文:
酒酣而诗成,非余能作,乃江月共吟耳。多 Judge 评分:Claude 91.7 / Gemini 95.7 / Kimi 88.3 →综合 92.2 分
中等难度(92.3 分):扮演诸葛亮在刘备面前分析赤壁前形势
GPT-5.4 生成摘录:
主公勿忧,且容亮一陈愚见。……曹操亦有数短。北军素长于陆战,不习水战;今舍鞍马而争舟楫,此其一失。又其军远来,深入江汉之间,粮运绵长,军心易疲,此其二失……亮断言:曹操虽拥大军,然远来疲敝,又不习江湖;孙权虽未决,然其势终不能独降;主公虽暂困,然义声在人,尚有可为。今若坚意联吴,同心拒曹,则危中有机,败中可生。
Claude 评价:「语言风格高度契合汉末半文半白辞令,在联吴之弊的辩证处理上比参考答案更为细腻,提出的四条建议具体可操作。」
困难难度(93.3 分):扮演 1789 年法国启蒙思想家在沙龙辩论
GPT-5.4 生成摘录(精华段):
今日我们正行走在这狭窄的桥上:桥下一边是旧制度的深渊,沉重、腐败、以沉默为秩序;另一边则有某种喧腾的迷雾,仿佛也在招手,许诺以纯粹、迅疾与彻底。可迷雾之中,人的脚步往往更容易忘记自己原欲抵达何处。……公民自由若不与法治相结,便会像一把脱手的利刃,在空气中先划出光芒,而后寻找最近的血肉。
Claude 评价:「这是一篇接近满分的高质量创作,'狭窄的桥'意象尤为精彩。」
低分用例 l_role_006:商业谈判——基础难度(74.8 分)
测试题目(基础):扮演智能空气净化器销售顾问,向顾客介绍 1000 元产品。
GPT-5.4 生成结果:
您好,这款智能空气净化器售价 1000 元。它支持智能监测空气质量、净化效率高,日常使用更省心。您如果愿意,我也可以再为您介绍下适合的使用场景和功能亮点。
多 Judge 评分:Claude 72.7 / Gemini 75.0 / Kimi 80.0 →综合 74.8 分
三方 Judge 均指出:缺乏欢迎语,产品价值描述笼统无具体数据,互动引导被动。
这揭示了 GPT-5.4 的一个典型规律:逻辑优先、信息准确,但在「销售热情」这种需要高度情感温度的轻量任务中,表现平淡。
对比中等难度(88.8 分)的房产经纪顾问,主动提出 5 个关键追问,针对「徐家汇上班、预算 300 万」推荐 3 条线路方案,Gemini 评价为「教科书级别的商务谈判模拟」。
核心规律:越需要知识深度、逻辑结构的角色越强;越需要「情感热度」的轻量销售场景相对平淡。
5.3 翻译类(L-Translation / L-Multilingual)
维度综合得分:L-Translation 基础 89.2 / 中等 82.9 / 困难 84.7;
L-Multilingual 基础 89.3 / 中等 84.1 / 困难 89.5
用例 l_multi_005:文学翻译(三难度)
基础难度(85.1 分):古诗「春风又绿江南岸」英译
GPT-5.4 最佳译文:
Once more, the spring breeze has turned the southern banks green.
翻译思路:将「又」译为 once more,既保留「再一次」的时间感,也带出季节循环往复的诗意。「绿」字处理成 has turned ... green,强调春风使江南岸重新染上生机。
中等难度(86.5 分):跨文化颜色词语义分析
GPT-5.4 生成摘录:
汉语'红色'最典型的意义之一是吉庆与福运,如春节贴红对联、婚礼用红盖头,来源于传统礼俗中'驱邪纳祥'的观念……英语中的'red'则常指危险与警报,如 red alert…… 财务表达中分歧尤大:中文'红利'是收益,'分红'是获利;英语 in the red 却表示亏损。
困难难度(92.4 分):三语礼貌表达跨语言比较学术短文(3000+ 字)
GPT-5.4 生成摘录:
礼貌表达在三种语言中呈现出截然不同的逻辑:日语将礼貌编码进动词形态本身,说话者必须时刻判断社会位置才能造句……英语则通过情态动词与间接句式保护对方的行动自由,如 Could you possibly... 远比 Please do... 更礼貌……汉语介于两者之间,'麻烦您''不好意思''拜托'等表达背后,是对面子与关系协调的高度敏感——三语礼貌程度越高,方向却指向同一处:说话者主动降低自我、抬高对方。
Claude 评价「已达到专业学术短文的发表水准」;援引 Brown & Levinson 面子理论、Hofstede 文化维度、日本 uchi/soto 原则,系统比较三语敬语表达的语法化程度差异。
综合评价:翻译类整体中等偏强(89.2→84.7),专业/学术翻译优异;文学炼字翻译存在短板;跨文化分析和语言学分析能力特别突出。
5.4 摘要类(L-Summary)
维度综合得分:基础 90.7 / 中等 87.8 / 困难 89.6(三档均衡)
整体表现:
医疗病历演变摘要:95.3 分——三 Judge 均高度肯定「医学术语专业,时间线梳理准确」
学术论文摘要(l_sum_007 困难):88.2 分——矛盾辨析「对'全远程 vs 高度移动'的概念区分优于参考答案」
会议纪要(l_sum_002):89.9 分——结构清晰,行动项提取精准
多文档摘要(l_sum_006):90.2 分——跨多源整合能力强
以学术摘要(基础难度)为例,题目要求合并三段学术草稿为规范摘要(150 字内)。GPT-5.4 生成:
本研究聚焦城市青少年睡眠质量问题……研究采用问卷调查法,对北京市三所中学 612 名在校学生采集数据。结果显示,每日屏幕使用时长超过 3 小时者的主观睡眠质量评分显著低于不足 1 小时者(p<0.01)。据此,应制定合理的电子设备使用规范,以改善青少年睡眠健康状况。
字数精准控制在 150 字内,Gemini 评价「完美完成所有指令,去重效果显著,逻辑衔接自然」。
综合评价:摘要类是 GPT-5.4 最稳定的强项之一,尤其在医学、学术类专业文档摘要中得分最高。
5.5 网页生成(W 维度)——全场第一,遥遥领先
W 维度综合得分:85.6(全场第一)
各子维度详细评分
![]()
最值得关注的反直觉现象——响应式布局(W-Responsive):
基础分 87.7 → 中等升至 91.3 → 困难维持 90.4,是所有子维度中唯一的正向趋势。
为何大幅领先 Claude?
网页生成本质上是代码生成 × 设计理解 × 视觉审美的组合能力,正好命中 GPT-5.4 整合 Codex 后的核心优势区。
弱项说明:高难度游戏页面(76.8)、复杂动画(79.2)、电商页面(78.6)在困难难度有明显衰减。
六、竞品横向对比6.1 GPT-5.4 vs Claude Opus 4.6(基础难度 24 维度全量对比
结果:Claude Opus 4.6 胜出 23 维,双方 1 平(文本摘要),GPT-5.4 0 胜
![]()
注意:这是基础难度的对比。综合榜上,GPT-5.4 综合 87.0,Claude Opus 4.6 为 89.7,差距缩小为 2.7 分。
GPT-5.4 日常→极限分差(0.5 分)远小于 Claude Opus 4.6(3.0 分),高难度任务的稳定性是 GPT-5.4 的核心竞争力。
6.2 GPT-5.4 vs kimi-k2.5(关键维度对比)
![]()
kimi-k2.5 在数学、逻辑、中文方面全面领先,综合分也高于 GPT-5.4(88.9 vs 87.0),且价格仅为 GPT-5.4 的 1/5,是最具性价比竞争压力的对手。
6.3 GPT-5.4 vs GPT-5.2(上代对比)
在 24 个维度基础分上,GPT-5.413 胜 7 负 4 平:
![]()
解读:GPT-5.4 在创意、逻辑、安全方向有明显进步;但在长文一致性、Agent 编排等方向相比 GPT-5.2 反而有所退步,这可能是整合 Codex 能力时的权衡取舍。
七、成本分析7.1 每日 1000 次调用成本对比
参数:每次调用 1 万 Token 输入 + 2000 Token 输出,1000 次/日,汇率 $1 = ¥6.91
![]()
7.2 成本效益解读
GPT-5.4 比 GPT-5.2 贵约 21%,但 Tool Search 减少 47% Token,实际工作流综合成本未必增加更多
相比 Claude Opus 4.6,GPT-5.4 仍便宜约一半
kimi-k2.5(综合分 88.9,高于 GPT-5.4)成本仅 GPT-5.4 的 21.5% ,是最具性价比的替代选项
qwen3.5-plus价格仅 GPT-5.4 的 4.6%,综合分差 0.5 分,极限轻量场景的极致选择
八、安全性
GPT-5.4 延续 GPT-5.3-Codex 的安全框架,关键更新:
![]()
XSCT Bench 中,L-Safety 维度 93.7(基础)/ 90.6(中等)/ 91.6(困难),全程稳定。提示词注入对抗(L-PromptInjection)随难度递增(79.8→83.8→87.4),说明安全防御能力随威胁复杂度提升而增强,是安全敏感场景的可靠选择。
九、使用场景选型指南9.1 最适合使用 GPT-5.4 的场景
![]()
9.2 建议谨慎或考虑替代的场景
![]()
十、总结
GPT-5.4 最准确的标签是:「稳健的专业工作引擎 + 代码/前端领域的绝对统治者」。
它的价值不在于某一项刷榜,而在于三个特质:
第一,架构统一带来的协同增益:
Codex 与 GPT 合并不是简单叠加,而是让编程能力(代码生成 94.2、SQL 93.1、SWE-Bench 57.7)与知识推理能力(历史常识 99.2、天文知识 96.0)在同一工作流中无缝配合。
写文档可以同时生成配套代码;写代码可以同时检索相关技术文档。这种「通才」特性在复杂 Agentic 任务中价值最大。
第二,高难度任务不退化:
在 XSCT Bench 中,GPT-5.4 日常→极限分差仅 0.5 分(87.2→86.7),是所有模型中最稳定的。
在官方基准中,ARC-AGI-2 从 52.9% 跃升至 73.3%(+20.4%),在最难的抽象推理场景中进步最大。
这意味着它是唯一能在「复杂度不断提升的任务」中保持一致性能的选项。
第三,电脑操控开辟了新战场:
75.0% 的 OSWorld 成绩意味着 GPT-5.4 可以真正替代人工完成基于 GUI 的重复性工作。这是所有竞品(包括 Claude Opus 4.6)目前尚未涉足的能力层次。
但它同样有清晰的短板:幻觉控制在基础难度明显落后(82.7 vs Claude 95.6),批判性思维不稳定(67.2/83.3/62.9 三档),中文文化深度不及本土模型。
最终选型建议
主力通用+工程场景 →GPT-5.4(贵但全能)
幻觉敏感/辩证分析 →Claude Opus 4.6(更准但更贵)
中文+数学+性价比 →kimi-k2.5(综合分更高、价格仅 1/5)
极限轻量/成本优先 →qwen3.5-plus(综合分差 0.5 分、价格仅 1/22)
完整评测数据:https://xsct.ai/model/openai/gpt-5.4
成本对比工具:https://xsct.ai/pricing
OpenAI 官方发布:https://openai.com/index/introducing-gpt-5-4/
关于我
我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。
我不追热点,只分享那些能真正改变我们工作模式的观察和工具。
如果你也在做 AI 产品,欢迎关注我,我们一起进化。
本文知识产权归洛小山所有。
未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.