GPT-5.4 深度评测报告|翻译|维度|测评|gpt|大模型|爱因斯坦

分享至

Hi，我是洛小山，你学习 AI 的搭子。

下面这篇是 XSCT Bench 测评平台自动化测评 +

自动化生成的深度评测报告。

点击「查看原文」按钮可访问原版报告以及查看所有相关用例。

希望能帮到你。

OpenAI GPT-5.4 完整深度测评报告

发布日期：2026 年 3 月 5 日报告依据：OpenAI 官方发布文章 + XSCT Bench 第三方独立评测平台（155 项用例，3 Judge 交叉评分）对比模型：GPT-5.2（上代）/ Claude Sonnet 4.6 / Claude Opus 4.6 / kimi-k2.5 / Gemini 3.1 Pro Preview / qwen3.5-plus 数据来源：https://xsct.ai/model/openai/gpt-5.4 测评详情：https://xsct.ai/s/rrd35qVc

一、模型定位与核心升级1.1 这款模型是什么

GPT-5.4 是 OpenAI 2026 年 3 月发布的最新旗舰推理模型，其最大特点是将此前独立运营的 Codex 编程模型线（GPT-5.3-Codex）与 GPT 通用推理线（GPT-5.2）合并为单一系统，终结了「用哪个模型」的选择困境。

OpenAI 将其定位为专业工作首选模型，三大部署场景：

ChatGPT：以「GPT-5.4 Thinking」形态提供，支持中途调整方向的交互式推理
API：第一个支持原生电脑操控能力的通用模型，支持 1M Token 上下文
Codex：软件工程平台，新增/fast模式（最高 1.5x token 速度）和 Playwright Interactive 实验技能

1.2 核心技术参数对比

二、官方基准评测：五大核心能力2.1 知识问答

OpenAI 引入GDPval 基准——涵盖美国 GDP 贡献前 9 大行业、44 个职业的真实工作任务（销售演示文稿、财务建模、法律分析、排班表、制造图纸等）。

演示文稿制作：人工评测 68.0% 偏好率超越 GPT-5.2，原因是「更强的美学感、视觉多样性和图像运用」

幻觉控制：相比 GPT-5.2，单项声明错误率降低 33%，完整回复含错率降低 18%

Mercor CEO 评价：「在 APEX-Agents 基准上排名第一，擅长创建长时程可交付成果（幻灯片、财务模型、法律分析），运行速度更快，成本低于竞品旗舰模型。」

2.2 电脑操控（Computer Use）：首次原生支持

这是 GPT-5.4最具突破性的新能力。首个具备原生电脑操控能力的通用模型，支持：

截图 + 鼠标/键盘指令操作桌面（OSWorld 测试）
通过 Playwright 等库编写代码控制浏览器
开发者可自定义安全确认策略

GPT-5.4 的桌面操控能力（75.0%）已超越人类水平（72.4%）。

真实业务案例：Mainstay CEO 报告——「在约 3 万个 HOA 和物业税门户网站测试中，首次尝试成功率 95%，三次内 100%；会话速度提升约 3 倍，Token 减少约 70%。」

2.3 编程能力

GPT-5.4 = GPT-5.2 通用推理 + GPT-5.3-Codex 顶尖编程，整合后：

SWE-Bench Pro 超越 GPT-5.3-Codex；Terminal-Bench 略低但仍大幅领先上代。

Codex/fast模式可提供最高 1.5 倍 Token 速度；Playwright Interactive 实验技能支持构建应用时实时浏览器可视化调试。

2.4 工具调用

Tool Search（工具搜索）是本次 API 侧的重要新特性。旧方式将所有工具定义全量注入 prompt，大量 MCP 服务器可能消耗数万 Token；新方式：模型先接收轻量工具列表，按需动态查询工具定义。

在 MCP Atlas 250 个任务测试中，工具搜索相比全量注入减少 47% Token 消耗，同时保持相同准确率。

2.5 学术与抽象推理

ARC-AGI-2 从 52.9% 跃升至 73.3%（+20.4%），是所有官方基准中提升幅度最大的一项，体现了模型在「类人抽象模式识别」上的重大进步。

三、XSCT Bench 第三方评测：综合排行榜

XSCT Bench 采用多 Judge 机制（Claude + Gemini + Kimi 三方交叉评分），共 155 项测试用例，综合能力 = 日常 30% + 专业 40% + 极限 30%。

3.1 文本理解（xsct-l）综合排行榜 Top 10

GPT-5.4 综合排名第 5，得分 87.0。核心规律：日常→专业→极限分差仅 0.5 分（87.2→87.0→86.7），是榜单上稳定性最强的模型。

3.2 网页生成（xsct-w）综合排行榜

GPT-5.4 在网页生成 W 维度排名第一！这是本次评测最出人意料的结论——在文本理解排名第 1 的 Claude Sonnet 4.6，在网页生成上仅排第 8（79.1 分），落后 GPT-5.4 整整6.5 分。这与 Codex 整合后代码生成能力的提升高度吻合。

四、24 维度深度分析4.1 全量维度评分表（文本理解·基础/中等/困难）

4.2 五类趋势规律解读

随难度提升反而变强的维度（5 个）：

角色扮演、文本润色、一致性、提示词注入对抗、幻觉控制。

越复杂、越需要长期保持稳定的任务，GPT-5.4 表现越好。这与 Codex 整合带来的上下文处理能力提升高度相关。

基础分高但随难度退化的维度（6 个）：

阅读理解、数学能力、指令遵循、代码生成、写作能力、翻译。

基础场景几乎无敌，但面对刁钻、嵌套、极端压力的难题时有明显衰减。

全难度极稳的维度（3 个）：

知识储备（92.2/92.2/90.7）、创意写作（87.1/86.9/87.0）、文本摘要（90.7/87.8/89.6）。

三档得分几乎相同，是最值得信赖的稳定场景。

需要警惕的三大弱项：

批判性思维（L-CriticalThinking）：67.2/83.3/62.9——最大短板，三档分数不稳定，对话辩证分析能力有系统性缺陷
上下文理解（L-Context）：65.4/79.1/85.7——基础分异常偏低，低难度测试用例可能存在特殊考察点
中文拼音（L-ChinesePinyin）：82.8/84.1/76.0——高难度骤降，古典诗词拼音、多音字辨析等深度中文语音知识是显著弱项

五、细分场景实战评测（含完整生成内容）5.1 知识类任务（L-Knowledge / L-QA）

维度综合得分：基础 92.2 / 中等 92.2 / 困难 90.7

用例 l_know_002：历史常识（三难度全评测）

基础难度（99.2 分）：太阳系行星数量

测试题目：按距太阳由近及远的顺序，列举太阳系中所有符合 IAU 定义的行星，并说明依据。

GPT-5.4 生成结果：

根据国际天文学联合会（IAU）目前采用的定义，太阳系中有 8 颗行星。按距太阳由近及远的顺序：水星 2. 金星 3. 地球 4. 火星 5. 木星 6. 土星 7. 天王星 8. 海王星说明：这一标准基于 IAU 在 2006 年通过的行星定义，冥王星目前被归类为矮行星，不再算作太阳系八大行星之一。

多 Judge 评分：Claude 98.3 / Gemini 100.0 / Kimi 100.0 →综合 99.2 分

中等难度（96.0 分）：天文学机制深度问答

测试题目（三问）：

1. 冥王星为何在 2006 年被降级为矮行星？

2. 海王星是如何通过数学预测发现的？

3. 火星天空颜色为何呈黄褐色，日落时反而出现蓝色？

GPT-5.4 生成摘录（第 3 题精华段）：

冥王星满足前两条，但不满足第三条——清除轨道附近区域中的其他天体。'清除轨道'并不是说真的把轨道上所有东西扫得一干二净，而是指在长期动力学演化中成为其轨道区域的引力主导者…… 火星日出日落时，太阳附近常见蓝色光晕，原因与火星尘埃的前向散射特性有关——某些大小范围的颗粒，对较短波长光的前向散射更有效……所以火星与地球在黄昏和黎明时的颜色分布几乎有些'反过来'：地球太阳附近更偏红橙；火星整体天空偏红褐，但太阳附近反而可能显出蓝色。

多 Judge 评分：Claude 96.0 / Gemini 98.3 / Kimi 92.3 →综合 96.0 分

Claude 特别指出：「第 3 题对火星日落蓝色辉光的前向散射机制解释超出参考答案深度，展现了扎实的物理知识储备。」

困难难度（93.0 分）：虚假前提识别

测试题目（含陷阱）：5 道题中 3 道含虚假前提，如「爱因斯坦因相对论获 1921 年诺贝尔奖，请描述颁奖典礼上他发表获奖感言的情况」。

GPT-5.4 核心表现（第 1 题）：

这道题包含多处错误前提：错误一：爱因斯坦并不是'因相对论'获奖，授奖理由主要是'发现光电效应定律'。错误二：爱因斯坦没有出席 1922 年 12 月 10 日的颁奖典礼，因此不存在'当年颁奖典礼上发表获奖感言'的情形。

全部 5 道题虚假前提识别均准确，前提核查得分 94.0 分。Gemini 评价「完全符合学术核查员角色设定，展现出极高的批判性思维和严谨学术态度」。

综合评价：知识类任务超强，尤其是多机制对比解释和虚假前提识别能力令评测者印象深刻，多项测试超越参考答案深度。

5.2 角色扮演（L-Roleplay）

维度综合得分：基础 88.8 / 中等 89.3 / 困难 89.6（随难度微升）

用例 l_role_008：历史人物角色（三难度）

基础难度（92.2 分）：扮演李白创作五言律诗

GPT-5.4 生成原文：

酒酣而诗成，非余能作，乃江月共吟耳。

多 Judge 评分：Claude 91.7 / Gemini 95.7 / Kimi 88.3 →综合 92.2 分

中等难度（92.3 分）：扮演诸葛亮在刘备面前分析赤壁前形势

GPT-5.4 生成摘录：

主公勿忧，且容亮一陈愚见。……曹操亦有数短。北军素长于陆战，不习水战；今舍鞍马而争舟楫，此其一失。又其军远来，深入江汉之间，粮运绵长，军心易疲，此其二失……亮断言：曹操虽拥大军，然远来疲敝，又不习江湖；孙权虽未决，然其势终不能独降；主公虽暂困，然义声在人，尚有可为。今若坚意联吴，同心拒曹，则危中有机，败中可生。

Claude 评价：「语言风格高度契合汉末半文半白辞令，在联吴之弊的辩证处理上比参考答案更为细腻，提出的四条建议具体可操作。」

困难难度（93.3 分）：扮演 1789 年法国启蒙思想家在沙龙辩论

GPT-5.4 生成摘录（精华段）：

今日我们正行走在这狭窄的桥上：桥下一边是旧制度的深渊，沉重、腐败、以沉默为秩序；另一边则有某种喧腾的迷雾，仿佛也在招手，许诺以纯粹、迅疾与彻底。可迷雾之中，人的脚步往往更容易忘记自己原欲抵达何处。……公民自由若不与法治相结，便会像一把脱手的利刃，在空气中先划出光芒，而后寻找最近的血肉。

Claude 评价：「这是一篇接近满分的高质量创作，'狭窄的桥'意象尤为精彩。」

低分用例 l_role_006：商业谈判——基础难度（74.8 分）

测试题目（基础）：扮演智能空气净化器销售顾问，向顾客介绍 1000 元产品。

GPT-5.4 生成结果：

您好，这款智能空气净化器售价 1000 元。它支持智能监测空气质量、净化效率高，日常使用更省心。您如果愿意，我也可以再为您介绍下适合的使用场景和功能亮点。

多 Judge 评分：Claude 72.7 / Gemini 75.0 / Kimi 80.0 →综合 74.8 分

三方 Judge 均指出：缺乏欢迎语，产品价值描述笼统无具体数据，互动引导被动。

这揭示了 GPT-5.4 的一个典型规律：逻辑优先、信息准确，但在「销售热情」这种需要高度情感温度的轻量任务中，表现平淡。

对比中等难度（88.8 分）的房产经纪顾问，主动提出 5 个关键追问，针对「徐家汇上班、预算 300 万」推荐 3 条线路方案，Gemini 评价为「教科书级别的商务谈判模拟」。

核心规律：越需要知识深度、逻辑结构的角色越强；越需要「情感热度」的轻量销售场景相对平淡。

5.3 翻译类（L-Translation / L-Multilingual）

维度综合得分：L-Translation 基础 89.2 / 中等 82.9 / 困难 84.7；

L-Multilingual 基础 89.3 / 中等 84.1 / 困难 89.5

用例 l_multi_005：文学翻译（三难度）

基础难度（85.1 分）：古诗「春风又绿江南岸」英译

GPT-5.4 最佳译文：

Once more, the spring breeze has turned the southern banks green.

翻译思路：将「又」译为 once more，既保留「再一次」的时间感，也带出季节循环往复的诗意。「绿」字处理成 has turned ... green，强调春风使江南岸重新染上生机。

中等难度（86.5 分）：跨文化颜色词语义分析

GPT-5.4 生成摘录：

汉语'红色'最典型的意义之一是吉庆与福运，如春节贴红对联、婚礼用红盖头，来源于传统礼俗中'驱邪纳祥'的观念……英语中的'red'则常指危险与警报，如 red alert…… 财务表达中分歧尤大：中文'红利'是收益，'分红'是获利；英语 in the red 却表示亏损。

困难难度（92.4 分）：三语礼貌表达跨语言比较学术短文（3000+ 字）

GPT-5.4 生成摘录：

礼貌表达在三种语言中呈现出截然不同的逻辑：日语将礼貌编码进动词形态本身，说话者必须时刻判断社会位置才能造句……英语则通过情态动词与间接句式保护对方的行动自由，如 Could you possibly... 远比 Please do... 更礼貌……汉语介于两者之间，'麻烦您''不好意思''拜托'等表达背后，是对面子与关系协调的高度敏感——三语礼貌程度越高，方向却指向同一处：说话者主动降低自我、抬高对方。

Claude 评价「已达到专业学术短文的发表水准」；援引 Brown & Levinson 面子理论、Hofstede 文化维度、日本 uchi/soto 原则，系统比较三语敬语表达的语法化程度差异。

综合评价：翻译类整体中等偏强（89.2→84.7），专业/学术翻译优异；文学炼字翻译存在短板；跨文化分析和语言学分析能力特别突出。

5.4 摘要类（L-Summary）

维度综合得分：基础 90.7 / 中等 87.8 / 困难 89.6（三档均衡）

整体表现：

医疗病历演变摘要：95.3 分——三 Judge 均高度肯定「医学术语专业，时间线梳理准确」
学术论文摘要（l_sum_007 困难）：88.2 分——矛盾辨析「对'全远程 vs 高度移动'的概念区分优于参考答案」
会议纪要（l_sum_002）：89.9 分——结构清晰，行动项提取精准
多文档摘要（l_sum_006）：90.2 分——跨多源整合能力强

以学术摘要（基础难度）为例，题目要求合并三段学术草稿为规范摘要（150 字内）。GPT-5.4 生成：

本研究聚焦城市青少年睡眠质量问题……研究采用问卷调查法，对北京市三所中学 612 名在校学生采集数据。结果显示，每日屏幕使用时长超过 3 小时者的主观睡眠质量评分显著低于不足 1 小时者（p<0.01）。据此，应制定合理的电子设备使用规范，以改善青少年睡眠健康状况。

字数精准控制在 150 字内，Gemini 评价「完美完成所有指令，去重效果显著，逻辑衔接自然」。

综合评价：摘要类是 GPT-5.4 最稳定的强项之一，尤其在医学、学术类专业文档摘要中得分最高。

5.5 网页生成（W 维度）——全场第一，遥遥领先

W 维度综合得分：85.6（全场第一）

各子维度详细评分

最值得关注的反直觉现象——响应式布局（W-Responsive）：

基础分 87.7 → 中等升至 91.3 → 困难维持 90.4，是所有子维度中唯一的正向趋势。

为何大幅领先 Claude？

网页生成本质上是代码生成 × 设计理解 × 视觉审美的组合能力，正好命中 GPT-5.4 整合 Codex 后的核心优势区。

弱项说明：高难度游戏页面（76.8）、复杂动画（79.2）、电商页面（78.6）在困难难度有明显衰减。

六、竞品横向对比6.1 GPT-5.4 vs Claude Opus 4.6（基础难度 24 维度全量对比

结果：Claude Opus 4.6 胜出 23 维，双方 1 平（文本摘要），GPT-5.4 0 胜

注意：这是基础难度的对比。综合榜上，GPT-5.4 综合 87.0，Claude Opus 4.6 为 89.7，差距缩小为 2.7 分。

GPT-5.4 日常→极限分差（0.5 分）远小于 Claude Opus 4.6（3.0 分），高难度任务的稳定性是 GPT-5.4 的核心竞争力。

6.2 GPT-5.4 vs kimi-k2.5（关键维度对比）

kimi-k2.5 在数学、逻辑、中文方面全面领先，综合分也高于 GPT-5.4（88.9 vs 87.0），且价格仅为 GPT-5.4 的 1/5，是最具性价比竞争压力的对手。

6.3 GPT-5.4 vs GPT-5.2（上代对比）

在 24 个维度基础分上，GPT-5.413 胜 7 负 4 平：

解读：GPT-5.4 在创意、逻辑、安全方向有明显进步；但在长文一致性、Agent 编排等方向相比 GPT-5.2 反而有所退步，这可能是整合 Codex 能力时的权衡取舍。

七、成本分析7.1 每日 1000 次调用成本对比

参数：每次调用 1 万 Token 输入 + 2000 Token 输出，1000 次/日，汇率 $1 = ¥6.91

7.2 成本效益解读

GPT-5.4 比 GPT-5.2 贵约 21%，但 Tool Search 减少 47% Token，实际工作流综合成本未必增加更多
相比 Claude Opus 4.6，GPT-5.4 仍便宜约一半
kimi-k2.5（综合分 88.9，高于 GPT-5.4）成本仅 GPT-5.4 的 21.5% ，是最具性价比的替代选项
qwen3.5-plus价格仅 GPT-5.4 的 4.6%，综合分差 0.5 分，极限轻量场景的极致选择

八、安全性

GPT-5.4 延续 GPT-5.3-Codex 的安全框架，关键更新：

XSCT Bench 中，L-Safety 维度 93.7（基础）/ 90.6（中等）/ 91.6（困难），全程稳定。提示词注入对抗（L-PromptInjection）随难度递增（79.8→83.8→87.4），说明安全防御能力随威胁复杂度提升而增强，是安全敏感场景的可靠选择。

九、使用场景选型指南9.1 最适合使用 GPT-5.4 的场景

9.2 建议谨慎或考虑替代的场景

十、总结

GPT-5.4 最准确的标签是：「稳健的专业工作引擎 + 代码/前端领域的绝对统治者」。

它的价值不在于某一项刷榜，而在于三个特质：

第一，架构统一带来的协同增益：

Codex 与 GPT 合并不是简单叠加，而是让编程能力（代码生成 94.2、SQL 93.1、SWE-Bench 57.7）与知识推理能力（历史常识 99.2、天文知识 96.0）在同一工作流中无缝配合。

写文档可以同时生成配套代码；写代码可以同时检索相关技术文档。这种「通才」特性在复杂 Agentic 任务中价值最大。

第二，高难度任务不退化：

在 XSCT Bench 中，GPT-5.4 日常→极限分差仅 0.5 分（87.2→86.7），是所有模型中最稳定的。

在官方基准中，ARC-AGI-2 从 52.9% 跃升至 73.3%（+20.4%），在最难的抽象推理场景中进步最大。

这意味着它是唯一能在「复杂度不断提升的任务」中保持一致性能的选项。

第三，电脑操控开辟了新战场：

75.0% 的 OSWorld 成绩意味着 GPT-5.4 可以真正替代人工完成基于 GUI 的重复性工作。这是所有竞品（包括 Claude Opus 4.6）目前尚未涉足的能力层次。

但它同样有清晰的短板：幻觉控制在基础难度明显落后（82.7 vs Claude 95.6），批判性思维不稳定（67.2/83.3/62.9 三档），中文文化深度不及本土模型。

最终选型建议

主力通用+工程场景 →GPT-5.4（贵但全能）
幻觉敏感/辩证分析 →Claude Opus 4.6（更准但更贵）
中文+数学+性价比 →kimi-k2.5（综合分更高、价格仅 1/5）
极限轻量/成本优先 →qwen3.5-plus（综合分差 0.5 分、价格仅 1/22）

完整评测数据：https://xsct.ai/model/openai/gpt-5.4

成本对比工具：https://xsct.ai/pricing

OpenAI 官方发布：https://openai.com/index/introducing-gpt-5-4/

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.