刚刚，奥特曼砸场发布 GPT-5.4！网友：一句 Hi 烧掉 80 美元|编程|gpt|上下文|新论文|token

分享至

每次打开 AI 工具，你大概都要先想一秒钟：这个任务，该用哪个模型？写代码是一个，查资料是另一个，让 AI 帮你操作电脑，还得再开一个窗口。

今天过后，这种分裂感终于有了一个答案。

就在刚刚，OpenAI 正式发布 GPT-5.4，把编程、推理、计算机操控、网页搜索和百万 Token 上下文全部整合进同一个模型，且没有为了整合而牺牲任何一项的能力。

OpenAI CEO 山姆·奥特曼也在 X 平台发了一条简短推文，点出了五个方向：知识工作更强、网页搜索更出色、原生计算机操控、支持百万 Token 上下文、响应过程中随时可介入。

寥寥数语，对应的恰好是过去两年 AI 应用落地中最集中的五个痛点。

知识工作：十次有八次，AI 赢了专业人士

理解 GPT-5.4 在知识工作上的进步，需要先了解 GDPval 这个基准的设计逻辑。

它横跨美国 GDP 贡献最大的 9 个行业、44 种职业。任务是那些职场里每天真实发生的工作：给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。

任务完成后，把输出结果交给行业内的真实从业者盲测打分，看 AI 的产出能赢过多少比例的人类同行。

GPT-5.4 的答案是 83.0%，意味着十次对比中有八次以上，行业专业人士认为 AI 的产出达到或超过了人类同行水准。上代 GPT-5.2 是 70.9%，差距将近 13 个百分点。

进步在电子表格建模上表现得最为具体。GPT-5.4 模拟初级投行分析师完成建模任务，平均得分 87.3%，GPT-5.2 是 68.4%，GPT-5.3-Codex 是 79.3%，差距将近 20 个百分点。

法律平台 Harvey 的 BigLaw Bench 测试结果同样亮眼，GPT-5.4 得分 91%，专业服务评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。

准确性方面同样值得关注。幻觉问题一直是 AI 进入专业场景最大的拦路虎，每降低一个百分点，都意味着更多场景可以放心用它。

数据显示，与 GPT-5.2 相比，GPT-5.4 单条陈述出错的概率低了 33%，完整回复含有错误的概率低了 18%。

编程：一个模型，写代码测代码全包了

GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进主线，对开发者来说，这意味着你不再需要为了写代码单独开一个模型，而且编程能力本身也没有因此打任何折扣。

SWE-Bench Pro 专门测试真实软件工程任务，GPT-5.4 得分 57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%。整合之后，编程分数不降反升，同时还顺带获得了计算机操控等一整套通用能力，几乎找不到明显的弱点。

知名 AI 评测博主 Dan Shipper 试用后写道：「这是我们最近一段时间里见过 OpenAI 最出色的规划能力，代码审查也很强，而且成本大约只有 Opus 的一半。」

他点出了两个具体维度。其一，规划能力是长任务成败的关键，GPT-5.4 在任务拆解和持续推进上明显更有条理。其二，与 Claude Opus 相比约一半的成本，对需要大规模 API 调用的开发者来说，这个差距在账单上会非常直观。

开启 Codex 中的 /fast 模式后，可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍，使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。

与此同时，新推出的实验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又推进了一步。

GPT-5.4 在构建 Web 或 Electron 应用时，能够通过可视化浏览器进行实时调试，模型可以边写代码、边测试自己正在构建的应用，同时承担开发者和测试员两个角色。

OpenAI 展示了一个典型案例：仅凭一条轻量提示词，GPT-5.4 生成了一个完整的等距视角主题公园模拟游戏，涵盖基于瓦片的路径铺设与景点建设系统、游客 AI 寻路与排队行为，以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。

Playwright Interactive 在整个过程中承担了多轮自动化测试，验证路径铺设、摄像机导航、游客响应及 UI 指标的正确性。从写代码到测试验收，模型全程自己完成。

博主 Angel 同样用 GPT-5.4 写了一个 Minecraft 克隆版，模型花了约 24 分钟，运行流畅，过程中没有卡住。他在推文里写道「Minecraft 基本上被攻克了，我现在得找个新测试了」。

沃顿商学院教授 Ethan Mollick 同样获得了早期访问权限。他用同一条提示词，让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景，全程没有报错，只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前 GPT-4 生成的版本并排放在一起，差距一眼可见。

操控电脑这件事，它现在比你做得好

这是 GPT-5.4 这次发布里最值得单独说一说的变化。此前 OpenAI 的计算机操控能力是一个独立模块，跟模型的语言理解、代码生成之间有一道明显的分隔。

两套系统各管各的，信息要来回传递，效率自然打折。现在这道分隔没了，GPT-5.4 操控电脑时，用的就是模型本身的推理能力，不需要再绕一圈。

这也是 OpenAI 第一款将计算机使用（computer use）能力原生内置进通用模型的产品，以后谈 AI Agent，相信这会是一个新的起点。

基准测试结果显示，OSWorld-Verified 基准测试桌面导航能力，用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的成功率，人类基线是 72.4%，GPT-5.2 是 47.3%。

简言之，它不仅追上了人类，还超过了人类。

在只用截图模式测试浏览器操控的 Online-Mind2Web 基准中，GPT-5.4 达到 92.8%，对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%，

真实部署案例更能说明问题。Mainstay 将 GPT-5.4 用于约三万个物业税务门户网站的自动表单填写，首次成功率达 95%，三次以内成功率 100%，而此前同类模型仅在 73% 至 79% 之间。会话完成速度提升约三倍，Token 消耗降低约 70%。

这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4 在这一层做了专项加强，引入了原始图像（original）输入模式，支持最高 1024 万像素或 6000 像素最大边长的高保真图像输入；原有的高清（high）模式上限也从此前的标准提升至 256 万像素或 2048 像素最大边长。

工具调用与网页搜索：持续性是核心竞争力

一个复杂的 AI Agent 系统，背后可能挂着几十个 MCP 工具。过去的做法是每次对话开始前，把所有工具的说明一股脑塞进去，不管这次用不用得上，Token 先花了再说。

GPT-5.4 换了个思路：先给模型一份简单的工具清单（即引入工具搜索机制），真正需要用哪个，再去把那个工具的详细说明取过来，用过一次的还能直接缓存，下次不用重新拿。

在 250 项任务的测试中，启用 36 个 MCP 服务器的完整配置下，工具搜索模式在保持准确率完全不变的前提下，将总 Token 消耗降低了 47%。将近一半的成本节省，精度一点没少。

网页搜索方面，GPT-5.4 在 BrowseComp 基准上得分 82.7%，比 GPT-5.2 的 65.8% 高出 17 个百分点，Pro 版更达到 89.3%，创下业界最高分。Zapier CEO 评价说，GPT-5.4 会在其他模型放弃的地方继续搜索下去，是他们测试过持续性最强的模型。

百万 Token 上下文：长长长长长长

GPT-5.4 在 API 中支持最高 100 万 Token 的上下文窗口，相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。

但从测试结果来看，128K 至 272K 是表现最稳定的区间，适合日常使用。

256K 以上准确率开始下滑，需要针对具体任务验证后再用。512K 至 1M 区间的得分降至 36.6%，目前更接近实验性质，不适合直接用于对精度要求高的生产任务。

还有一个实际的成本问题需要注意：超过 272K 的请求会按两倍用量计入配额。也就是说，发一次超长上下文的请求，额度消耗等于两次普通请求，用之前值得想清楚是否真的需要这么长。

至于在视觉抽象推理基准 ARC-AGI-2 上，GPT-5.4 Pro 得分 83.3%，而上代 GPT-5.2 Pro 仅为 54.2%。

再比如 FrontierMath Tier 4 是目前公认最难的数学基准之一，包含 50 道研究级别的数学题，人类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%，上代为 31.3%。

这个数字的参照系是：一年前，最好的成绩是 o3 的 2%，目前最好的开源模型是 4.2%。

博主 Deedy 在推文中写道，从 2% 到 38%，「简直令人震惊」。Humanity's Last Exam 有工具辅助时，GPT-5.4 Pro 得分 58.7%，GPT-5.2 Pro 是 50.0%，差距接近 9 个百分点。

执行中调整，不是完成后返工

用过 AI 处理长任务的人大概都有过这种体验：等模型跑完一大段，发现方向不对，只能从头再来，时间全浪费了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一项「中途打断」功能：在处理复杂任务之前，模型会先呈现工作计划概要，再开始执行。用户可以在执行过程中随时介入调整方向，不必等到结果出来再从头重来。

这个功能把纠偏这件事从「完成后」提前到了「执行中」，对需要多轮协作的任务来说，体验差别会比较明显。功能目前已在 chatgpt.com 和 Android 应用上线，iOS 版本即将跟进。

即日起，GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。

GPT-5.2 Thinking 将保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用户可由管理员在后台开启早期访问，GPT-5.4 Pro 仅对 Pro 和 Enterprise 计划开放。

API 标准版定价为输入 2.50 美元/百万 Token，缓存输入 0.25 美元/百万 Token，输出 15 美元/百万 Token。Pro 版为输入 30 美元/百万 Token，输出 180 美元/百万 Token。Batch 和 Flex 处理享标准价格五折，Priority Processing 为两倍标准价格。

当然，强大的推理能力也有它的另一面。Hyperbolic 联合创始人金宇晨在 X 平台吐槽，GPT-5.4 Pro 是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」，模型就开始认真推理，直接烧掉了 80 美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考，哪怕问题本身根本不需要。对于日常轻量任务，标准版或许是更合适的选择；Pro 版的推理火力，还是留给真正值得的场合更划算。

过去两年，AI 能力的讨论主要集中在基准测试成绩上的「聪明」，但 GPT-5.4 的聪明指向的是能够在真实工作流中，足够可靠地承担责任。

过去 AI 只能输出文字，人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果，独立完成一个有头有尾的任务闭环。

AI 正在从一个擅长回答问题的系统，变成一个擅长完成任务的系统。而这个转变的速度，显然比大多数人预期的更快。

附上参考地址：

https://openai.com/index/introducing-gpt-5-4/

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.