GPT-5.4 发布，OpenClaw 要被替代？OpenAI 新模型会自己用电脑了，还顺手把编程能力拉满|调用|gpt|agent|openai|openclaw

GPT-5.4 发布，OpenClaw 要被替代？OpenAI 新模型会自己用电脑了，还顺手把编程能力拉满

2026-03-06 12:46:12　来源: InfoQ

北京举报

分享至

编译 | Tina

今天，GPT-5.4 发布，那个熟悉的 OpenAI 又回来了。

GPT-5.4 是一款新的前沿模型，把 OpenAI 过去一段时间在推理能力（GPT-5.2）、顶级编程能力（GPT-5.3-Codex）以及原生计算机使用能力上的进展，整合到了同一个版本里。

这次发布的分量很重，光是“原生电脑操作”这一点，就已经足够吸引眼球，而当它再叠加顶级的专业知识工作能力、100 万 token 的上下文窗口，以及明显提升的工具使用效率时，对所有希望用 AI 工作、与 AI 协作，或者基于 AI 搭建系统的人来说，这都意味着一次真正意义上的能力跃升。

GPT-5.4 抢的是 OpenClaw 的入口？

在这个新模型上，最大的变化就是原生电脑操作能力的到来。在之前的 OpenAI 模型中，只要涉及屏幕交互，就需要调用一个单独的“Computer-Using Agent”模型。而 GPT-5.4 则把这项能力直接做成了原生功能。

OSWorld Verified 的 computer use 基准测试上从 47.3% 提升到了 75%，而 BrowseComp 的准确率从 65.8% 提升至 82.7%。

这不只是“跑几个 shell 命令”那么简单，真正的意义在于：它可以进入你的桌面、访问网页，基本上能够在你的电脑上完成很多原本只有人来操作的事情，而这些事通常是我们平时通过网页端 ChatGPT 做不到的。

尤其是像 OpenClaw 这样的产品，在最近几个月，甚至可以说最近几周，突然变得非常火，核心原因就在于，它已经改变了我们使用 AI 模型的方式。过去，我们更多只是停留在网页端，通过 web app 和模型对话，电脑本地几乎没有真正参与进来。但现在，这种局面已经从根本上发生了变化。

从 OpenAI 给出的示例中，我们可以看到 GPT-5.4 可以熟练使用计算机，包括查看浏览器用户界面截图、点击界面、发送电子邮件以及安排日历。

另一个新的实验功能 “Playwright (Interactive)”，允许 Codex 实时进行 Web 和 Electron 应用的可视化调试，甚至能在构建应用的同时直接测试——这正是借助它的原生电脑操作能力实现的。

OpenAI 研究员 SQ Mah 表示，这背后主要有两项关键能力支撑：一是 CUA（computer use，计算机操作能力），二是通过图像输入生成高质量网站的能力。

与 GPT-5.3 Codex 相比，GPT-5.4 在使用 CUA 时，不再需要额外拉起一个全新的环境来执行操作。在 3D 游戏中，CUA 会自己点击游戏界面，移动象棋位置，甚至通过实际操作来验证规则是否正确生效。

在网站生成场景中，模型会调用 image gen 工具，生成图片，然后通过 CUA 来检查自己的工作：打开生成的图片、检查图片内容、打开网站页面也看一遍，然后把它们并排对比，确保生成的网站尽可能接近输入的那张图。

SQ Mah 还强调说，通过持久化的 CUA，他们发现，在一些让模型测试自己工作的场景中，token 使用量实际上下降了三分之二。

其实，OpenAI 早在去年 1 月就推出了 CUA，但出于安全性和准确性的考量，这个项目并没有真正被重视起来。

甚至一度让人怀疑，OpenAI 是否已经放弃了这条路线。特别是在 GPT-4o 等项目吸引了几乎全部关注的那段时间里，CUA 基本处于一种“销声匿迹”的状态。

他们是不是放弃这个项目了？现在一点消息都没有了。我其实一直在用 Azure/OpenAI，它已经预览好几个月了。虽然我申请了，但一直没能获得批准。

与 GPT-4o 等项目铺天盖地的宣传相比，CUA 基本上销声匿迹了。而且它目前仍处于预览阶段，这意味着访问权限受到严格限制，许多人甚至都无法尝试...... 不过我不认为这条路线已经失败。一旦“浏览器优先”的方案在稳定性、隐蔽性以及内置安全机制上真正成熟，它很可能会成为 agent 工作流的一次重大跃迁。

但从今天 GPT-5.4 的发布来看，情况显然变了。OpenAI 不仅重新把这项能力带回到台前，还在 GitHub 上新发布了一些的 CUA sample app。

CUA 让 ChatGPT 5.4 可以直接使用我们的电脑，这一点和 OpenClaw 的思路非常接近：本质上，大家都在争夺同一个入口——让 AI 直接使用电脑，而不再继续受限于 API 和聊天窗口。只不过，相比 OpenClaw 这类建立在模型之外的 computer-use 框架，GPT-5.4 走得更直接：它把电脑操作能力原生整合进了模型。

当这些模型开始“反超”像 OpenClaw 这样的开源项目时，那些年营收千万、上亿甚至百亿的公司，完全可以做出自己版本的 OpenClaw——更安全、更快、更可靠。所以在 agentic AI 能力方面，现在真的是令人兴奋的阶段。

一边降成本，一边降幻觉

这次升级明显是在“照顾开发者和重度用户”，其中一个关键原因是 GPT-5.4 带来了工具搜索（tool search）：模型不再把所有工具的完整定义一次性塞进上下文（这可能导致每次请求额外烧掉数万 token），而是只拿到一个轻量列表，需要用哪个工具时再按需检索具体定义。

在 Scale 的 MCP Atlas 基准中，启用 36 个 MCP 服务器、测试 250 个任务时，tool-search 配置在不降低准确率的情况下，把总 token 使用量减少了 47%。对构建大型 agent 系统的开发者来说，这几乎等同于：成本更低、响应更快。

幻觉问题也显著下降。按 OpenAI 的说法，GPT-5.4 的单条事实陈述比 GPT-5.2 更不容易出错（错误概率降低 33%），整体回答包含错误的概率也降低了 18%——这对依赖准确输出的专业用户来说，是非常实用的一次升级。

与此同时，在 Harvey 的 BigLaw Bench（法律文档评测）中，GPT-5.4 的准确率达到了 91%。

编程能力也更强了

GPT-5.4 现在也成为 OpenAI 的主力编程模型——在大多数任务中，你不再需要在 ChatGPT 与 Codex 之间纠结选哪一个。

它在 SWE-Bench Pro 上与 GPT-5.3-Codex 持平或更强，同时也更快，尤其是在较低推理强度设置下。在对话里，你可以直接开始写代码，无需额外选择。

Codex 还新增了 fast mode，在所有支持的模型上带来最高 1.5 倍速度提升。OpenAI 还强调 GPT-5.4 在复杂前端任务上明显更强，输出既更精致好看，也更符合功能正确性。这一点，也已经从不少开发者的实际反馈中得到了印证。

能力升级，价格也升级

在 API 中，OpenAI 表示 GPT-5.4 Thinking 对应的模型名称为 gpt-5.4，而 GPT-5.4 Pro 则对应 gpt-5.4-pro。价格如下：

GPT-5.4：

输入：$2.50 / 每 100 万 token
输出：$15 / 每 100 万 token

GPT-5.4 Pro：

输入：$30 / 每 100 万 token
输出：$180 / 每 100 万 token

从整体来看，与目前市面上的模型相比，GPT-5.4 在 API 运行成本上属于较高的一档，如下表所示。

还有一个重要变化：在 GPT-5.4 中，如果请求的输入 token 超过 272,000，费用将按正常价格的 2 倍计算，这反映了它支持比以往模型更大的提示上下文。

在 Codex 中，默认的 compaction（压缩）上限是 272k token。只有当输入超过 272k 时，才会触发更高的长上下文价格。这意味着开发者只要把提示控制在这个范围内，就不会触发额外费用；如果需要更长上下文，也可以通过提高 compaction 上限来实现，但只有这些更大的请求才会按更高费率计费。

OpenAI 发言人还表示，在 API 中最大输出长度为 128,000 token，与之前的模型保持一致。

至于为什么 GPT-5.4 的基础价格更高，OpenAI 的解释主要有三个原因：

在复杂任务上的能力显著提升，包括编程、计算机操作、深度研究、高级文档生成和工具调用等；
来自 OpenAI 技术路线图的一系列研究突破；
推理效率更高，在完成相同任务时需要更少的推理 token。

同时他们也强调，即使价格有所上调，GPT-5.4 的定价仍然低于许多同级别的前沿模型。

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

声明：本文为 InfoQ 翻译整理，不代表平台观点，未经许可禁止转载。

会议推荐

2026，AI 正在以更工程化的方式深度融入软件生产，Agentic AI 的探索也将从局部试点迈向体系化工程建设！

QCon 北京 2026 已正式启动，本届大会以“Agentic AI 时代的软件工程重塑”为核心主线，推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度，系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程！汇聚顶尖专家实战分享，把 AI 能力一次夯到位！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.