网易首页 > 网易号 > 正文 申请入驻

GPT-5.4 发布,OpenClaw 要被替代?OpenAI 新模型会自己用电脑了,还顺手把编程能力拉满

0
分享至


编译 | Tina

今天,GPT-5.4 发布,那个熟悉的 OpenAI 又回来了。

GPT-5.4 是一款新的前沿模型,把 OpenAI 过去一段时间在推理能力(GPT-5.2)、顶级编程能力(GPT-5.3-Codex)以及原生计算机使用能力上的进展,整合到了同一个版本里。

这次发布的分量很重,光是“原生电脑操作”这一点,就已经足够吸引眼球,而当它再叠加顶级的专业知识工作能力、100 万 token 的上下文窗口,以及明显提升的工具使用效率时,对所有希望用 AI 工作、与 AI 协作,或者基于 AI 搭建系统的人来说,这都意味着一次真正意义上的能力跃升。

GPT-5.4 抢的是 OpenClaw 的入口?

在这个新模型上,最大的变化就是原生电脑操作能力的到来。在之前的 OpenAI 模型中,只要涉及屏幕交互,就需要调用一个单独的“Computer-Using Agent”模型。而 GPT-5.4 则把这项能力直接做成了原生功能。


OSWorld Verified 的 computer use 基准测试上从 47.3% 提升到了 75%,而 BrowseComp 的准确率从 65.8% 提升至 82.7%。

这不只是“跑几个 shell 命令”那么简单,真正的意义在于:它可以进入你的桌面、访问网页,基本上能够在你的电脑上完成很多原本只有人来操作的事情,而这些事通常是我们平时通过网页端 ChatGPT 做不到的。

尤其是像 OpenClaw 这样的产品,在最近几个月,甚至可以说最近几周,突然变得非常火,核心原因就在于,它已经改变了我们使用 AI 模型的方式。过去,我们更多只是停留在网页端,通过 web app 和模型对话,电脑本地几乎没有真正参与进来。但现在,这种局面已经从根本上发生了变化。

从 OpenAI 给出的示例中,我们可以看到 GPT-5.4 可以熟练使用计算机,包括查看浏览器用户界面截图、点击界面、发送电子邮件以及安排日历。

另一个新的实验功能 “Playwright (Interactive)”,允许 Codex 实时进行 Web 和 Electron 应用的可视化调试,甚至能在构建应用的同时直接测试——这正是借助它的原生电脑操作能力实现的。

OpenAI 研究员 SQ Mah 表示,这背后主要有两项关键能力支撑:一是 CUA(computer use,计算机操作能力),二是通过图像输入生成高质量网站的能力。

与 GPT-5.3 Codex 相比,GPT-5.4 在使用 CUA 时,不再需要额外拉起一个全新的环境来执行操作。在 3D 游戏中,CUA 会自己点击游戏界面,移动象棋位置,甚至通过实际操作来验证规则是否正确生效。

在网站生成场景中,模型会调用 image gen 工具,生成图片,然后通过 CUA 来检查自己的工作:打开生成的图片、检查图片内容、打开网站页面也看一遍,然后把它们并排对比,确保生成的网站尽可能接近输入的那张图。

SQ Mah 还强调说,通过持久化的 CUA,他们发现,在一些让模型测试自己工作的场景中,token 使用量实际上下降了三分之二。

其实,OpenAI 早在去年 1 月就推出了 CUA,但出于安全性和准确性的考量,这个项目并没有真正被重视起来。



甚至一度让人怀疑,OpenAI 是否已经放弃了这条路线。特别是在 GPT-4o 等项目吸引了几乎全部关注的那段时间里,CUA 基本处于一种“销声匿迹”的状态。


他们是不是放弃这个项目了?现在一点消息都没有了。我其实一直在用 Azure/OpenAI,它已经预览好几个月了。虽然我申请了,但一直没能获得批准。


与 GPT-4o 等项目铺天盖地的宣传相比,CUA 基本上销声匿迹了。而且它目前仍处于预览阶段,这意味着访问权限受到严格限制,许多人甚至都无法尝试...... 不过我不认为这条路线已经失败。一旦“浏览器优先”的方案在稳定性、隐蔽性以及内置安全机制上真正成熟,它很可能会成为 agent 工作流的一次重大跃迁。

但从今天 GPT-5.4 的发布来看,情况显然变了。OpenAI 不仅重新把这项能力带回到台前,还在 GitHub 上新发布了一些的 CUA sample app。


CUA 让 ChatGPT 5.4 可以直接使用我们的电脑,这一点和 OpenClaw 的思路非常接近:本质上,大家都在争夺同一个入口——让 AI 直接使用电脑,而不再继续受限于 API 和聊天窗口。只不过,相比 OpenClaw 这类建立在模型之外的 computer-use 框架,GPT-5.4 走得更直接:它把电脑操作能力原生整合进了模型。

当这些模型开始“反超”像 OpenClaw 这样的开源项目时,那些年营收千万、上亿甚至百亿的公司,完全可以做出自己版本的 OpenClaw——更安全、更快、更可靠。所以在 agentic AI 能力方面,现在真的是令人兴奋的阶段。

一边降成本,一边降幻觉

这次升级明显是在“照顾开发者和重度用户”,其中一个关键原因是 GPT-5.4 带来了工具搜索(tool search):模型不再把所有工具的完整定义一次性塞进上下文(这可能导致每次请求额外烧掉数万 token),而是只拿到一个轻量列表,需要用哪个工具时再按需检索具体定义。

在 Scale 的 MCP Atlas 基准中,启用 36 个 MCP 服务器、测试 250 个任务时,tool-search 配置在不降低准确率的情况下,把总 token 使用量减少了 47%。对构建大型 agent 系统的开发者来说,这几乎等同于:成本更低、响应更快。


幻觉问题也显著下降。按 OpenAI 的说法,GPT-5.4 的单条事实陈述比 GPT-5.2 更不容易出错(错误概率降低 33%),整体回答包含错误的概率也降低了 18%——这对依赖准确输出的专业用户来说,是非常实用的一次升级。

与此同时,在 Harvey 的 BigLaw Bench(法律文档评测)中,GPT-5.4 的准确率达到了 91%。


编程能力也更强了

GPT-5.4 现在也成为 OpenAI 的主力编程模型——在大多数任务中,你不再需要在 ChatGPT 与 Codex 之间纠结选哪一个。


它在 SWE-Bench Pro 上与 GPT-5.3-Codex 持平或更强,同时也更快,尤其是在较低推理强度设置下。在对话里,你可以直接开始写代码,无需额外选择。


Codex 还新增了 fast mode,在所有支持的模型上带来最高 1.5 倍速度提升。OpenAI 还强调 GPT-5.4 在复杂前端任务上明显更强,输出既更精致好看,也更符合功能正确性。这一点,也已经从不少开发者的实际反馈中得到了印证。



能力升级,价格也升级

在 API 中,OpenAI 表示 GPT-5.4 Thinking 对应的模型名称为 gpt-5.4,而 GPT-5.4 Pro 则对应 gpt-5.4-pro。价格如下:

GPT-5.4:

  • 输入:$2.50 / 每 100 万 token

  • 输出:$15 / 每 100 万 token

GPT-5.4 Pro:

  • 输入:$30 / 每 100 万 token

  • 输出:$180 / 每 100 万 token

从整体来看,与目前市面上的模型相比,GPT-5.4 在 API 运行成本上属于较高的一档,如下表所示。


还有一个重要变化:在 GPT-5.4 中,如果请求的 输入 token 超过 272,000,费用将按正常价格的 2 倍计算,这反映了它支持比以往模型更大的提示上下文。

在 Codex 中,默认的 compaction(压缩)上限是 272k token。只有当输入超过 272k 时,才会触发更高的长上下文价格。这意味着开发者只要把提示控制在这个范围内,就不会触发额外费用;如果需要更长上下文,也可以通过提高 compaction 上限来实现,但只有这些更大的请求才会按更高费率计费。

OpenAI 发言人还表示,在 API 中 最大输出长度为 128,000 token,与之前的模型保持一致。

至于为什么 GPT-5.4 的基础价格更高,OpenAI 的解释主要有三个原因:

  1. 在复杂任务上的能力显著提升,包括编程、计算机操作、深度研究、高级文档生成和工具调用等;

  2. 来自 OpenAI 技术路线图的一系列研究突破;

  3. 推理效率更高,在完成相同任务时需要更少的推理 token。

同时他们也强调,即使价格有所上调,GPT-5.4 的定价仍然低于许多同级别的前沿模型。

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。

会议推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程!汇聚顶尖专家实战分享,把 AI 能力一次夯到位!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
伊朗一座可容纳12000人的体育馆被摧毁,曾举办世界排球联赛

伊朗一座可容纳12000人的体育馆被摧毁,曾举办世界排球联赛

懂球帝
2026-03-07 12:16:18
一千亿美元打了水漂?今天终于可以大声说:中国这钱花得太值了!

一千亿美元打了水漂?今天终于可以大声说:中国这钱花得太值了!

闻识
2026-03-05 20:13:08
生涯首次!杨瀚森复出21+9+6+2+3帽创纪录 率混音拒20分逆转

生涯首次!杨瀚森复出21+9+6+2+3帽创纪录 率混音拒20分逆转

醉卧浮生
2026-03-07 12:30:45
吴京懵了、张艺谋乐了,17天了《镖人》还能被《惊蛰无声》反超

吴京懵了、张艺谋乐了,17天了《镖人》还能被《惊蛰无声》反超

娱乐故事
2026-03-05 17:10:51
1 分钟都嫌多?曼联 6000 万水货凉透 球迷怒喊:永久弃用!

1 分钟都嫌多?曼联 6000 万水货凉透 球迷怒喊:永久弃用!

奶盖熊本熊
2026-03-08 03:22:58
美以联军这波操作太狠了

美以联军这波操作太狠了

难得君
2026-03-05 00:05:25
在中国一颗也卖不出去!NVIDIA无奈停产H200芯片:加速Vera Rubin量产

在中国一颗也卖不出去!NVIDIA无奈停产H200芯片:加速Vera Rubin量产

快科技
2026-03-06 12:05:08
8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

今朝牛马
2026-02-01 21:14:04
滞留迪拜6天,7次航班取消,她咬牙买下54000元机票

滞留迪拜6天,7次航班取消,她咬牙买下54000元机票

中国新闻周刊
2026-03-07 19:23:03
燃尽!陈雨菲鏖战落败,无缘全英决赛

燃尽!陈雨菲鏖战落败,无缘全英决赛

佑铭羽球
2026-03-08 04:55:05
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
985名校83页举报信涉事老师有雅兴,火烧眉毛了,还在指导女学生

985名校83页举报信涉事老师有雅兴,火烧眉毛了,还在指导女学生

画生笔记
2026-02-10 09:07:08
俄罗斯被曝向伊朗提供情报,包括美军舰船和飞机的定位,白宫回应!美国准备部署第三艘航母,紧急批准对以色列超1.5亿美元军售

俄罗斯被曝向伊朗提供情报,包括美军舰船和飞机的定位,白宫回应!美国准备部署第三艘航母,紧急批准对以色列超1.5亿美元军售

每日经济新闻
2026-03-07 13:18:09
男子送相亲对象回家遇其忘带钥匙,开房遭拒后女子怒斥男子真没用

男子送相亲对象回家遇其忘带钥匙,开房遭拒后女子怒斥男子真没用

网络易不易
2026-03-03 10:15:18
2026中国百强城市指数榜单发布!一线城市洗牌,江苏13市全部入选

2026中国百强城市指数榜单发布!一线城市洗牌,江苏13市全部入选

GYbrand
2026-03-05 22:03:13
究竟逊尼派与什叶派的区别是什么?

究竟逊尼派与什叶派的区别是什么?

难得君
2026-03-07 09:53:43
伊朗大规模发射新一代导弹,摧毁美军多个基地雷达、飞机燃料库、MQ-9无人机机库等,以及多套萨德,“整个地区都能看到滚滚浓烟”

伊朗大规模发射新一代导弹,摧毁美军多个基地雷达、飞机燃料库、MQ-9无人机机库等,以及多套萨德,“整个地区都能看到滚滚浓烟”

每日经济新闻
2026-03-07 01:03:56
小米“龙虾”AI一发布就杀疯了?不用动手,手机自己搞定所有事

小米“龙虾”AI一发布就杀疯了?不用动手,手机自己搞定所有事

泡泡网
2026-03-06 18:09:12
Opencalw (小龙虾),太疯狂了。

Opencalw (小龙虾),太疯狂了。

纯洁的微笑
2026-03-06 12:16:11
2026-03-08 07:12:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12119文章数 51792关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗启动“真实承诺4”第27轮军事行动

头条要闻

伊朗启动“真实承诺4”第27轮军事行动

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

房产
教育
数码
艺术
健康

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

教育要闻

新华社消息|教育部部长:将深入开展“校园餐”、教辅征订等专项治理

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

艺术要闻

吴冠中:笔墨等于零

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版