网易首页 > 网易号 > 正文 申请入驻

OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵

0
分享至

机器之心编辑部

周五凌晨,OpenAI 正式发布 GPT-5.4,引入了一种新模式:原生的计算机使用。



有意思的是,这次 GPT-5.4 的上新,恰好发生在知名开发者 Peter Steinberger 加入 OpenAI 不久之后。这很难不让人猜测,Peter 的加入会对 OpenAI 在计算机使用和开发者工具方向上的布局产生多少影响。Peter 本人也进行了宣传:



还有网友表示:GPT-5.4 的发布,到处都有 Peter Steinberger 的「爪印」!GPT-5.4 看起来就像是 OpenClaw 的架构文档被直接做成了一个前沿模型,而这一切发生在 Peter 加入 OpenAI 仅仅 3 周之后。该网友还进行了一些对比,比如以前所有工具定义都必须塞进 prompt 里,浪费成千上万的 token,现在是 GPT-5.4 可以按需查找工具定义,token 使用量减少 47%。而 OpenClaw 从第一天起就通过描述匹配动态加载技能(skills)。

又比如,过去,模型本身并没有原生能力去直接操作软件或执行完整的开发流程。而在 GPT-5.4 中,智能体已经可以在不同应用之间自动运行「构建 → 运行 → 验证 → 修复」的循环,实现较为完整的任务闭环。值得注意的是,这种工作模式与 OpenClaw 的设计非常相似。



而这些变化,也正好引出了 GPT-5.4 最核心的一点:原生计算机使用能力(Computer Use)。

新一代大模型在知识工作和网络搜索方面表现更出色,具备原生的计算机使用能力。GPT-5.4 现在可以直接操作软件、使用工具、浏览网页、执行工作流程,并规划跨应用程序的复杂任务,最多可处理 100 万个上下文 token。

推理 + 编码 + 智能体 + 计算机控制,全都融合在同一个前沿模型里。

目前,GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供,并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用户开放),取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro(面向 Pro 和企业版用户开放),其专为那些希望在复杂任务中实现极致性能的用户设计。

在 API 中,GPT-5.4 的 token 价格高于 GPT-5.2,批量处理和灵活处理的价格为标准 API 费率的一半,而优先处理的价格为标准 API 费率的两倍。



在评测基准上,GPT 5.4 Pro 以 38% 的成绩轻松击败了最难的数学基准测试 FrontierMath Tier 4—— 该基准包含 50 道研究级别的数学题,数学家可能需要几周时间才能解决。仅仅在一年前,最佳成绩为 2% (o3) ,目前最佳的开源模型分数为 4.2% (Kimi K2.5)。





作为通用模型,GPT-5.4 具备原生的计算机使用能力,这对于开发者和智能体而言是一次重大飞跃。

OpenAI 表示,新模型能在各种计算机工作负载下保持高性能。它非常擅长编写代码来操作计算机(例如通过 Playwright 等库),也能根据屏幕截图发出鼠标和键盘命令。它的行为可以通过开发者消息进行控制,这意味着开发者可以根据特定用例调整其行为。开发者甚至可以通过指定自定义确认策略来配置模型的安全行为,以适应不同的风险承受能力。

该模型的性能和灵活性体现在各项基准测试中,在 OSWorld-Verified 测试中,该测试通过屏幕截图和键盘 / 鼠标操作来衡量模型在桌面环境中导航的能力,GPT-5.4 取得了 75.0% 的领先成功率,远超 GPT-5.2 的 47.3%,也超越了人类的 72.4%。



在 GDPval 测试中,GPT-5.4 在 83.0% 的比较中达到或超过了行业专业人士的水平,而 GPT-5.2 的这一比例为 70.9%。



GPT-5.4 计算机性能的提升得益于其增强的通用视觉感知能力。在 MMMU-Pro 测试中,GPT-5.4 在不使用任何工具的情况下取得了 81.2% 的成功率,优于 GPT-5.2 的 79.5%。

视觉感知能力的提升也体现在其文档解析能力的增强上。在 OmniDocBench 测试中,GPT-5.4 在不使用任何推理工具的情况下,平均误差为 0.109,优于 GPT-5.2 的 0.140。



代码生成方面,GPT-5.4 结合了 GPT-5.3-Codex 的编码优势,并具备领先的知识处理和计算机使用能力,这在长时间运行的任务中尤为重要,因为模型可以利用工具、迭代并推进工作,从而减少人工干预。在 SWE-Bench Pro 测试中,GPT-5.4 的性能与 GPT-5.3-Codex 持平或更优,同时在推理过程中延迟更低。



启用 Codex 中的 /fast 模式后,GPT-5.4 的 token 处理速度最高可提升 1.5 倍。它采用的是相同的模型和智能,只是速度更快。这意味着用户可以更流畅地完成编码任务、迭代和调试,保持高效的工作流程。



使用 GPT-5.4 生成的 RPG 游戏,经过多回合迭代开发。



根据一个简单的提示,制作的金门大桥飞行体验。

在 API 中,GPT-5.4 引入了工具搜索功能。这使得模型能够在拥有众多工具的情况下高效运行。

以前,当给模型分配工具时,所有工具的定义都会预先包含在请求请求中。对于拥有大量工具的系统,这可能会在每个请求中增加数千甚至数万 token,从而增加成本、降低响应速度,并使上下文信息过于拥挤,而这些信息模型可能永远不会用到。

通过工具搜索,GPT-5.4 会收到一个轻量级的可用工具列表以及相应的工具搜索功能。当模型需要使用某个工具时,它可以查找该工具的定义,并将其添加到当前的对话中。

这种方法显著减少了工具密集型工作流程所需的 token 数量。它还使智能体能够可靠地与规模更大的工具生态系统协同工作。对于可能包含数万个工具定义令牌的 MCP 服务器而言,效率提升可能非常显著。

OpenAI 评估了 Scale 的 MCP Atlas 中的 250 项任务,工具搜索配置在保持相同准确率的同时,将总 token 使用量减少了 47%。



GPT-5.4 改进了工具调用,使其在推理过程中(尤其是在 API 调用中)能够更准确、更高效地决定何时以及如何使用工具。与 GPT-5.2 相比,它在 Toolathlon 测试中以更少的回合数实现了更高的准确率。





GPT-5.4 在自主网络搜索方面也表现更佳。在 BrowseComp 测试中,GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 则达到了 89.3%,创下了新的最高水平。

这意味着 GPT-5.4 Thinking 更擅长回答需要整合网络上多个信息源的问题。它可以更持久地进行多轮搜索,以识别最相关的信息源,尤其适用于「大海捞针」式的问题,并将它们综合成清晰、论证充分的答案。



在 ChatGPT 中,GPT-5.4 Thinking 现在可以预先提供其思考计划,你可以在它运行过程中随时调整方向,最终无需额外迭代即可获得更符合需求的答案。GPT-5.4 Thinking 还改进了深度网络搜索,尤其是在处理高度具体的查询时,同时能够更好地保留需要长时间思考的问题的上下文信息。这些改进共同作用,意味着能够更快地获得更高质量、更贴合当前任务的答案。

在 Codex 和 API 中,GPT-5.4 是首个具备原生、最先进的计算机使用能力的通用模型,它使智能体能够操作计算机并在各种应用程序中执行复杂的流程。GPT-5.4 还通过工具搜索功能改进了模型在大型工具和连接器生态系统中的运行方式,帮助智能体更高效地找到并使用合适的工具,同时又不牺牲智能水平。

GPT-5.4 也是目前 OpenAI token 效率最高的推理模型,与 GPT-5.2 相比,它解决问题所需的 token 数量显著减少,这意味着更少的费用和更快的速度。

结合通用推理、编码和专业知识工作的进步,GPT-5.4 能够实现更可靠的智能体、更快的开发者工作流程以及 ChatGPT、API 和 Codex 的更高质量输出。



OpenAI 重点提升了 GPT-5.4 创建和编辑电子表格、演示文稿和文档的能力。在一系列演示文稿评估提示中,由于 GPT-5.4 的演示文稿具有更强的美观性、更丰富的视觉效果以及更高效的图像生成功能,获得了人类评分者的青睐。



OpenAI 研究科学家,德扑 AI Libratus 的发明者 Noam Brown 表示,GPT-5.4 在计算机应用和经济价值任务(例如 GDPval)上已取得了巨大进步。鉴于此,科学家们认为人工智能的发展前景广阔,预计今年内 AI 能力将继续大幅提升。

智力的指数增长还在继续。有人表示,ChatGPT 很快就会比最好的咨询公司、最好的投资银行和最好的律师事务所都更出色。

最后,很多人已经在使用 GPT-5.4 尝试各种任务了,不知道新一代模型具体表现如何。



有人已经认为,GPT-5.4 Pro 达到了 AGI 级别的智能。现在,你有什么 AGI 级别的问题要问吗?

参考内容:

https://openai.com/index/introducing-gpt-5-4/

https://openai.com/index/gpt-5-4-thinking-system-card/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国片里的矮华老梗

美国片里的矮华老梗

睡前马戏团
2026-04-22 17:40:48
两只液冷牛股再度跌停

两只液冷牛股再度跌停

财闻
2026-04-22 09:40:39
火遍外网的玩偶姐姐首次曝光全脸照和收入,评论区却全被她颜值惊呆!

火遍外网的玩偶姐姐首次曝光全脸照和收入,评论区却全被她颜值惊呆!

乔话
2026-04-21 21:16:37
再出名有啥用?51岁老来得女的刘德华,如今还是为女儿操碎了心

再出名有啥用?51岁老来得女的刘德华,如今还是为女儿操碎了心

荒野老五
2026-04-22 03:39:25
邓文迪近照大变样,成欧美最流行的海湖庄园脸,57像37看着好年轻

邓文迪近照大变样,成欧美最流行的海湖庄园脸,57像37看着好年轻

小娱乐悠悠
2026-04-22 09:50:39
起风了!大陆接到台湾消息,解放军刚按住日本,又有6国调兵遣将

起风了!大陆接到台湾消息,解放军刚按住日本,又有6国调兵遣将

书纪文谭
2026-04-21 23:03:59
难以置信!丈夫工资未发,推迟给生活费,广西留守妻子哭诉想离婚

难以置信!丈夫工资未发,推迟给生活费,广西留守妻子哭诉想离婚

火山詩话
2026-04-22 07:06:09
曝67岁唐鹤德患眼疾独自求医,寂寞难耐病愈后找史先生及男孩散心

曝67岁唐鹤德患眼疾独自求医,寂寞难耐病愈后找史先生及男孩散心

开开森森
2026-04-21 14:34:44
特大级建工集团崩了,从业20年的老员工:天塌了!

特大级建工集团崩了,从业20年的老员工:天塌了!

新浪财经
2026-04-22 10:14:20
窜访宣布取消后,国民党表态,民众党向大陆摊牌,赖清德亲自回应

窜访宣布取消后,国民党表态,民众党向大陆摊牌,赖清德亲自回应

闻识
2026-04-22 11:19:56
4500万人恐断粮!美国深夜求援中俄:粮食红线被踩化肥紧缺超黄金

4500万人恐断粮!美国深夜求援中俄:粮食红线被踩化肥紧缺超黄金

闻识
2026-04-22 01:12:59
1976年谁为周总理致悼词?江青推荐一人,叶剑英摇头拒绝:不合适

1976年谁为周总理致悼词?江青推荐一人,叶剑英摇头拒绝:不合适

雍亲王府
2026-03-30 10:55:03
退休安排有变!公务员弹性延迟退休取消,新方案已确定

退休安排有变!公务员弹性延迟退休取消,新方案已确定

一口娱乐
2026-04-22 05:02:00
印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

云舟史策
2026-04-22 07:24:21
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
伊朗媒体称革命卫队对一艘希腊船只采取行动

伊朗媒体称革命卫队对一艘希腊船只采取行动

新华社
2026-04-22 18:39:04
莱斯特城跌入第三级别联赛,但十年前上演童话的主角们将重聚

莱斯特城跌入第三级别联赛,但十年前上演童话的主角们将重聚

仰卧撑FTUer
2026-04-22 18:16:13
日本自卫队坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

日本自卫队坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

之乎者也小鱼儿
2026-04-21 15:25:57
刚刚!北京时间今天凌晨,中国外交官在联合国安理会上掀桌子了!

刚刚!北京时间今天凌晨,中国外交官在联合国安理会上掀桌子了!

娱乐小可爱蛙
2026-04-22 00:12:16
北京两所高校“一把手”调整

北京两所高校“一把手”调整

新浪财经
2026-04-22 13:32:54
2026-04-22 19:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12831文章数 142633关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

旅游
亲子
数码
艺术
公开课

旅游要闻

跟着天气游山东|淄博·风止雨霁 邂逅一场烟火与诗

亲子要闻

港姐张宝儿乳腺炎痛如石,老公帮忙亦无效,另1原因为大仔办退学

数码要闻

Beats发布3米USB-C数据线:售229元 最高240W快充

艺术要闻

无花不风景

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版