网易首页 > 网易号 > 正文 申请入驻

OpenAI最强模型GPT-5.4重磅发布 首次支持原生操控电脑 超越人类

0
分享至

快科技3月6日消息,今日,OpenAI正式发布全新大模型GPT-5.4,号称目前能力最强、效率最高的专业工作前沿模型。

相比此前的GPT-5.2,GPT-5.4在推理能力、编程能力以及处理专业办公任务方面都有明显提升,尤其是在电子表格、PPT等复杂办公场景中的表现更加出色。

此次更新带来了两个版本:更擅长复杂推理任务的GPT-5.4 Thinking,以及性能更强、面向企业高端需求的GPT-5.4 Pro。

其中,GPT-5.4 Thinking主要提供给付费用户使用,而GPT-5.4 Pro则针对企业级客户。

GPT-5.4最大亮点之一是OpenAI首次在通用模型中引入原生电脑操控能力。

模型不仅可以生成文本或代码,还能根据屏幕截图直接操作电脑软件、浏览网页,并通过控制鼠标和键盘完成任务,同时还可与电子表格、金融分析工具等企业应用进行深度整合。


在计算机操控基准测试OSWorld-Verified中,GPT-5.4取得了75.0%的任务成功率,超过人类平均水平72.4%,相较GPT-5.2的47.3%实现了大幅提升。

编程能力方面,在Codex开启快速模式后,GPT-5.4的token生成速度可提升约1.5倍,大幅提高代码编写和调试效率。

据了解,GPT-5.4在API及Codex可同时支持最高100万token的上下文窗口,是OpenAI迄今提供的最大上下文容量,适合跨步骤长链路任务的规划、执行与验证。

价格方面,API接口中GPT-5.4的单token定价较GPT-5.2略有上涨:每百万输入token为2.5美元,输出token为15美元。

至于更高性能的GPT-5.4 Pro,每百万输入token价格为30美元,输出token价格为180美元。

不过,由于token效率提升,许多任务的总成本反而会降低。


目前,GPT-5.4 Thinking已向Plus、Team以及Pro订阅用户开放,并取代此前的GPT-5.2 Thinking。

GPT-5.2 Thinking则计划于2026年6月5日正式下线。


相关报道:OpenAI GPT-5.4发布:编码超越前代,知识工作接近人类专家水平

IT之家3月6日消息,OpenAI 今日正式发布了 GPT-5.4系列模型,包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本,以及面向复杂任务的 GPT-5.4 Pro 版本。

这是 OpenAI 首次将前沿推理、编码和智能体能力整合至单一模型中,旨在提升专业工作的效率和准确性。



核心功能升级

在 ChatGPT 中,GPT-5.4 Thinking 新增“思考过程预览”功能,模型会在处理复杂查询时预先展示其推理思路,用户可在模型响应过程中实时调整方向,从而减少来回沟通,更快获得符合需求的结果。IT之家从官方获悉,该功能已在网页版和 Android 应用上线,iOS 版本即将推出。



新模型还增强了深度网络研究能力,特别是在处理高度具体的查询时,能够更好地保持长上下文连贯性。对于需要较长时间思考的问题,GPT-5.4 Thinking 可维持对对话前序步骤的更强意识,确保答案在整个过程中保持相关性和连贯性。

在 Codex 和 API 层面,GPT-5.4是 OpenAI 首个具备原生计算机使用能力(computer-use capabilities)的通用模型,支持通过截图和键盘鼠标指令操作计算机,完成跨应用的复杂工作流程。

GPT-5.4系列模型支持高达100万 tokens 的上下文窗口,使智能体能够规划、执行和验证长周期任务。

知识工作表现显著提升

据介绍,GPT-5.4在专业工作领域实现了大幅突破。在 OpenAI 所测试的44个职业领域的 GDPval 基准中,GPT-5.4在83.0% 项目上可达到或超过行业专业水平,而前代 GPT-5.2为70.9%。



在内部投行级电子表格建模任务测试中,GPT-5.4的平均得分为87.3%,远高于 GPT-5.2的68.4%。在演示文稿评估中,评审者更偏好 GPT-5.4生成的演示文稿(68.0% vs. GPT-5.2的32.0%),主要优势在于更强的美学设计、更丰富的视觉变化以及更有效的图像生成运用。



在减少错误方面,GPT-5.4已成为 OpenAI 迄今为止最“ factual”的模型。相比 GPT-5.2,其单个陈述的错误率降低33%,完整回答中出现任一错误的可能性降低18%。

计算机使用与视觉能力

GPT-5.4在计算机使用基准测试中表现优异。在 OSWorld-Verified 基准(通过截图和键盘鼠标操作 PC 桌面环境)上,GPT-5.4实现了75.0% 的成功率,远超 GPT-5.2的47.3%,甚至超过人类表现(72.4%)。



在 WebArena-Verified 浏览器使用测试中,GPT-5.4结合 DOM 和截图驱动交互时成功率达67.3%(GPT-5.2为65.4%);在 Online-Mind2Web 测试中,其仅凭观察截图即可实现92.8% 的成功率,显著高于 ChatGPT Atlas 智能体模式的70.9%。



视觉感知能力方面,GPT-5.4在 MMMU-Pro 视觉理解与推理测试中取得81.2% 的成功率,优于 GPT-5.2的79.5%。在 OmniDocBench 文档解析测试中,GPT-5.4的平均错误率降至0.109(GPT-5.2为0.140)。



编码能力与工具生态

另外,GPT-5.4还融合了 GPT-5.3-Codex 的编码优势,在 SWE-Bench Pro 基准上与之持平或表现更优,同时延迟更低。Codex 中的“/fast”模式可提升1.5倍 token 速度,保持同等智能水平。



5.4新增的“工具搜索”(tool search)功能使该系列模型能够高效处理各种工具。在 Scale 的 MCP Atlas 基准测试中,启用工具搜索后,在保持相同准确率的前提下,其总 token 消耗量减少47%。同时,GPT-5.4在 Toolathlon 基准(测试智能体使用真实世界工具和 API 完成多步骤任务的能力)上,它也能用更少的交互轮次实现更高准确率。



同时,GPT-5.4网络搜索能力也得到增强。在 BrowseComp 基准(测试智能体持续浏览网络寻找难以定位信息的能力)上,GPT-5.4性能较 GPT-5.2提升了17个百分点,而 GPT-5.4 Pro 更是创下了89.3% 的新高。



安全性与可用性

OpenAI 表示,GPT-5.4延续了 GPT-5.3-Codex 的安全防护措施,并引入新的开源评估“CoT 可控性”(CoT controllability),测试发现 GPT-5.4 Thinking 控制其思维链的能力较低,这有利于安全监控。



在定价方面,GPT-5.4 API 的每 token 价格高于 GPT-5.2,但其更高的 token 效率可降低许多任务的总 token 消耗。批量处理(Batch)和 Flex 定价为标准 API 费率的一半,优先处理(Priority)为两倍。

发布计划

GPT-5.4 Thinking 即日起面向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在模型选择器的“遗留模型”部分保留三个月,直至2026年6月5日退役。Enterprise 和 Edu 计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 计划用户开放。

在 API 中,GPT-5.4将以 gpt-5.4名称提供支持,GPT-5.4 Pro 则以 gpt-5.4-pro 名称提供给需要极致性能的开发者;Codex 中的 GPT-5.4支持1M 上下文窗口的实验性功能。

OpenAI 表示,GPT-5.4是首个融合前沿编码能力并在 ChatGPT、API 和 Codex 同步推出的主流推理模型,未来 Instant 模型和 Thinking 模型将以不同速度演进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视火速曝光:全是假货!别再往家里搬了,很多人天天在用!

央视火速曝光:全是假货!别再往家里搬了,很多人天天在用!

云舟史策
2026-03-05 17:54:39
两会开始才1天,已有4位演员的建议火出圈,句句直戳全国观众心窝

两会开始才1天,已有4位演员的建议火出圈,句句直戳全国观众心窝

观察鉴娱
2026-03-06 09:42:58
人大代表庹庆明建议将70岁以上老人全口义齿修复纳入医保 让更多老人尝到饭香

人大代表庹庆明建议将70岁以上老人全口义齿修复纳入医保 让更多老人尝到饭香

闪电新闻
2026-03-05 18:04:46
27年生涯!宣告结束!再见了,NBA

27年生涯!宣告结束!再见了,NBA

篮球教学论坛
2026-03-06 10:38:24
中国又一顶级阳谋!台当局不答应?我们照修如初!厦金大桥已抵金门,主线196公里

中国又一顶级阳谋!台当局不答应?我们照修如初!厦金大桥已抵金门,主线196公里

娱乐的硬糖吖
2026-03-06 06:54:55
特朗普强势要求今天赦免以总理内塔尼亚胡,曾两次公开贴心为其推椅子,在其提名自己为诺贝尔和平奖候选人时,感动称“感谢你,比比”

特朗普强势要求今天赦免以总理内塔尼亚胡,曾两次公开贴心为其推椅子,在其提名自己为诺贝尔和平奖候选人时,感动称“感谢你,比比”

极目新闻
2026-03-06 11:16:05
1.2亿农村老人,每月只领200元养老金,买两袋米就没了。

1.2亿农村老人,每月只领200元养老金,买两袋米就没了。

流苏晚晴
2026-02-26 18:18:15
阿里决绝“干掉”林俊旸,一场关于千问“集体叛逃”的误读

阿里决绝“干掉”林俊旸,一场关于千问“集体叛逃”的误读

一视财经
2026-03-05 21:21:03
大S遗产最终确认:通过信托留给2个子女,具俊晔和S妈放弃继承

大S遗产最终确认:通过信托留给2个子女,具俊晔和S妈放弃继承

素素娱乐
2026-03-06 08:29:40
家产几十亿还去央视上夜班,这位山东姑娘才是真正的“人间清醒”

家产几十亿还去央视上夜班,这位山东姑娘才是真正的“人间清醒”

阿芒娱乐说
2026-03-06 07:10:06
赵今麦居然也穿丝袜了,而且还是油丝 真性感啊

赵今麦居然也穿丝袜了,而且还是油丝 真性感啊

阿废冷眼观察所
2026-03-06 00:55:07
小米汽车春节10天跑1万公里遭质疑 阿维塔冠军车主力挺

小米汽车春节10天跑1万公里遭质疑 阿维塔冠军车主力挺

快科技
2026-03-05 11:54:08
美国已经消耗掉武器库存?美防长:我们拥有几乎无限的库存

美国已经消耗掉武器库存?美防长:我们拥有几乎无限的库存

互联网大观
2026-03-05 10:24:43
瓜分413万奖金!李月汝美国夺冠:将回国助中国女篮战世预赛

瓜分413万奖金!李月汝美国夺冠:将回国助中国女篮战世预赛

李喜林篮球绝杀
2026-03-05 13:47:36
贾玲已经不再是从前那个贾玲了,现在的贾玲跟夺舍了一样

贾玲已经不再是从前那个贾玲了,现在的贾玲跟夺舍了一样

乡野小珥
2026-03-06 04:43:11
1000分里程悲!弗拉格创四纪录关键1帽1攻无用 米豆致命失误坑他

1000分里程悲!弗拉格创四纪录关键1帽1攻无用 米豆致命失误坑他

颜小白的篮球梦
2026-03-06 10:40:42
俄媒提醒中国:美国袭击伊朗只是幌子,目的是将解放军引入太平洋

俄媒提醒中国:美国袭击伊朗只是幌子,目的是将解放军引入太平洋

音乐时光的娱乐
2026-03-06 10:24:34
中国2000多个县城的生存现状:除了性生活就是打麻将!

中国2000多个县城的生存现状:除了性生活就是打麻将!

谈史论天地
2026-03-03 18:02:29
故事:95年我去打工借宿同学家,谁知被同学母亲看上,直接改变人生

故事:95年我去打工借宿同学家,谁知被同学母亲看上,直接改变人生

红豆讲堂
2024-11-15 21:00:02
詹姆斯:没人比我更严于律己,季后赛我会关手机没人找得到我

詹姆斯:没人比我更严于律己,季后赛我会关手机没人找得到我

懂球帝
2026-03-06 00:57:08
2026-03-06 11:59:00
快科技 incentive-icons
快科技
一起关注每日科技热点
106930文章数 260121关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

头条要闻

特朗普强势要求赦免内塔尼亚胡 曾公开贴心为其推椅子

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

健康
教育
数码
游戏
家居

转头就晕的耳石症,能开车上班吗?

教育要闻

脉搏还是脉膊哪个正确?

数码要闻

Optiscaler游戏工具更新让AMD光线重组成功“偷家”英伟达

微软Xbox公开新世代主机“Project Helix” 兼容Xbox与PC游戏

家居要闻

暖棕撞色 轻法奶油风

无障碍浏览 进入关怀版