网易首页 > 网易号 > 正文 申请入驻

OpenAI GPT-5.4发布:编码超越前代,知识工作接近人类专家水平

0
分享至

来源:市场资讯

(来源:IT之家)

IT之家 3 月 6 日消息,OpenAI 今日正式发布了 GPT-5.4 系列模型,包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本,以及面向复杂任务的 GPT-5.4 Pro 版本。

这是 OpenAI 首次将前沿推理、编码和智能体能力整合至单一模型中,旨在提升专业工作的效率和准确性。


核心功能升级

在 ChatGPT 中,GPT-5.4 Thinking 新增“思考过程预览”功能,模型会在处理复杂查询时预先展示其推理思路,用户可在模型响应过程中实时调整方向,从而减少来回沟通,更快获得符合需求的结果。IT之家从官方获悉,该功能已在网页版和 Android 应用上线,iOS 版本即将推出。


新模型还增强了深度网络研究能力,特别是在处理高度具体的查询时,能够更好地保持长上下文连贯性。对于需要较长时间思考的问题,GPT-5.4 Thinking 可维持对对话前序步骤的更强意识,确保答案在整个过程中保持相关性和连贯性。

在 Codex 和 API 层面,GPT-5.4 是 OpenAI 首个具备原生计算机使用能力(computer-use capabilities)的通用模型,支持通过截图和键盘鼠标指令操作计算机,完成跨应用的复杂工作流程。

GPT-5.4 系列模型支持高达 100 万 tokens 的上下文窗口,使智能体能够规划、执行和验证长周期任务。

知识工作表现显著提升

据介绍,GPT-5.4 在专业工作领域实现了大幅突破。在 OpenAI 所测试的 44 个职业领域的 GDPval 基准中,GPT-5.4 在 83.0% 项目上可达到或超过行业专业水平,而前代 GPT-5.2 为 70.9%。


在内部投行级电子表格建模任务测试中,GPT-5.4 的平均得分为 87.3%,远高于 GPT-5.2 的 68.4%。在演示文稿评估中,评审者更偏好 GPT-5.4 生成的演示文稿(68.0% vs. GPT-5.2 的 32.0%),主要优势在于更强的美学设计、更丰富的视觉变化以及更有效的图像生成运用。


在减少错误方面,GPT-5.4 已成为 OpenAI 迄今为止最“ factual”的模型。相比 GPT-5.2,其单个陈述的错误率降低 33%,完整回答中出现任一错误的可能性降低 18%。

计算机使用与视觉能力

GPT-5.4 在计算机使用基准测试中表现优异。在 OSWorld-Verified 基准(通过截图和键盘鼠标操作 PC 桌面环境)上,GPT-5.4 实现了 75.0% 的成功率,远超 GPT-5.2 的 47.3%,甚至超过人类表现(72.4%)。


在 WebArena-Verified 浏览器使用测试中,GPT-5.4 结合 DOM 和截图驱动交互时成功率达 67.3%(GPT-5.2 为 65.4%);在 Online-Mind2Web 测试中,其仅凭观察截图即可实现 92.8% 的成功率,显著高于 ChatGPT Atlas 智能体模式的 70.9%。


视觉感知能力方面,GPT-5.4 在 MMMU-Pro 视觉理解与推理测试中取得 81.2% 的成功率,优于 GPT-5.2 的 79.5%。在 OmniDocBench 文档解析测试中,GPT-5.4 的平均错误率降至 0.109(GPT-5.2 为 0.140)。


编码能力与工具生态

另外,GPT-5.4 还融合了 GPT-5.3-Codex 的编码优势,在 SWE-Bench Pro 基准上与之持平或表现更优,同时延迟更低。Codex 中的“/fast”模式可提升 1.5 倍 token 速度,保持同等智能水平。


5.4 新增的“工具搜索”(tool search)功能使该系列模型能够高效处理各种工具。在 Scale 的 MCP Atlas 基准测试中,启用工具搜索后,在保持相同准确率的前提下,其总 token 消耗量减少 47%。同时,GPT-5.4 在 Toolathlon 基准(测试智能体使用真实世界工具和 API 完成多步骤任务的能力)上,它也能用更少的交互轮次实现更高准确率。


同时,GPT-5.4 网络搜索能力也得到增强。在 BrowseComp 基准(测试智能体持续浏览网络寻找难以定位信息的能力)上,GPT-5.4 性能较 GPT-5.2 提升了 17 个百分点,而 GPT-5.4 Pro 更是创下了 89.3% 的新高。


安全性与可用性

OpenAI 表示,GPT-5.4 延续了 GPT-5.3-Codex 的安全防护措施,并引入新的开源评估“CoT 可控性”(CoT controllability),测试发现 GPT-5.4 Thinking 控制其思维链的能力较低,这有利于安全监控。


在定价方面,GPT-5.4 API 的每 token 价格高于 GPT-5.2,但其更高的 token 效率可降低许多任务的总 token 消耗。批量处理(Batch)和 Flex 定价为标准 API 费率的一半,优先处理(Priority)为两倍。

发布计划

GPT-5.4 Thinking 即日起面向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在模型选择器的“遗留模型”部分保留三个月,直至 2026 年 6 月 5 日退役。Enterprise 和 Edu 计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 计划用户开放。

在 API 中,GPT-5.4 将以 gpt-5.4 名称提供支持,GPT-5.4 Pro 则以 gpt-5.4-pro 名称提供给需要极致性能的开发者;Codex 中的 GPT-5.4 支持 1M 上下文窗口的实验性功能。

OpenAI 表示,GPT-5.4 是首个融合前沿编码能力并在 ChatGPT、API 和 Codex 同步推出的主流推理模型,未来 Instant 模型和 Thinking 模型将以不同速度演进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
租用无人机运棺材上山土葬,无人机运输从业者:价格一万出头,一般运送的棺材约七八百斤,云贵川需求多

租用无人机运棺材上山土葬,无人机运输从业者:价格一万出头,一般运送的棺材约七八百斤,云贵川需求多

观威海
2026-03-06 14:23:13
陈幸同击败陈熠获世乒赛资格,国乒3男3女名单樊振东在列

陈幸同击败陈熠获世乒赛资格,国乒3男3女名单樊振东在列

三秋体育
2026-03-06 19:28:19
中日关系跌至冰点,日企却用55.5%的暴涨,打了高市早苗一记耳光

中日关系跌至冰点,日企却用55.5%的暴涨,打了高市早苗一记耳光

李健政观察
2026-03-06 10:52:22
黄仁勋:仅用3周 OpenClaw 超越 Linux 30年!

黄仁勋:仅用3周 OpenClaw 超越 Linux 30年!

EETOP半导体社区
2026-03-06 11:36:41
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
79比98狂输19分!女篮争冠热门惨遭爆冷:没张子宇冲冠悬了?

79比98狂输19分!女篮争冠热门惨遭爆冷:没张子宇冲冠悬了?

篮球快餐车
2026-03-06 01:58:58
美伊打了足足6天,朝鲜突然发射巡航导弹,特朗普收到一封挑战书

美伊打了足足6天,朝鲜突然发射巡航导弹,特朗普收到一封挑战书

军机Talk
2026-03-05 18:22:21
阿联酋考虑冻结伊朗资产!此举或重创伊朗经济命脉

阿联酋考虑冻结伊朗资产!此举或重创伊朗经济命脉

财联社
2026-03-06 17:15:05
浙江17岁高中生率先发现新物种,联合发文登上SCI,当事人回应质疑:家长是普通人没人脉,未来想从事生科方向专业

浙江17岁高中生率先发现新物种,联合发文登上SCI,当事人回应质疑:家长是普通人没人脉,未来想从事生科方向专业

潇湘晨报
2026-03-06 13:00:40
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
不可错过!3月6日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月6日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-03-06 10:11:22
两会第一天,48岁王励勤的“采访”火了,孙颖莎的心愿恐将达成

两会第一天,48岁王励勤的“采访”火了,孙颖莎的心愿恐将达成

小徐讲八卦
2026-03-06 06:05:12
伊朗导弹击中耶路撒冷,驻有美军基地多国传出爆炸声

伊朗导弹击中耶路撒冷,驻有美军基地多国传出爆炸声

界面新闻
2026-03-02 15:09:03
深圳南山再添一所新高校!今年5月正式启用!

深圳南山再添一所新高校!今年5月正式启用!

深圳晚报
2026-03-06 16:39:10
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
阿里决绝“干掉”林俊旸,一场关于千问“集体叛逃”的误读

阿里决绝“干掉”林俊旸,一场关于千问“集体叛逃”的误读

一视财经
2026-03-05 21:21:03
老挝待了三个月,我被问懵了:“你们中国人是不是都没有家?”

老挝待了三个月,我被问懵了:“你们中国人是不是都没有家?”

天下霸奇
2026-02-24 07:59:23
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
为了巴结英日,撕毁中国百亿投资项目,被耍后还想和中国再续前缘

为了巴结英日,撕毁中国百亿投资项目,被耍后还想和中国再续前缘

流史岁月
2026-02-26 16:45:04
货到了客户却被炸死了!中东战事重创义乌,500万迪拜订单失联

货到了客户却被炸死了!中东战事重创义乌,500万迪拜订单失联

温读史
2026-03-06 14:09:39
2026-03-06 22:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2386941文章数 5708关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

头条要闻

媒体:成本2万美元 伊朗的"穷人巡航导弹"把美国打心疼

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

时尚
本地
游戏
旅游
艺术

从素人到涨粉30万,她全靠这些穿搭“小心思”?

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

《失落星船:马拉松》首发Steam峰值8.8万 不及《命运2》首发表现

旅游要闻

福星村的市井极具大理特色,但巷子又多又窄,很容易让人迷失方向

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

无障碍浏览 进入关怀版