网易首页 > 网易号 > 正文 申请入驻

OpenAI 发布 GPT-5.4 模型,专业任务表现接近人类专家

0
分享至

来源:环球网

【环球网科技综合报道】3月6日消息,据TechCrunch报道,OpenAI今日正式发布GPT-5.4系列人工智能模型,包含面向ChatGPT和API的GPT-5.4 Thinking版本,以及针对复杂任务打造的GPT-5.4 Pro版本。这是该平台首次将前沿推理、编码与智能体能力整合于单一模型,在计算机原生操控、专业知识工作处理、长上下文理解等方面实现多项升级,进一步提升了人工智能在专业工作场景中的效率与准确性。


此次发布的GPT-5.4系列模型带来多项核心功能升级。其中,GPT-5.4 Thinking在ChatGPT中新增“思考过程预览”功能,处理复杂查询时可提前展示推理思路,用户能在响应过程中实时调整需求方向,减少沟通成本,该功能已登陆网页版和Android应用,iOS版本也将很快推出。针对深度网络研究需求,新模型强化了长上下文连贯性,面对需要长时间思考的问题,能更好地衔接对话前序步骤,保障答案的相关性与一致性。值得关注的是,GPT-5.4成为OpenAI首个具备原生计算机使用能力的通用模型,可通过截图识别和键盘鼠标指令完成计算机操作,实现跨应用的复杂工作流程处理,同时该系列模型支持高达100万tokens的上下文窗口,为智能体规划、执行和验证长周期任务提供了基础。

在专业知识工作表现上,GPT-5.4实现大幅突破。据OpenAI测试数据显示,在44个职业领域的GDPval基准测试中,该模型有83.0%的项目达到或超过行业专业水平,相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%;演示文稿生成方面,68.0%的评审者更认可GPT-5.4的作品,其在美学设计、视觉变化和图像生成运用上表现更优。同时,GPT-5.4成为OpenAI迄今事实性准确率最高的模型,相比GPT-5.2,单个陈述错误率降低33%,完整回答出现任一错误的可能性降低18%。

计算机使用与视觉感知能力的提升,是GPT-5.4的重要亮点。在OSWorld-Verified计算机桌面操作基准测试中,该模型成功率达75.0%,不仅远超GPT-5.2的47.3%,还超过了人类72.4%的表现;WebArena-Verified浏览器使用测试中,结合DOM和截图驱动交互的成功率达67.3%,Online-Mind2Web测试中仅凭截图交互的成功率更是高达92.8%。视觉理解与推理方面,GPT-5.4在MMMU-Pro测试中成功率81.2%,OmniDocBench文档解析测试中平均错误率降至0.109,均较前代模型有明显优化。

编码能力与工具生态适配性也迎来升级。GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench Pro基准测试中表现持平或更优,且延迟更低,Codex中的“/fast”模式还能让token速度提升1.5倍。新增加的“工具搜索”功能,让模型能更高效地适配各类工具,在Scale的MCP Atlas基准测试中,启用该功能后总token消耗量减少47%,同时在Toolathlon智能体工具使用测试中,实现了更少交互轮次与更高准确率的双重提升。此外,模型的网络搜索能力进一步增强,BrowseComp基准测试中性能较GPT-5.2提升17个百分点,GPT-5.4 Pro更是创下89.3%的新高。

在安全性与可用性层面,GPT-5.4延续了GPT-5.3-Codex的安全防护措施,还引入开源的“CoT可控性”评估体系,测试显示其思维链控制能力较低,更利于安全监控。定价方面,GPT-5.4 API的单token价格高于前代,但更高的token效率有效降低了多数任务的总消耗,平台还推出批量处理、Flex定价为标准费率一半,优先处理定价为两倍的差异化方案,满足不同用户需求。

据悉,GPT-5.4 Thinking即日起面向ChatGPT Plus、Team和Pro用户开放,替代原有的GPT-5.2 Thinking,后者将作为“遗留模型”保留三个月,至2026年6月5日正式退役;Enterprise和Edu计划用户可通过管理员设置开启早期访问,GPT-5.4 Pro则面向Pro和Enterprise计划用户开放。API端,GPT-5.4以gpt-5.4名称提供支持,GPT-5.4 Pro以gpt-5.4-pro名称面向有极致性能需求的开发者开放,Codex中的GPT-5.4还支持1M上下文窗口的实验性功能。(纯钧)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

闻识
2026-05-10 18:17:01
停火第一天,乌克兰就遭到攻击;俄计划发动大规模海上进攻

停火第一天,乌克兰就遭到攻击;俄计划发动大规模海上进攻

近距离
2026-05-10 07:10:25
孩子是一面镜子,照出我们不敢看的样子

孩子是一面镜子,照出我们不敢看的样子

时光慢邮啊
2026-05-09 17:35:36
丹泽尔·华盛顿22年前动作片翻拍版登顶Netflix,观看时长超6000万小时

丹泽尔·华盛顿22年前动作片翻拍版登顶Netflix,观看时长超6000万小时

娱圈观察员
2026-05-10 00:15:29
船上病毒爆发,她老公死了。船长说是自然死亡,大家去拥抱安慰她,然后她也死了...

船上病毒爆发,她老公死了。船长说是自然死亡,大家去拥抱安慰她,然后她也死了...

英国那些事儿
2026-05-09 23:12:15
笑死!比亚迪 “青蛙车”全网爆火,网友调侃:喇叭必须是 “呱呱呱”

笑死!比亚迪 “青蛙车”全网爆火,网友调侃:喇叭必须是 “呱呱呱”

品牌新
2026-05-09 16:55:51
段永平又加仓茅台了

段永平又加仓茅台了

21世纪经济报道
2026-05-10 13:20:59
闹大了!女孩首次登门男方家,被安排与男友同床,顾虑声誉要分房

闹大了!女孩首次登门男方家,被安排与男友同床,顾虑声誉要分房

火山詩话
2026-05-09 08:11:39
晚唐的实际掌权人-晚唐十大节度使

晚唐的实际掌权人-晚唐十大节度使

舆图司马
2026-05-09 21:00:03
佩古拉6-0横扫晋级WTA1000罗马站,女单16强仅剩3席

佩古拉6-0横扫晋级WTA1000罗马站,女单16强仅剩3席

工从昊懂球阿靖
2026-05-10 22:34:35
每体:巴萨队史对皇马分差纪录为19分,本赛季有望打破纪录

每体:巴萨队史对皇马分差纪录为19分,本赛季有望打破纪录

懂球帝
2026-05-10 16:25:20
男子为寻求“刺激”,深夜潜入留守妇女家,2020年十多人被其糟蹋

男子为寻求“刺激”,深夜潜入留守妇女家,2020年十多人被其糟蹋

汉史趣闻
2026-05-10 16:38:24
段永平点评OPPO母亲节活动文案:确实不合适,相信他们会反省的

段永平点评OPPO母亲节活动文案:确实不合适,相信他们会反省的

鞭牛士
2026-05-10 09:45:04
45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

心理观察局
2026-05-08 09:43:07
这部奥斯卡最佳影片8年后杀回Netflix前五

这部奥斯卡最佳影片8年后杀回Netflix前五

热搜摘要官
2026-05-09 22:09:52
高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

次元君情感
2026-05-10 21:14:41
五万多人被套路!女子租共享充电宝被扣149元,涉事企业被撕底裤

五万多人被套路!女子租共享充电宝被扣149元,涉事企业被撕底裤

火山詩话
2026-05-10 14:42:17
禁欲真的好吗?研究表明:禁欲时间越长,排出的精子活动率越低!

禁欲真的好吗?研究表明:禁欲时间越长,排出的精子活动率越低!

黯泉
2026-05-04 14:05:52
毛主席原定1950年举行开国大典,斯大林得知后当场变脸警告刘少奇:必须立刻改期!

毛主席原定1950年举行开国大典,斯大林得知后当场变脸警告刘少奇:必须立刻改期!

寄史言志
2026-05-09 19:13:45
他给自己造了个诺贝尔奖,所有人都信了!真诺贝尔得主也给他站台,10年才露馅...

他给自己造了个诺贝尔奖,所有人都信了!真诺贝尔得主也给他站台,10年才露馅...

英国那些事儿
2026-05-08 23:22:39
2026-05-11 00:00:49
环球网资讯 incentive-icons
环球网资讯
环球网,了解世界,融入世界
1371234文章数 2712186关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
时尚
教育
健康
公开课

本地新闻

用苏绣的方式,打开江西婺源

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

教育要闻

请教会你的孩子有能力分辨和说不!

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版