网易首页 > 网易号 > 正文 申请入驻

OpenAI 发布 GPT-5.4 模型,专业任务表现接近人类专家

0
分享至

来源:环球网

【环球网科技综合报道】3月6日消息,据TechCrunch报道,OpenAI今日正式发布GPT-5.4系列人工智能模型,包含面向ChatGPT和API的GPT-5.4 Thinking版本,以及针对复杂任务打造的GPT-5.4 Pro版本。这是该平台首次将前沿推理、编码与智能体能力整合于单一模型,在计算机原生操控、专业知识工作处理、长上下文理解等方面实现多项升级,进一步提升了人工智能在专业工作场景中的效率与准确性。


此次发布的GPT-5.4系列模型带来多项核心功能升级。其中,GPT-5.4 Thinking在ChatGPT中新增“思考过程预览”功能,处理复杂查询时可提前展示推理思路,用户能在响应过程中实时调整需求方向,减少沟通成本,该功能已登陆网页版和Android应用,iOS版本也将很快推出。针对深度网络研究需求,新模型强化了长上下文连贯性,面对需要长时间思考的问题,能更好地衔接对话前序步骤,保障答案的相关性与一致性。值得关注的是,GPT-5.4成为OpenAI首个具备原生计算机使用能力的通用模型,可通过截图识别和键盘鼠标指令完成计算机操作,实现跨应用的复杂工作流程处理,同时该系列模型支持高达100万tokens的上下文窗口,为智能体规划、执行和验证长周期任务提供了基础。

在专业知识工作表现上,GPT-5.4实现大幅突破。据OpenAI测试数据显示,在44个职业领域的GDPval基准测试中,该模型有83.0%的项目达到或超过行业专业水平,相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%;演示文稿生成方面,68.0%的评审者更认可GPT-5.4的作品,其在美学设计、视觉变化和图像生成运用上表现更优。同时,GPT-5.4成为OpenAI迄今事实性准确率最高的模型,相比GPT-5.2,单个陈述错误率降低33%,完整回答出现任一错误的可能性降低18%。

计算机使用与视觉感知能力的提升,是GPT-5.4的重要亮点。在OSWorld-Verified计算机桌面操作基准测试中,该模型成功率达75.0%,不仅远超GPT-5.2的47.3%,还超过了人类72.4%的表现;WebArena-Verified浏览器使用测试中,结合DOM和截图驱动交互的成功率达67.3%,Online-Mind2Web测试中仅凭截图交互的成功率更是高达92.8%。视觉理解与推理方面,GPT-5.4在MMMU-Pro测试中成功率81.2%,OmniDocBench文档解析测试中平均错误率降至0.109,均较前代模型有明显优化。

编码能力与工具生态适配性也迎来升级。GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench Pro基准测试中表现持平或更优,且延迟更低,Codex中的“/fast”模式还能让token速度提升1.5倍。新增加的“工具搜索”功能,让模型能更高效地适配各类工具,在Scale的MCP Atlas基准测试中,启用该功能后总token消耗量减少47%,同时在Toolathlon智能体工具使用测试中,实现了更少交互轮次与更高准确率的双重提升。此外,模型的网络搜索能力进一步增强,BrowseComp基准测试中性能较GPT-5.2提升17个百分点,GPT-5.4 Pro更是创下89.3%的新高。

在安全性与可用性层面,GPT-5.4延续了GPT-5.3-Codex的安全防护措施,还引入开源的“CoT可控性”评估体系,测试显示其思维链控制能力较低,更利于安全监控。定价方面,GPT-5.4 API的单token价格高于前代,但更高的token效率有效降低了多数任务的总消耗,平台还推出批量处理、Flex定价为标准费率一半,优先处理定价为两倍的差异化方案,满足不同用户需求。

据悉,GPT-5.4 Thinking即日起面向ChatGPT Plus、Team和Pro用户开放,替代原有的GPT-5.2 Thinking,后者将作为“遗留模型”保留三个月,至2026年6月5日正式退役;Enterprise和Edu计划用户可通过管理员设置开启早期访问,GPT-5.4 Pro则面向Pro和Enterprise计划用户开放。API端,GPT-5.4以gpt-5.4名称提供支持,GPT-5.4 Pro以gpt-5.4-pro名称面向有极致性能需求的开发者开放,Codex中的GPT-5.4还支持1M上下文窗口的实验性功能。(纯钧)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾经走红,如今却“沦为笑柄”的4种数码产品,还是别再买了

曾经走红,如今却“沦为笑柄”的4种数码产品,还是别再买了

美家指南
2026-03-06 10:31:36
官宣!5月1日起烟花燃放全面新规,普通人买、放、存全变了

官宣!5月1日起烟花燃放全面新规,普通人买、放、存全变了

老特有话说
2026-03-06 16:14:54
戏子当道,是央国企管理中的一大痛点

戏子当道,是央国企管理中的一大痛点

细说职场
2026-03-06 20:01:27
短线交易新规!证监会,深夜发布!

短线交易新规!证监会,深夜发布!

中国基金报
2026-03-06 22:23:32
中美关系要变天了!

中美关系要变天了!

兰妮搞笑分享
2026-03-06 23:22:18
政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

冷观互联网
2026-03-06 11:48:12
局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

基斯默默
2026-03-06 16:42:00
反对哈梅内伊儿子接任,特朗普要“钦定”最高领袖,伊朗:无权干涉

反对哈梅内伊儿子接任,特朗普要“钦定”最高领袖,伊朗:无权干涉

上观新闻
2026-03-06 19:07:04
下饭文化杀死了多少中国胃,一碗米饭的阴谋

下饭文化杀死了多少中国胃,一碗米饭的阴谋

富贵说
2026-03-05 15:56:38
很多人还不知道,原来只要知道对方手机号码,就可以查到对方位置了!

很多人还不知道,原来只要知道对方手机号码,就可以查到对方位置了!

CG说科技
2026-03-05 16:59:05
女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

扬子晚报
2026-03-06 17:44:56
伊朗发动第22轮打击,特朗普计划失败,日本宣布:出兵中东

伊朗发动第22轮打击,特朗普计划失败,日本宣布:出兵中东

音乐时光的娱乐
2026-03-07 00:18:39
不是取消!私家车年检迎来史上最大松绑,车主:这才是真便民

不是取消!私家车年检迎来史上最大松绑,车主:这才是真便民

芭比衣橱
2026-03-06 14:06:42
终于打穿了!美国航母神话,彻底崩了!

终于打穿了!美国航母神话,彻底崩了!

大嘴说天下
2026-03-06 17:08:45
伊拉克库尔德第一夫人宣言:我们不是任人驱使的炮灰!

伊拉克库尔德第一夫人宣言:我们不是任人驱使的炮灰!

胜研集
2026-03-06 13:44:23
国内成品油价格将迎调整

国内成品油价格将迎调整

环球网资讯
2026-03-06 10:08:08
汪峰前妻葛荟婕被小7岁男友当众掌掴!自曝分手真相,男方太过分

汪峰前妻葛荟婕被小7岁男友当众掌掴!自曝分手真相,男方太过分

观鱼听雨
2026-03-06 17:26:12
全国人大代表唐利军:建议短视频平台凌晨1点至5点“深夜静默”

全国人大代表唐利军:建议短视频平台凌晨1点至5点“深夜静默”

闪电新闻
2026-03-05 22:37:26
宁夏大学教授:为什么哈梅内伊不慌张?

宁夏大学教授:为什么哈梅内伊不慌张?

必记本
2026-03-06 18:21:35
金毛的大麻烦来了:波斯圣火令,追杀的不只是一个人!

金毛的大麻烦来了:波斯圣火令,追杀的不只是一个人!

魔都姐姐杂谈
2026-03-06 12:49:40
2026-03-07 03:36:49
环球网资讯 incentive-icons
环球网资讯
环球网,了解世界,融入世界
1337325文章数 2710240关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

房产
数码
本地
教育
公开课

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

数码要闻

苹果“HomePad”智能家居中枢推迟至2026年秋季发布

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

教育要闻

校园食堂让机器人来掌勺!普陀小学引进智能烹饪机器人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版