网易首页 > 网易号 > 正文 申请入驻

智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题

0
分享至

GPT-5.4发布,还能使用电脑了。

当地时间3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT‑5.4 Thinking,并上线API和Codex。同时,也推出了GPT-5.4 Pro供需要处理复杂任务的用户使用。

据介绍,在ChatGPT中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,这样用户就可以在它工作时中途调整,最终获得更符合需求的输出,而无需额外的对话轮次。GPT-5.4 Thinking还改进了深度网络研究,特别是针对高度具体的查询,同时更好地保持了需要长时间思考的问题的上下文。

同时,GPT-5.4还支持100万token的上下文窗口,允许代理规划、执行和验证长周期的任务;还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,而不牺牲智能。与GPT-5.2相比,GPT-5.4解决问题所需的token显著减少。

在GDPval测试中(评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得新的最高得分,在83%的比较中与行业专业人士持平或超越,GPT-5.2为70.9%。


随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力,目前可供开发者构建能够跨网站和软件系统完成实际任务的智能体。

OpenAI表示,GPT-5.4擅长编写代码以通过Playwright等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified(衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力)中,GPT-5.4 达到了75.0%的成功率,远超GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified(测试浏览器使用)、 Online-Mind2Web(测试浏览器使用)、MMMU-Pro(测试模型的视觉理解和推理)测试中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(无推理努力)的平均误差为也要优于 GPT-5.2。


GPT-5.4可以操作电脑处理邮件和日程。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进工作的长周期任务。在SWE-Bench Pro上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力下具有更低的延迟。

OpenAI还发布了一个名为 “Playwright (Interactive)” 的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至可以在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API 使用优先处理 (priority processing) 以同样快的速度访问GPT-5.4。

同时,在API中,GPT-5.4引入了工具搜索,模型在给定许多工具时(所有工具定义都预先包含在提示中)所需的token数量更少,并保留了缓存,请求更快、更便宜。

在ChatGPT中,GPT-5.4 Thinking今日起向Plus、团队和Pro用户开放,代替GPT-5.2 Thinking。GPT-5.2 Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4 Pro则供Pro和企业计划使用。

费用方面,API中,GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。


GPT5.4发布后,AI写作助手公司HyperWrite CEO马特·舒默 (Matt Shumer)第一时间分享了试用感受,表示模型仍存在3方面的问题:前端界面远逊于Opus 4.6和Gemini 3.1 Pro;模型仍然会忽略一些显而易见的现实世界背景,例如让它规划一次旅行的行程,乍一看行程安排完美无缺,但它却忽略了选择一些春假期间人潮拥挤的地点,所以不得不重新运行提示,并添加更多背景信息;此外,在OpenClaw中测试时,它经常在完成任务前突然停止。

OpenAI CEO山姆·奥特曼(Sam Altman)也随即回应称将尽快解决这三个问题。

此前,OpenAI刚刚完成1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO(首次公开募股)的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尼尔·罗伯逊炮轰世界斯诺克巡回赛名人堂最新入选名单,“这太荒谬了”

尼尔·罗伯逊炮轰世界斯诺克巡回赛名人堂最新入选名单,“这太荒谬了”

宝哥精彩赛事
2026-05-10 18:00:46
赵露思演唱会结束不到24小时,工作室惹众怒,被骂发图太低俗

赵露思演唱会结束不到24小时,工作室惹众怒,被骂发图太低俗

老吴教育课堂
2026-05-10 19:39:15
张嘉益新剧《主角》第一波真实口碑出炉!观众的评价一针见血

张嘉益新剧《主角》第一波真实口碑出炉!观众的评价一针见血

晴晴的娱乐日记
2026-05-10 21:53:39
71岁老人将钢圈套入阴茎15天后水肿发紫,背后原因竟然是壮阳?

71岁老人将钢圈套入阴茎15天后水肿发紫,背后原因竟然是壮阳?

灯锦年
2026-05-09 17:32:29
阿森纳最后两轮对阵伯恩利和水晶宫,赛程难度远低于曼城

阿森纳最后两轮对阵伯恩利和水晶宫,赛程难度远低于曼城

懂球帝
2026-05-11 02:16:23
阿森纳跟队:本-怀特右膝佩戴护具离开球场

阿森纳跟队:本-怀特右膝佩戴护具离开球场

懂球帝
2026-05-11 04:24:17
男乒夺冠颁奖!手拉手站奖台,王楚钦最轻松,林诗栋被吓出表情包

男乒夺冠颁奖!手拉手站奖台,王楚钦最轻松,林诗栋被吓出表情包

篮球资讯达人
2026-05-11 02:15:53
伊朗媒体:美F-35战机在阿曼湾上空请求紧急降落

伊朗媒体:美F-35战机在阿曼湾上空请求紧急降落

新华社
2026-05-10 18:02:03
米哈累垮坎宁安,哈登:“啥说法?”

米哈累垮坎宁安,哈登:“啥说法?”

张佳玮写字的地方
2026-05-10 12:52:25
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
悲喜两重天!中超第11轮:2队换帅首秀1胜1败,积分榜大洗牌

悲喜两重天!中超第11轮:2队换帅首秀1胜1败,积分榜大洗牌

郭揦包工头
2026-05-11 03:18:16
菜园“大”姐,全靠上半身的“突出贡献”抢镜

菜园“大”姐,全靠上半身的“突出贡献”抢镜

飛娱日记
2026-04-22 07:27:30
被终身禁足!36岁前国门时隔3年再露面 曾收80万踢假球助泰山夺冠

被终身禁足!36岁前国门时隔3年再露面 曾收80万踢假球助泰山夺冠

我爱英超
2026-05-10 12:31:04
大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

千秋文化
2026-05-09 20:08:48
7座车为啥越卖越少?车主坦言:多2座,却多了4个闹心缺陷

7座车为啥越卖越少?车主坦言:多2座,却多了4个闹心缺陷

音乐时光的娱乐
2026-05-04 23:51:39
你好,库里!勇士重磅签约,巴特勒要说再见了

你好,库里!勇士重磅签约,巴特勒要说再见了

体育新角度
2026-05-10 19:13:21
创造历史,巴萨是首支取得西甲主场18连胜的球队

创造历史,巴萨是首支取得西甲主场18连胜的球队

懂球帝
2026-05-11 05:06:32
凯越最大的败笔,不是没留住张雪,而是连他36%的股份都吞完!

凯越最大的败笔,不是没留住张雪,而是连他36%的股份都吞完!

白浅娱乐聊
2026-05-11 01:58:51
逆境战神!梁靖崑3-2张本智和,决胜局3-8逆转,王皓握双拳庆祝!

逆境战神!梁靖崑3-2张本智和,决胜局3-8逆转,王皓握双拳庆祝!

大秦壁虎白话体育
2026-05-11 00:31:19
0-2!国家德比完败 13.4亿豪门目送死敌夺冠 四线争冠变四大皆空

0-2!国家德比完败 13.4亿豪门目送死敌夺冠 四线争冠变四大皆空

狍子歪解体坛
2026-05-11 04:58:21
2026-05-11 05:47:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
894992文章数 5090861关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

头条要闻

王楚钦助男乒12连冠+生日捧杯:球迷陪伴是最好礼物

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
本地
亲子
健康
军事航空

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

从第一声呼唤开始,爱就有了名字

干细胞能让人“返老还童”吗

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版