网易首页 > 网易号 > 正文 申请入驻

智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题

0
分享至

GPT-5.4发布,还能使用电脑了。

当地时间3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT‑5.4 Thinking,并上线API和Codex。同时,也推出了GPT-5.4 Pro供需要处理复杂任务的用户使用。

据介绍,在ChatGPT中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,这样用户就可以在它工作时中途调整,最终获得更符合需求的输出,而无需额外的对话轮次。GPT-5.4 Thinking还改进了深度网络研究,特别是针对高度具体的查询,同时更好地保持了需要长时间思考的问题的上下文。

同时,GPT-5.4还支持100万token的上下文窗口,允许代理规划、执行和验证长周期的任务;还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,而不牺牲智能。与GPT-5.2相比,GPT-5.4解决问题所需的token显著减少。

在GDPval测试中(评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得新的最高得分,在83%的比较中与行业专业人士持平或超越,GPT-5.2为70.9%。


随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力,目前可供开发者构建能够跨网站和软件系统完成实际任务的智能体。

OpenAI表示,GPT-5.4擅长编写代码以通过Playwright等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified(衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力)中,GPT-5.4 达到了75.0%的成功率,远超GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified(测试浏览器使用)、 Online-Mind2Web(测试浏览器使用)、MMMU-Pro(测试模型的视觉理解和推理)测试中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(无推理努力)的平均误差为也要优于 GPT-5.2。


GPT-5.4可以操作电脑处理邮件和日程。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进工作的长周期任务。在SWE-Bench Pro上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力下具有更低的延迟。

OpenAI还发布了一个名为 “Playwright (Interactive)” 的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至可以在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API 使用优先处理 (priority processing) 以同样快的速度访问GPT-5.4。

同时,在API中,GPT-5.4引入了工具搜索,模型在给定许多工具时(所有工具定义都预先包含在提示中)所需的token数量更少,并保留了缓存,请求更快、更便宜。

在ChatGPT中,GPT-5.4 Thinking今日起向Plus、团队和Pro用户开放,代替GPT-5.2 Thinking。GPT-5.2 Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4 Pro则供Pro和企业计划使用。

费用方面,API中,GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。


GPT5.4发布后,AI写作助手公司HyperWrite CEO马特·舒默 (Matt Shumer)第一时间分享了试用感受,表示模型仍存在3方面的问题:前端界面远逊于Opus 4.6和Gemini 3.1 Pro;模型仍然会忽略一些显而易见的现实世界背景,例如让它规划一次旅行的行程,乍一看行程安排完美无缺,但它却忽略了选择一些春假期间人潮拥挤的地点,所以不得不重新运行提示,并添加更多背景信息;此外,在OpenClaw中测试时,它经常在完成任务前突然停止。

OpenAI CEO山姆·奥特曼(Sam Altman)也随即回应称将尽快解决这三个问题。

此前,OpenAI刚刚完成1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO(首次公开募股)的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
特朗普杀了他全家!他会当伊朗张学良吗?

特朗普杀了他全家!他会当伊朗张学良吗?

乌鸦校尉
2026-03-25 18:19:47
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

小光侃娱乐
2026-03-26 17:05:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

极目新闻
2026-03-25 19:37:57
露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

承受之重
2026-03-25 12:45:53
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

水泥土的搞笑
2026-03-26 17:37:27
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

快科技
2026-03-24 00:22:40
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
到底是谁让马景涛穿这身衣服的?简直是灾难现场!

到底是谁让马景涛穿这身衣服的?简直是灾难现场!

西楼知趣杂谈
2026-03-25 23:41:24
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
2026-03-26 20:03:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
885117文章数 5089150关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
旅游
家居
房产

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版