网易首页 > 网易号 > 正文 申请入驻

智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题

0
分享至

来源:澎湃新闻

GPT-5.4发布,还能使用电脑了。

当地时间3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT‑5.4 Thinking,并上线API和Codex。同时,也推出了GPT-5.4 Pro供需要处理复杂任务的用户使用。

据介绍,在ChatGPT中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,这样用户就可以在它工作时中途调整,最终获得更符合需求的输出,而无需额外的对话轮次。GPT-5.4 Thinking还改进了深度网络研究,特别是针对高度具体的查询,同时更好地保持了需要长时间思考的问题的上下文。

同时,GPT-5.4还支持100万token的上下文窗口,允许代理规划、执行和验证长周期的任务;还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,而不牺牲智能。与GPT-5.2相比,GPT-5.4解决问题所需的token显著减少。

在GDPval测试中(评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得新的最高得分,在83%的比较中与行业专业人士持平或超越,GPT-5.2为70.9%。



随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力,目前可供开发者构建能够跨网站和软件系统完成实际任务的智能体。

OpenAI表示,GPT-5.4擅长编写代码以通过Playwright等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified(衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力)中,GPT-5.4 达到了75.0%的成功率,远超GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified(测试浏览器使用)、 Online-Mind2Web(测试浏览器使用)、MMMU-Pro(测试模型的视觉理解和推理)测试中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(无推理努力)的平均误差为也要优于 GPT-5.2。


GPT-5.4可以操作电脑处理邮件和日程。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进工作的长周期任务。在SWE-Bench Pro上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力下具有更低的延迟。

OpenAI还发布了一个名为 “Playwright (Interactive)” 的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至可以在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API 使用优先处理 (priority processing) 以同样快的速度访问GPT-5.4。

同时,在API中,GPT-5.4引入了工具搜索,模型在给定许多工具时(所有工具定义都预先包含在提示中)所需的token数量更少,并保留了缓存,请求更快、更便宜。

在ChatGPT中,GPT-5.4 Thinking今日起向Plus、团队和Pro用户开放,代替GPT-5.2 Thinking。GPT-5.2 Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4 Pro则供Pro和企业计划使用。

费用方面,API中,GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理为标准API费率的两倍。

输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。


GPT5.4发布后,AI写作助手公司HyperWrite CEO马特·舒默 (Matt Shumer)第一时间分享了试用感受,表示模型仍存在3方面的问题:前端界面远逊于Opus 4.6和Gemini 3.1 Pro;模型仍然会忽略一些显而易见的现实世界背景,例如让它规划一次旅行的行程,乍一看行程安排完美无缺,但它却忽略了选择一些春假期间人潮拥挤的地点,所以不得不重新运行提示,并添加更多背景信息;此外,在OpenClaw中测试时,它经常在完成任务前突然停止。

OpenAI CEO山姆·奥特曼(Sam Altman)也随即回应称将尽快解决这三个问题。

此前,OpenAI刚刚完成1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO(首次公开募股)的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惯子如杀子!辽宁女孩早晨遛狗导致全家被害,父亲重伤,母亲被杀

惯子如杀子!辽宁女孩早晨遛狗导致全家被害,父亲重伤,母亲被杀

深度报
2025-09-02 22:45:04
贺希宁:感谢郭指导给我重返国家队的机会,世预赛给自己打6分

贺希宁:感谢郭指导给我重返国家队的机会,世预赛给自己打6分

懂球帝
2026-03-06 23:12:41
国羽全英警钟敲响!混双男单双保险失效,女单女双Big4格局稳固

国羽全英警钟敲响!混双男单双保险失效,女单女双Big4格局稳固

排球黄金眼
2026-03-07 11:08:17
孤独的统帅:特朗普打破百年惯例,成为首位未经公众支持便发动战争的现代总统

孤独的统帅:特朗普打破百年惯例,成为首位未经公众支持便发动战争的现代总统

奇思妙想生活家
2026-03-07 11:05:25
龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

她时尚丫
2026-02-17 22:41:30
男子被绿后还被判净身出户,女法官说男人要大度,男子两枪杀之

男子被绿后还被判净身出户,女法官说男人要大度,男子两枪杀之

干史人
2026-02-23 13:25:10
自食恶果!伊朗全球追杀特朗普,俩百岁大佬下死令,永无期限

自食恶果!伊朗全球追杀特朗普,俩百岁大佬下死令,永无期限

爱看剧的阿峰
2026-03-06 17:08:17
2025年,我国国际机场排行榜!

2025年,我国国际机场排行榜!

民航之翼
2026-03-07 09:44:30
腾讯楼下近千人排队安装,用户都在用OpenClaw做什么?

腾讯楼下近千人排队安装,用户都在用OpenClaw做什么?

第一财经资讯
2026-03-06 20:35:53
美军中央司令部称摧毁伊朗伊斯兰革命卫队指挥控制设施

美军中央司令部称摧毁伊朗伊斯兰革命卫队指挥控制设施

参考消息
2026-03-03 13:59:03
遇罗克《出身论》谈到的问题至今无解......

遇罗克《出身论》谈到的问题至今无解......

细雨中的呼喊
2026-03-06 14:54:54
字节跳动启动最大规模实习生招聘:拟招超7000人,转正率超50%,重点倾斜研发、产品与AI领域

字节跳动启动最大规模实习生招聘:拟招超7000人,转正率超50%,重点倾斜研发、产品与AI领域

深圳晚报
2026-03-06 16:38:48
2026中国百强城市指数榜单发布!一线城市洗牌,江苏13市全部入选

2026中国百强城市指数榜单发布!一线城市洗牌,江苏13市全部入选

GYbrand
2026-03-05 22:03:13
泽连斯基对欧尔班撂狠话,以色列遭集束弹药袭击

泽连斯基对欧尔班撂狠话,以色列遭集束弹药袭击

史政先锋
2026-03-06 19:25:11
踢了23分钟就挂靴!瓦拉内退役后首发声:身体零件已散架,不硬撑

踢了23分钟就挂靴!瓦拉内退役后首发声:身体零件已散架,不硬撑

仰卧撑FTUer
2026-03-06 13:38:03
江西48.8万彩礼后续:男子转头退婚提豪车,女子破防:要告你强奸

江西48.8万彩礼后续:男子转头退婚提豪车,女子破防:要告你强奸

鋭娱之乐
2025-09-09 22:24:54
官方:阿根廷队将派代表来华,举办阿根廷世界杯出征中国发布会

官方:阿根廷队将派代表来华,举办阿根廷世界杯出征中国发布会

懂球帝
2026-03-06 15:47:22
长江和记宣布就巴拿马政府强行接管货柜码头事宜采取进一步法律行动

长江和记宣布就巴拿马政府强行接管货柜码头事宜采取进一步法律行动

每日经济新闻
2026-03-06 16:07:34
55:42!特朗普被催下台,国会推动投票表决:限制美国领导人开战

55:42!特朗普被催下台,国会推动投票表决:限制美国领导人开战

华人书画艺术
2026-03-07 11:11:07
唏嘘!国安功勋球员生活窘迫,做足球青训赔本,如今靠送外卖维生

唏嘘!国安功勋球员生活窘迫,做足球青训赔本,如今靠送外卖维生

体坛鉴春秋
2026-03-06 16:02:20
2026-03-07 12:28:49
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
71867文章数 1090关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

中东局势动荡 欧盟"女外长"污蔑:中国趁机拿捏欧洲

头条要闻

中东局势动荡 欧盟"女外长"污蔑:中国趁机拿捏欧洲

体育要闻

塔图姆归来:凯尔特人的春之绿

娱乐要闻

周杰伦田馥甄20年地下情 被扒得底朝天

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

游戏
艺术
旅游
家居
公开课

0护甲蝎子是干净的?TES假赛内幕曝光:AD跟打野爆了

艺术要闻

Mark Grantham | 城市街景

旅游要闻

别急着登机!在青岛机场,享受麦香与花香的春日微醺之旅

家居要闻

暖棕撞色 轻法奶油风

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版