网易首页 > 网易号 > 正文 申请入驻

GPT-5.4:和OpenClaw更搭配、搞定专业工作场景

0
分享至


文:董指导

OpenAI 终于祭出了其筹备已久的重磅武器了:GPT-5.4 Thinking 与 GPT-5.4 Pro。

奥特曼(Sam Altman)照例地称其为“迄今为止最强大的模型”。虽然这句话他每次都说、几乎每家公司也都会说,但这一次,指标数据的跑分,确实有“资本”。


1、原生电脑操作能力,超过“人类基准线”

最核心的突破在于 OSWorld-Verified 测试中拿到的75%这一高分。而人类在同一测试中的平均水平则是72.4%。

这个对人类的超越有什么意义呢?

OSWorld-Verified是公认的“最硬核”的真实桌面环境测试。AI需要在这个环境中像人一样,通过视觉(看截图)和操作(移动鼠标、键盘输入)来完成跨软件的任务。

简单说,就是能否丝滑操作电脑。从只会动嘴,到动手。

这个能力对于Agent非常重要,尤其最近火爆的OpenClaw,也很需要相关能力。

OSWorld测试中有几个挑战,比如:

视觉延迟(模型识别电脑屏幕、及时进行操作)、

坐标漂移(点不准,比如关闭、放大、缩小的紧密排列按钮)、

长链条推理(比如“在 Excel 里分析数据,然后写进邮件,根据回复附件改名”。只要中间有一步错,任务就全毁了)等等。

这个指标在过去两年经历了快速迭代和大幅拉升。


之前的领先,一直是Claude,而GPT上一代才47%,根本不够看的。国产之光Kimi也短暂冲榜第一。

Caude上一次得分,离72.4%仍差临门一脚;结果,GPT 5.4直接加速冲刺、拔脚射门。OpenAI算是维护住了自己的“王者之风”。

提升的途径在于“视觉感知能力”更强。

虽然测试、跑分都是有一定的套路的,和真实世界的复杂性仍有差距;但,这个突破,对于智能体、对于OpenClaw的普及还是很有帮助的。

不得不说,OpenClaw之父加入OpenAI之后,是真有效果啊。人才果然是AI时代的核心要素。

2、幻觉率降低了33%,更专业

基准测试只是面子,“不胡扯”才是里子。GPT-5.4事实陈述方面,将错误率降低了33%。


一个出错率极低的模型,才能真正进入银行、医疗、法律等高容错要求的生产环境。

与之对应,在GDPval测试中,GPT-5.4在44种职业任务里,有83%的结果达到或超越专业人士水准,比上一代70.9%显著提升。

3、100 万 Token 上下文

搭载了百万级上下文窗口后,GPT-5.4 不再有“走神”的问题。

能够一次性记录一家中型企业的年度所有周报和财务报表,并在此基础上进行关联分析。

GPT-5.4的能力突破,全面开花,几乎没有短板;除了“价格”:

输入价格2.5美元/百万token,输出价格15美元/百万token;Pro版本,输入30美元/百万token,输出180美元/百万token。

4、压力与“追赶者”的阴影

尽管GPT-5.4表现强悍,但这次发布的背景则是被Claude的反超。

Claude 4.6 在代码逻辑和长文本一致性上长期霸榜,甚至在部分开发者社区中,使用 Claude 的比例已经反超了 GPT。

OpenAI 迫切需要这场胜利来稳住其企业客户(B 端)的流失。


在追赶不停歇,指标月月变的时代,确实要多思考、多关注。

---全文完,欢迎交流

理工/金融 复合背景

畅销书《英伟达之道》译者

百亿私募/头部自媒体 双重经历

看清科技、商业本质,讲出精彩故事

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗导弹为何突然准了?美军中东预警体系瘫痪,美媒:有高人指点

伊朗导弹为何突然准了?美军中东预警体系瘫痪,美媒:有高人指点

安珈使者啊
2026-03-06 10:00:06
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
美军公布4天战况:击毁17艘伊朗舰艇,霍尔木兹海峡等地已无伊朗舰船航行

美军公布4天战况:击毁17艘伊朗舰艇,霍尔木兹海峡等地已无伊朗舰船航行

爆角追踪
2026-03-04 13:50:42
制衣厂抢人月薪轻松过万?工人:一天15小时,吃饭只给10分钟……

制衣厂抢人月薪轻松过万?工人:一天15小时,吃饭只给10分钟……

柴狗夫斯基
2026-03-06 11:00:21
暴跌88.6%!收割中产的万元手表卖不动了?网友:不如华为

暴跌88.6%!收割中产的万元手表卖不动了?网友:不如华为

有范又有料
2026-03-04 17:39:10
你的老板要求你干过哪些除工作以外的事?网友:你这也太爽了

你的老板要求你干过哪些除工作以外的事?网友:你这也太爽了

夜深爱杂谈
2026-03-04 21:42:12
青岛街头偶遇刘德华本人好年轻,64岁看起来像40岁大红围巾很喜庆

青岛街头偶遇刘德华本人好年轻,64岁看起来像40岁大红围巾很喜庆

动物奇奇怪怪
2026-03-05 18:39:13
第20波打击!伊朗通报全球,美军航母被炸?特朗普开始急了

第20波打击!伊朗通报全球,美军航母被炸?特朗普开始急了

乐依爱分享
2026-03-06 11:54:46
将完整生产线转让中国?只为报答“旧恩”,连美俄两国都羡慕不已

将完整生产线转让中国?只为报答“旧恩”,连美俄两国都羡慕不已

寻史微鉴
2026-03-05 21:52:58
1906年蒋介石留学被兄长吞占家产,蒋介石掌权后,兄长:安排官职

1906年蒋介石留学被兄长吞占家产,蒋介石掌权后,兄长:安排官职

没有偏旁的常庆
2026-03-06 07:40:15
特朗普:不接受哈梅内伊儿子担任伊朗新领导人,“我必须亲自参与任命”,伊朗外长:这完全是伊朗人民的事,任何人都无权干涉

特朗普:不接受哈梅内伊儿子担任伊朗新领导人,“我必须亲自参与任命”,伊朗外长:这完全是伊朗人民的事,任何人都无权干涉

每日经济新闻
2026-03-06 08:33:07
中国最好吃的糕点,只有这10种

中国最好吃的糕点,只有这10种

风烟食录
2026-03-05 06:21:42
确定了!长沙绕城高速即将扩容!

确定了!长沙绕城高速即将扩容!

星耀长沙
2026-03-06 10:37:09
伊朗局势升级,盟友急忙劝阻,特朗普转变策略,找中国协商大事

伊朗局势升级,盟友急忙劝阻,特朗普转变策略,找中国协商大事

安珈使者啊
2026-03-06 12:20:07
深圳一公园出现有毒植物?部门:已清理、已约谈

深圳一公园出现有毒植物?部门:已清理、已约谈

南方都市报
2026-03-06 11:33:43
煮虾不去线,有人嫌脏有人无所谓:但老渔民说出了实话。

煮虾不去线,有人嫌脏有人无所谓:但老渔民说出了实话。

马蹄烫嘴说美食
2026-02-23 07:41:37
伊朗导弹持续攻击美国航母,能得手吗?

伊朗导弹持续攻击美国航母,能得手吗?

澎湃新闻
2026-03-05 07:20:28
安徽24岁程雨婷在睡梦中离世,原因公开,男友灵堂长跪不起

安徽24岁程雨婷在睡梦中离世,原因公开,男友灵堂长跪不起

朗威谈星座
2026-03-06 09:27:15
薛之谦好友曝张杰谢娜双胞胎真相?孩子落户上海是薛之谦帮忙搞定

薛之谦好友曝张杰谢娜双胞胎真相?孩子落户上海是薛之谦帮忙搞定

银河史记
2026-03-03 17:15:07
姚劲波建议,将保姆费纳入个税抵扣,每年最高3万额度

姚劲波建议,将保姆费纳入个税抵扣,每年最高3万额度

中国新闻周刊
2026-03-05 16:38:11
2026-03-06 13:43:00
董指导聊科技 incentive-icons
董指导聊科技
远川研究所原所长,得到APP“光伏产业报告”主理人,多家公司产业研究顾问。聚焦科技、能源领域。
117文章数 11关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

中国航司重启中东航线 首架航班落地沙特利雅得

头条要闻

中国航司重启中东航线 首架航班落地沙特利雅得

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

房产
艺术
教育
公开课
军事航空

房产要闻

超猛!又有2800套房源砸出,2026海口安居房,彻底爆发!

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

教育要闻

这个女孩自杀前的9分钟电话,让父母们听得落泪……

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

2026年中国国防预算增长7%

无障碍浏览 进入关怀版