网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5.4：和OpenClaw更搭配、搞定专业工作场景

2026-03-06 09:16:35　来源: 董指导聊科技

上海举报

0

分享至

文：董指导

OpenAI 终于祭出了其筹备已久的重磅武器了：GPT-5.4 Thinking 与 GPT-5.4 Pro。

奥特曼（Sam Altman）照例地称其为“迄今为止最强大的模型”。虽然这句话他每次都说、几乎每家公司也都会说，但这一次，指标数据的跑分，确实有“资本”。

1、原生电脑操作能力，超过“人类基准线”

最核心的突破在于 OSWorld-Verified 测试中拿到的75%这一高分。而人类在同一测试中的平均水平则是72.4%。

这个对人类的超越有什么意义呢？

OSWorld-Verified是公认的“最硬核”的真实桌面环境测试。AI需要在这个环境中像人一样，通过视觉（看截图）和操作（移动鼠标、键盘输入）来完成跨软件的任务。

简单说，就是能否丝滑操作电脑。从只会动嘴，到动手。

这个能力对于Agent非常重要，尤其最近火爆的OpenClaw，也很需要相关能力。

OSWorld测试中有几个挑战，比如：

视觉延迟（模型识别电脑屏幕、及时进行操作）、

坐标漂移（点不准，比如关闭、放大、缩小的紧密排列按钮）、

长链条推理（比如“在 Excel 里分析数据，然后写进邮件，根据回复附件改名”。只要中间有一步错，任务就全毁了）等等。

这个指标在过去两年经历了快速迭代和大幅拉升。

之前的领先，一直是Claude，而GPT上一代才47%，根本不够看的。国产之光Kimi也短暂冲榜第一。

Caude上一次得分，离72.4%仍差临门一脚；结果，GPT 5.4直接加速冲刺、拔脚射门。OpenAI算是维护住了自己的“王者之风”。

提升的途径在于“视觉感知能力”更强。

虽然测试、跑分都是有一定的套路的，和真实世界的复杂性仍有差距；但，这个突破，对于智能体、对于OpenClaw的普及还是很有帮助的。

不得不说，OpenClaw之父加入OpenAI之后，是真有效果啊。人才果然是AI时代的核心要素。

2、幻觉率降低了33%，更专业

基准测试只是面子，“不胡扯”才是里子。GPT-5.4事实陈述方面，将错误率降低了33%。

一个出错率极低的模型，才能真正进入银行、医疗、法律等高容错要求的生产环境。

与之对应，在GDPval测试中，GPT-5.4在44种职业任务里，有83%的结果达到或超越专业人士水准，比上一代70.9%显著提升。

3、100 万 Token 上下文

搭载了百万级上下文窗口后，GPT-5.4 不再有“走神”的问题。

能够一次性记录一家中型企业的年度所有周报和财务报表，并在此基础上进行关联分析。

GPT-5.4的能力突破，全面开花，几乎没有短板；除了“价格”：

输入价格2.5美元/百万token，输出价格15美元/百万token；Pro版本，输入30美元/百万token，输出180美元/百万token。

4、压力与“追赶者”的阴影

尽管GPT-5.4表现强悍，但这次发布的背景则是被Claude的反超。

Claude 4.6 在代码逻辑和长文本一致性上长期霸榜，甚至在部分开发者社区中，使用 Claude 的比例已经反超了 GPT。

OpenAI 迫切需要这场胜利来稳住其企业客户（B 端）的流失。

在追赶不停歇，指标月月变的时代，确实要多思考、多关注。

---全文完，欢迎交流

理工/金融复合背景

畅销书《英伟达之道》译者

百亿私募/头部自媒体双重经历

看清科技、商业本质，讲出精彩故事

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Claude Code之父的夜班AI军团，Fable 5两个命令搭好

新智元 2026-07-18 20:15:26
1 跟贴 1
视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0

GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

机器之心Pro 2026-06-14 19:24:09
0 跟贴 0

清华系200亿独角兽杀入具身智能！攻破记忆难题，底牌都彻底开源

新智元 2026-07-19 15:55:18
0 跟贴 0
直击WAIC丨MiniMax展台曝光新一代多模态生成模型H3 内部人士称“很快会上”

每日经济新闻 2026-07-17 16:02:02
0 跟贴 0

我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
0 跟贴 0

从爆火到平淡，OpenClaw改变了什么

钛媒体APP 2026-05-08 08:53:10
0 跟贴 0
给世界模型加上因果，她要让机器人真正理解“为什么”

DeepTech深科技 2026-06-20 11:32:15
0 跟贴 0

WAIC 2026观察：当行业竞逐“世界模型”，云迹科技为何选择定义“价值模型”？

经济观察报 2026-07-19 14:59:20
0 跟贴 0
距离预产期仅两天时，收到裁员通知

中国新闻周刊 2026-07-18 19:26:06
1888 跟贴 1888
穹彻智能WAIC展示具身智能“大脑”：零遥操实时选投球队，智能药房方案已落地

智东西 2026-07-19 14:59:26
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
不换模型，效果提升104%！上海AI Lab让Harness也能自进化了

量子位 2026-07-19 15:03:33
0 跟贴 0
36 氪 AI 测评小程序上新！看真实体验与深度测评，多个新功能等你来玩

36氪 2026-07-10 11:08:11
0 跟贴 0
WAIC大咖说｜一目科技CEO李智强：视触觉路线是最类人的路线，想做触觉数据的TouchNet

每日经济新闻 2026-07-19 15:00:05
0 跟贴 0
智身科技WAIC交卷：成立才两年半，却成了具身智能的「卷王」

雷科技 2026-07-19 16:01:38
0 跟贴 0
告别炫技！机器人杀进618仓库，真开始替人分拣了

新智元 2026-07-19 15:57:38
0 跟贴 0
这个省token的邪修大法直接砍掉Fable 5七成账单

量子位 2026-07-08 15:17:55
0 跟贴 0
海外投资人集体转向！AI最关注这个指标

财联社 2026-04-30 10:25:38
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Kimi发布史上最大开源模型！参数高达2.8T，离GPT-5.6只差半步？

DeepTech深科技 2026-07-17 11:03:36
4 跟贴 4
这，可能是今年WAIC最惊艳的图片！

量子位 2026-07-18 21:16:26
0 跟贴 0
鱼靠“自我参照”还是“童年印记”认出同类？

报错免疫体 2026-07-16 01:12:03
0 跟贴 0
　《变废为宝一起来》　海宁市袁花小学301班

新浪财经 2026-07-19 07:01:10
0 跟贴 0
英伟达CEO黄仁勋：Token就是资产、已经成为获利的营收单位

每日经济新闻 2026-06-02 06:05:39
0 跟贴 0
河南一烤鸭店每天第一波客人竟是汪汪队，5只小狗街头自觉排队等投喂，陪伴到深夜12点闭店，老板已投喂流浪狗多年，网友：老顾客到齐了

极目新闻 2026-07-18 21:30:00
8180 跟贴 8180
英法"互捅局"进10球创纪录姆巴佩登顶射手榜或夺金靴

澎湃新闻 2026-07-19 08:04:27
4880 跟贴 4880
心梗、脑梗不能只怪"坏胆固醇"，还有项指标也隐藏风险

心内科陈医生 2026-07-19 10:05:09
2 跟贴 2
小伙拿起手机就跑，售货员淡定操作电脑，一切都在掌握之中！

枯藤昏鸦a 2026-07-18 11:08:05
0 跟贴 0
日防相不装了鼓吹：必须毫无禁忌地讨论和推进核政策

澎湃新闻 2026-07-18 20:08:29
5523 跟贴 5523
同事工牌和我的一样，我默默搬工位到其它楼层，他拿紧急项目堵我

麦子情感故事 2026-07-19 15:49:24
0 跟贴 0
ChatGPT终于能「搜自己」！攒了近4年的对话，一键翻出

新智元 2026-07-18 18:31:39
1 跟贴 1
太激烈！全球首场人形机器人格斗赛，头都被打飞，甄子丹看呆：幸好我不用上台打

每日经济新闻 2026-07-18 17:59:53
200 跟贴 200
高考结束妈妈给儿子买了电脑，他说要当职业选手，看到最后这谁能绷住

理想之声 2026-07-18 15:50:17
6 跟贴 6
97岁父亲病榻上安慰76岁自责女儿

北青网-北京青年报 2026-07-18 17:48:03
104 跟贴 104
高血压十几年，有肾囊肿、多个指标都异常，主任：用这个办法解决

中医内科周立华 2026-07-15 07:32:12
0 跟贴 0
“黄总请你去包厢” “黄总”到底是谁？官方请尽快查清真相给公众一个交代！

闪电新闻 2026-07-18 19:26:31
2053 跟贴 2053
不了解几何模型的同学看到无从下手

公考客栈店小二 2026-07-18 12:00:00
0 跟贴 0
民生调查局丨APP借钱套路调查：收个红包、付笔账单、点个优惠，贷款就背上了

中国网 2026-07-19 01:28:05
238 跟贴 238
突然宣布退出国内市场！网友：啊？我才买的

扬子晚报 2026-07-16 22:10:21
2253 跟贴 2253

马来西亚总理：将驱逐境内所有以色列人，马来西亚不承认以色列是一个国家，因为以色列殖民其他国家

马来西亚总理：将驱逐境内所有以色列人，马来西亚不承认以色列是一个国家，因为以色列殖民其他国家

极目新闻

2026-07-19 10:16:08

军校跌麻了！低分考生赢了！

勋哥教你填志愿

2026-07-17 10:19:01

丰田新车正式上市，14.37万！

丰田新车正式上市，14.37万！

科技堡垒

2026-07-19 11:35:12

“黄总请你去包厢”是误会？女子就餐遭服务员多次传话 “黄总”身份已查明：系餐厅内一名普通顾客认错人了

“黄总请你去包厢”是误会？女子就餐遭服务员多次传话 “黄总”身份已查明：系餐厅内一名普通顾客认错人了

闪电新闻

2026-07-19 11:36:35

遗憾谢幕！法国35岁功勋本届0出场+荣誉战都不用他疑与姆巴佩不和

遗憾谢幕！法国35岁功勋本届0出场+荣誉战都不用他疑与姆巴佩不和

我爱英超

2026-07-19 08:11:03

特朗普要对加拿大山火收税，加方回应：他们的记忆实在太短了，去年我们派了灭火飞机，前往加利福尼亚州支援；“总有一天，也会轮到你们”

特朗普要对加拿大山火收税，加方回应：他们的记忆实在太短了，去年我们派了灭火飞机，前往加利福尼亚州支援；“总有一天，也会轮到你们”

大风新闻

2026-07-19 11:16:04

英格兰内讧？1.1亿帝星戴帽后质疑主帅：踢阿根廷我没伤！不解被弃用

英格兰内讧？1.1亿帝星戴帽后质疑主帅：踢阿根廷我没伤！不解被弃用

我爱英超

2026-07-19 09:02:04

梅西决赛前夜发布感人信息：无论明天发生什么，这支球队已书写历史

梅西决赛前夜发布感人信息：无论明天发生什么，这支球队已书写历史

全景体育V

2026-07-19 11:00:00

停职通报刚发2天就被推翻？长沙车位风波最大误区，终于说透了

停职通报刚发2天就被推翻？长沙车位风波最大误区，终于说透了

社会日日鲜

2026-07-19 10:48:47

“蔡依林演唱会报酬”上热搜，长沙站两场总票务销售金额超7400万，蔡依林税后报酬或不足90万；举办方疑因转让演出活动经营权被处罚7万元

“蔡依林演唱会报酬”上热搜，长沙站两场总票务销售金额超7400万，蔡依林税后报酬或不足90万；举办方疑因转让演出活动经营权被处罚7万元

大风新闻

2026-07-19 15:05:14

开化县蓝天救援队队长因车祸离世，年仅36岁，队友：他经济条件不算多好，但很有责任感

开化县蓝天救援队队长因车祸离世，年仅36岁，队友：他经济条件不算多好，但很有责任感

极目新闻

2026-07-19 15:46:10

特朗普气的跳脚：打仗就打仗，你轰炸我的个人资产是什么意思

特朗普气的跳脚：打仗就打仗，你轰炸我的个人资产是什么意思

安安说

2026-07-19 12:05:01

迪拜的商场不是让你买东西的，是让你对买东西这件事彻底失去兴趣

迪拜的商场不是让你买东西的，是让你对买东西这件事彻底失去兴趣

花小猫的美食日常

2026-07-19 12:32:03

官方辟谣：网传“韩红基金会向和田地区人民医院捐赠医疗设备”为不实信息

官方辟谣：网传“韩红基金会向和田地区人民医院捐赠医疗设备”为不实信息

澎湃新闻

2026-07-19 09:48:18

谁逼着唐山农民工刘全自制炸弹讨薪？

谁逼着唐山农民工刘全自制炸弹讨薪？

空瓶子

2026-07-18 21:42:57

底层的戾气越来越重了。

老陆不老

2026-07-19 09:07:40

房价跌幅排名来了....

新浪财经

2026-07-19 00:11:47

2026年最蠢的公职人员出现了...

2026年最蠢的公职人员出现了...

细说职场

2026-07-18 19:36:18

7月16日，陈冠希分享了一张去看世界杯的近照，只见他在观众席穿着球衣戴着眼镜和帽子，与年轻时的痞帅判若两人

7月16日，陈冠希分享了一张去看世界杯的近照，只见他在观众席穿着球衣戴着眼镜和帽子，与年轻时的痞帅判若两人

牛油果生活观

2026-07-19 12:09:43

被批“离谱至极”！法国队0比4落后，姆巴佩在中场休息时与对方球员互换球衣，与对方主帅谈笑风生

被批“离谱至极”！法国队0比4落后，姆巴佩在中场休息时与对方球员互换球衣，与对方主帅谈笑风生

红星新闻

2026-07-19 08:47:16

董指导聊科技

远川研究所原所长，得到APP“光伏产业报告”主理人，多家公司产业研究顾问。聚焦科技、能源领域。

154文章数 16关注度

往期回顾全部

科技要闻

Kimi K3单项登顶整体落后前沿模型2-3个月

头条要闻

赔钱也不愿为"台独"牺牲近15年台军逾4000人提前退伍

头条要闻

赔钱也不愿为"台独"牺牲近15年台军逾4000人提前退伍

体育要闻

世界杯决赛，从“澡盆德比”500年前讲起

娱乐要闻

全网都心疼邹市明，再逼他支棱了

财经要闻

任泽平VIP会员自称爆仓巨亏千万

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

艺术

教育

时尚

数码

亲子要闻

一定要告诉孩子，这4种谎可能会致命！

艺术要闻

这位日本人写的书法，竟得王羲之笔法真传，专家评：超越元明清3代！

教育要闻

速看！16:00开始春考本科录取查询！入口在此！

伊姐周六热推：电视剧《雀骨》；电影《功夫女足》......

数码要闻

充电线也带TFT彩屏，积宜创新推出140W一拖二快充线

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版