![]()
文:董指导
OpenAI 终于祭出了其筹备已久的重磅武器了:GPT-5.4 Thinking 与 GPT-5.4 Pro。
奥特曼(Sam Altman)照例地称其为“迄今为止最强大的模型”。虽然这句话他每次都说、几乎每家公司也都会说,但这一次,指标数据的跑分,确实有“资本”。
![]()
1、原生电脑操作能力,超过“人类基准线”
最核心的突破在于 OSWorld-Verified 测试中拿到的75%这一高分。而人类在同一测试中的平均水平则是72.4%。
这个对人类的超越有什么意义呢?
OSWorld-Verified是公认的“最硬核”的真实桌面环境测试。AI需要在这个环境中像人一样,通过视觉(看截图)和操作(移动鼠标、键盘输入)来完成跨软件的任务。
简单说,就是能否丝滑操作电脑。从只会动嘴,到动手。
这个能力对于Agent非常重要,尤其最近火爆的OpenClaw,也很需要相关能力。
OSWorld测试中有几个挑战,比如:
视觉延迟(模型识别电脑屏幕、及时进行操作)、
坐标漂移(点不准,比如关闭、放大、缩小的紧密排列按钮)、
长链条推理(比如“在 Excel 里分析数据,然后写进邮件,根据回复附件改名”。只要中间有一步错,任务就全毁了)等等。
这个指标在过去两年经历了快速迭代和大幅拉升。
![]()
之前的领先,一直是Claude,而GPT上一代才47%,根本不够看的。国产之光Kimi也短暂冲榜第一。
Caude上一次得分,离72.4%仍差临门一脚;结果,GPT 5.4直接加速冲刺、拔脚射门。OpenAI算是维护住了自己的“王者之风”。
提升的途径在于“视觉感知能力”更强。
虽然测试、跑分都是有一定的套路的,和真实世界的复杂性仍有差距;但,这个突破,对于智能体、对于OpenClaw的普及还是很有帮助的。
不得不说,OpenClaw之父加入OpenAI之后,是真有效果啊。人才果然是AI时代的核心要素。
2、幻觉率降低了33%,更专业
基准测试只是面子,“不胡扯”才是里子。GPT-5.4事实陈述方面,将错误率降低了33%。
一个出错率极低的模型,才能真正进入银行、医疗、法律等高容错要求的生产环境。
与之对应,在GDPval测试中,GPT-5.4在44种职业任务里,有83%的结果达到或超越专业人士水准,比上一代70.9%显著提升。
3、100 万 Token 上下文
搭载了百万级上下文窗口后,GPT-5.4 不再有“走神”的问题。
能够一次性记录一家中型企业的年度所有周报和财务报表,并在此基础上进行关联分析。
GPT-5.4的能力突破,全面开花,几乎没有短板;除了“价格”:
输入价格2.5美元/百万token,输出价格15美元/百万token;Pro版本,输入30美元/百万token,输出180美元/百万token。
4、压力与“追赶者”的阴影
尽管GPT-5.4表现强悍,但这次发布的背景则是被Claude的反超。
Claude 4.6 在代码逻辑和长文本一致性上长期霸榜,甚至在部分开发者社区中,使用 Claude 的比例已经反超了 GPT。
OpenAI 迫切需要这场胜利来稳住其企业客户(B 端)的流失。
![]()
在追赶不停歇,指标月月变的时代,确实要多思考、多关注。
---全文完,欢迎交流
理工/金融 复合背景
畅销书《英伟达之道》译者
百亿私募/头部自媒体 双重经历
看清科技、商业本质,讲出精彩故事
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.