网易首页 > 网易号 > 正文 申请入驻

GPT-5.4 到底变强了多少?三大核心能力+电脑操控Codex上手实测!

0
分享至


大数据文摘受权转载自夕小瑶科技说

上周,GPT-5.4 发了。意图非常明显,直指 Claude Opus4.6 和 Gemini 3.1 Pro。

2 月 5 日,Claude Opus 4.6 发了。2 月 19 日,Gemini 3.1 Pro 发了。OpenAI 被轮流摁了整整一个月。3 月 5 日,GPT-5.4 来了。

我一看成绩,强得没边儿了。


但跑分这个东西,放一起才见真章。我把(省流版)御三家的三款旗舰模型的发布时间、能力、价格放在一起看:


仅从数据上看,编程被 Anthropic 压制,推理被 Google 领跑,价格卡在中间。


整张表里最亮眼的成绩就是,「知识工作」和「原生计算机操控」,也是这次 GPT-5.4 的亮点。

知识工作,可以看 GDPval 的表现。GDPval 跑了 44 种真实职业场景,GPT-5.4 在 83% 的比较里能和行业专业人员持平甚至超越,所以切的企业最容易买单的能力。

原生计算机操控,这是整张表里最亮眼的成绩。

GPT-5.4 是 OpenAI 首个具备原生计算机使用能力的通用模型,也是第一个在桌面自主操作任务上超越人类专家表现的模型。

OSWorld 桌面操控成功率 75%,官方说超过人类平均水平 72.4%。既能写 Playwright 代码来操作电脑,也能直接通过截图发出鼠标键盘指令。

光看数据没意思,得试。

但从 5.1 之后我一怒之下退订了 ChatGPT 后,到现在都没有续回去,这次测试就选择把可信的三方 API,接入 Codex。

既然官方最吹的就是电脑操控,那就先从这开刀。

我先想了个骚操作:让它通过 Codex 启动另一个 Codex,指挥第二个 Codex 去打开浏览器搜东西。Codex 操控 Codex,套娃。

结果,它一冲瞎划了。

它还没敲回车呢,就把后面要搜的内容输进去了,整个命令混成一坨,直接报错。

算了算了,废了。


那就降低难度。让它打开桌面上的 Edge 浏览器,进 OpenAI 的博客页面。这个简单任务倒是顺利完成了,也没调用什么第三方浏览器库,直接操控的系统。

先不做评论,毕竟是 75% 超越人类的计算机操控。

这里插一嘴,Codex 这个壳我其实一直不太习惯,终端味太重,看着也丑。后来按照大佬给的方法,在 cc switch 里把 GPT-5.4 模型配到了 Claude Code 里面。这下界面好看了,但体验还是怪怪的。


怎么说呢,用 Claude Code 跑 Claude 的时候,你说一句它马上理解,然后动手,很流畅。

换成 GPT-5.4 之后,反馈周期明显长一截,它会到关键节点才反馈一次,中间那段时间你就干等着,不知道它在想什么。

算了这些都只是壳。我在意的,还是它到底能不能出活。于是我打开 Codex 终端,上正经任务。

一共三个大任务,覆盖了深度知识工作、高阶编程和调试、电脑操控三个核心维度。

任务一:262 万行数据,10 分钟出报告

请帮我完成以下电脑操作:(1)打开浏览器,访问 data.gov,下载"Consumer Complaint Database"的最新 CSV 数据集;(2)用本地 Python 打开这个文件;(3)进行数据清洗——去重、处理缺失值、标准化日期格式;(4)生成一份包含 5 个图表的分析报告(投诉趋势、公司排名、产品分类、州分布热力图、处理时效分布);(5)把报告保存为 PDF。全程用电脑操控完成,不要只给我代码。  

这是一个比较复杂的专业数据分析流程。

这次,GPT-5.4 上来就踩坑了。data.gov 官方那个"Download all complaint data"链接,下下来一解压,就一行表头,286 字节。数据呢?


他判断出这个下载链接有问题,于是主动切换到了 CFPB 的官方开放 API,分块把完整数据拉了下来。

我依稀记得,以前的 GPT 遇到这种情况,会硬着头皮处理那个空文件。。自己想到换方案,变聪明了。

最终成绩,262 万多行数据,清洗后保留 262 万多行,跳过 1 条缺失 ID 的坏尾行;缺失值补了 600 多万个;日期全变成 YYYY-MM-DD;5 张图和 6 页 PDF 报告全部出完。

整个过程大约 10 分钟。

还可以。

任务二:2w 行代码

第二个任务,我扔给它一个真实的桌面项目,PySide6 写的,20000 多行,把小说生成、新闻批量处理、AI 编辑器、热榜预览、作品管理等功能全堆在一起。

我让 codex 做三件事:

  • 画出完整函数调用关系图、

  • 找出性能瓶颈最大的 3 个函数,

  • 再顺手判断一下原作者是什么风格的程序员。

Mermaid 调用图它画出来了,从 main.py 入口到各个子模块的信号槽连接,层次还挺清楚的。



性能瓶颈的分析也让我比较服气。它定位到了三个函数,确实都是我为了让系统不崩溃做的超级冗余。


还有作者风格判断,它的结论是,不是那种特别讲究洁癖式分层的基础设施工程师。好像有点马屁,其实没有。。


GPT-5.4 看代码,已经不只是“看函数”,而是开始“看人”了。它能顺着代码,反推出作者的工作方式、取舍习惯、甚至一点点性格倾向。

由此判断,代码能力算是稳的,至少算中层。GPT-5.4 的编程能力配合它的知识工作能力用,是加分项。单独拿出来,没赢面。

任务三:数学建模国赛 C 题

前两个任务,一个偏知识流程,一个偏工程。

第三个任务,我想看它在“高复杂度、长链条、强约束”的场景里,到底能顶到哪。

所以我直接把它拉去做 2024 年数学建模国赛 C 题,54 个地块,7 年规划,41 种作物,要考虑轮作、土地适应性、市场波动、超产滞销,最后还要形成完整论文。


这个任务也最能暴露它的上限。

因为它不是某一个点上难,而是每一步都容易出小错:读题、抽象、建模、写代码、跑优化、生成论文、处理公式、处理文件、处理中文路径,哪一步都能翻。

GPT-5.4 确实搭了个 PuLP 的混合整数线性规划模型,也确实把论文骨架搭出来了:摘要、问题重述、假设、符号说明、建模、求解、结果分析、模型评价,样样不少。

但中间它被 Windows PowerShell 的中文编码狠狠干了几次。中文文件名读不进去,“完整论文.md”写不进去,“附件 1.xlsx”也找不到,LaTeX 公式里的\right还被换行吃掉了。它最后是靠把文件名全改成 ASCII,才把流程跑通。

有意思,真正折磨模型的,还真不是 benchmark 上那道最难的题,是现实环境里那些又脏又碎的坑啊!

所以这一项给我的感觉很明确,GPT-5.4 可以把这种大活先搭到 70 分,甚至能把最烦的前半段干掉;但离“直接交卷拿高分”还有距离,中间隔着一堆细节层面的破事。

你要的是一个能跑起来的框架,它可以。你要的是一篇非常漂亮的竞赛论文,还得自己往上抬,至少要自己教它方法、配个 skill。

跑完这三个任务,我对 GPT-5.4 的判断也慢慢清楚了:代码能力很强、人感不错,但操作计算机的能力好像离预期差一点至少套娃还差一点。

至于 5.4pro,网上已经有人开始拿它开涮了。

比如 Daniel Nguyen 发的那个图就很典型:有人问 GPT-5.4 Pro,“How do I install CUDA 12.1 on Ubuntu 24.04?”


它想了 69 分 42 秒,最后回了一句:“You can’t.”

我自己也测了一下 Pro。让它扮演一个 20 年经验的 AI 行业猎头,对 Sam Altman 进行一场“GPT-5.4 产品经理”岗位的压力面试。

它想了 22 分钟 46 秒。



出来的东西说实话有点压力。这个质量,确实不是普通版能给的。你能明显感觉到,Pro 在一些高要求、高压缩、高质量输出的场景里,确实更像“高级脑力劳动者”。但代价嘛...


Pro 版输出 180 美元/百万 token,是 Claude 的 7.2 倍。之前有人对它说了句"Hi"就烧掉 80 美元,我这次一个面试题想了 22 分钟,账单也不敢细看。

所以问题来了。

如果未来两个季度,你只能让 GPT-5.4 在一个维度形成“不可逆的用户心智占领”,你会押哪一个?

A. 长周期 agent 任务完成率
B. 高价值知识工作的“可直接签字”输出率
C. 跨文档、跨应用、跨工具的上下文连续性
D. 单位任务成本

评论区告诉我答案,我挑几个最狠的回答,整理一下,转达给 GPT-5.4 Pro。

你觉得 GPT5.4 的能力到哪了?

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方第6波反制出击!巴拿马政府收到20亿罚单,2家公司被中国约谈

中方第6波反制出击!巴拿马政府收到20亿罚单,2家公司被中国约谈

策略述
2026-03-12 19:09:51
上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

大铁猫娱乐
2026-02-08 00:10:03
辽宁两新外太好用!哈维主导三分,布罗金顿爆破,合体可主导攻守

辽宁两新外太好用!哈维主导三分,布罗金顿爆破,合体可主导攻守

篮球资讯达人
2026-03-14 00:29:09
日本生活五年经历,说点让中国人听着刺耳,却又都是事实的真心话

日本生活五年经历,说点让中国人听着刺耳,却又都是事实的真心话

天下霸奇
2026-03-13 10:12:52
45岁阿娇一顿吃上千元,4500万打掉亲骨肉,如今求子无门

45岁阿娇一顿吃上千元,4500万打掉亲骨肉,如今求子无门

她时尚丫
2026-03-12 21:57:17
“12人吃烧烤花78元”,为拼儿子连生10胎,家长买烧烤都没人敢吃

“12人吃烧烤花78元”,为拼儿子连生10胎,家长买烧烤都没人敢吃

妍妍教育日记
2026-03-12 22:38:02
浙江省政府与吉利控股集团签署战略框架协议

浙江省政府与吉利控股集团签署战略框架协议

财闻
2026-03-13 18:52:50
LV大秀太真实!Lisa三角区尴尬,全智贤面相大变,周冬雨真爷们儿

LV大秀太真实!Lisa三角区尴尬,全智贤面相大变,周冬雨真爷们儿

观察鉴娱
2026-03-11 08:31:05
他护送毛主席进京,1958年被连降十级,主席知道后:我要亲自过问

他护送毛主席进京,1958年被连降十级,主席知道后:我要亲自过问

浩渺青史
2026-03-12 17:27:22
曾打败谢杏芳获女单冠军,经历两次婚姻,今嫁大11岁体育公司CEO

曾打败谢杏芳获女单冠军,经历两次婚姻,今嫁大11岁体育公司CEO

科学发掘
2026-03-13 12:01:18
不可思议!江苏37岁男子自曝当爷爷,17岁儿子与技校女同学生娃

不可思议!江苏37岁男子自曝当爷爷,17岁儿子与技校女同学生娃

好贤观史记
2025-11-26 08:58:07
合资车卷疯了!3款SUV神车从15万跌到8万,省油又好开

合资车卷疯了!3款SUV神车从15万跌到8万,省油又好开

童叔不飙车
2026-03-13 07:35:08
恢复神速?姆巴佩或次回合出战曼城 球队3球大胜让他产生危机感

恢复神速?姆巴佩或次回合出战曼城 球队3球大胜让他产生危机感

雪狼侃体育
2026-03-13 23:09:24
安徽唯一省属211翻身了,合工大的压力来了

安徽唯一省属211翻身了,合工大的压力来了

Delete丨CC
2026-03-13 18:56:08
A股启示录:股市现阶段,“空仓等待”与“满仓踏空”的两种人,谁会笑到最后?答案出乎意料

A股启示录:股市现阶段,“空仓等待”与“满仓踏空”的两种人,谁会笑到最后?答案出乎意料

新浪财经
2026-03-13 21:26:14
脑机接口板块快速拉升,创新医疗涨停

脑机接口板块快速拉升,创新医疗涨停

贝壳财经
2026-03-13 16:06:28
悲催!两位80后朋友心梗离世,一网友哭诉平时无烟无酒,踢球跑步

悲催!两位80后朋友心梗离世,一网友哭诉平时无烟无酒,踢球跑步

火山詩话
2026-03-11 16:21:10
惨案+2场狂丢9球!大连英博要抢降级名额?球迷:斯坦丘也带不动

惨案+2场狂丢9球!大连英博要抢降级名额?球迷:斯坦丘也带不动

足球大腕
2026-03-13 22:17:49
精彩了!阿娇回应许雅钧聊天记录意外曝光账号,曾质疑马筱梅假孕

精彩了!阿娇回应许雅钧聊天记录意外曝光账号,曾质疑马筱梅假孕

科普100克克
2026-03-13 00:40:18
快讯!惠州两人辞去副市长职务

快讯!惠州两人辞去副市长职务

南方都市报
2026-03-13 14:34:18
2026-03-14 02:16:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6836文章数 94534关注度
往期回顾 全部

科技要闻

龙虾热卷到AI硬件 “无脑”硬件或被淘汰

头条要闻

穆杰塔巴"亮相"没讲话 伊朗学者:其处境可能非常危险

头条要闻

穆杰塔巴"亮相"没讲话 伊朗学者:其处境可能非常危险

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

广电总局公布演员将用姓氏笔画定番位

财经要闻

“十五五”规划纲要,全文来了!

汽车要闻

置换补贴价8.68万 五菱缤果S 525km旗舰款上市

态度原创

健康
教育
旅游
时尚
本地

转头就晕的耳石症,能开车上班吗?

教育要闻

25年坚守,6次进化!这所学校如何通过阅读拿下省科研特等奖第一名?

旅游要闻

春满来凤山,花开迎客忙!腾冲茶花基地13万游人踏春“打卡”

扎十一惹:像鸟飞往她的山

本地新闻

坐标北京,过敏季反向迁徒

无障碍浏览 进入关怀版