网易首页 > 网易号 > 正文 申请入驻

GPT-5.4拿下75%人类基准测试,我的团队只拿了72

0
分享至


75%对72.4%。这组数字在上周二的数据复盘会上被丢进Slack时,整个频道安静了四分钟。不是那种"大家在忙没看消息"的安静,是那种"所有人都盯着屏幕,手指悬在键盘上不知道打什么"的安静。

说话的是我的高级分析师Maria。她平时发消息带表情包,这次只甩了一个链接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"

我回了句"晚点聊",然后关掉通知,继续讲Q1的归因模型。但说实话,那48小时我一直在想:该怎么跟团队开口。

OSWorld-V是什么,以及为什么75%这个数字很扎心

先解释这个 benchmark。OSWorld-V 不是那种"解数学题"或者"写代码"的测试,它模拟的是真实的桌面办公场景:打开Excel拉数据、跨应用复制粘贴、整理文件夹、生成报告、处理邮件附件。简单说,就是你我每天早上坐到电脑前干的那些杂活。

人类基线72.4%,来自对200名知识工作者的实测。这些人有3-8年工作经验,分布在咨询、金融、运营等岗位。测试环境完全开放,允许Google搜索、允许试错、允许"哎呀这个快捷键我忘了"的真实状态。

GPT-5.4的75%,是在相同条件下跑的。模型自己操作虚拟桌面,自己决定点哪里、输入什么、什么时候保存。没人给它写脚本,没人告诉它"第3步要按Ctrl+Shift+V"。

Maria后来私下问我:这算"超过人类"吗?

我当时的回答是:算,也不算。75%对72.4%在统计上确实显著,但OSWorld-V的测试时长只有90分钟。真实工作不是90分钟的闭卷考试,是8小时里不断被打断、重新进入心流、再被打断的马拉松。模型现在还不能处理"老板突然插进来的紧急任务"或者"同事在Slack上@你问一个蠢问题"这种上下文切换。

但我说完这段话,自己也没底气。因为2024年GPT-4在同样测试里只有12%,2025年中某个版本跳到34%,现在75%。这个斜率让我失眠。

我的团队真实水平,以及我为什么不敢公开聊

我们的数据团队12人,平均工龄4年。我让他们匿名做了OSWorld-V的简化版——去掉一些需要企业内网权限的任务,保留核心流程。平均分72%,中位数71%,最高81%来自一个工作6年的老分析师。

也就是说,我们团队的中位数比GPT-5.4低4个百分点。最高分比模型高6个百分点,但那是全组经验最丰富的人,而模型是批量生产的。

我在周会上没提这个内部测试。只说了官方数字,然后补了一句:"大家注意,benchmark是benchmark,实际业务场景复杂得多。"

这句话是事实,但也是逃避。我没说的是:我们正在评估的3个自动化项目,原本计划招2个初级分析师,现在预算被冻结了。我没说的是,CTO上周问我"数据团队明年能不能缩编30%"。

最讽刺的是,我自己就是那个推动用AI做数据清洗的人。2024年我们上了自动化pipeline,3个ETL工程师转岗去做分析。当时我觉得这是"升级",现在看可能是"预演"。

GPT-5.4能做什么,以及它还不能做什么

为了验证边界,我让Maria设计了一个真实任务:从Salesforce导出Q1客户数据,匹配HubSpot的营销互动记录,按行业分组计算CAC(客户获取成本),输出PPT格式的摘要。

她给模型的是完全开放的虚拟机,安装了和我们一样的软件栈,但没有任何预配置。

GPT-5.4的表现分三个阶段:

前20分钟,它像刚入职的实习生。Salesforce的界面改版了,它找了3分钟才定位到导出按钮。HubSpot的API调用次数限制让它卡住,它尝试了4种不同的分页策略,最后选择最笨的手动翻页——和人类一样。

中间40分钟进入状态。匹配两个数据源时,它主动发现HubSpot的日期格式是MM/DD/YYYY,Salesforce是YYYY-MM-DD,自己写了转换公式。计算CAC时,它注意到有个行业的样本量只有3个,在输出里加了置信度说明。

最后30分钟翻车。PPT模板有公司品牌规范,字体、配色、Logo位置都是固定的。模型生成的内容是对的,但版式完全不对,它尝试了7次调整都没get到"标题必须左对齐且距离顶部2cm"这种非结构化规则。最后Maria接手花了15分钟手工调整。

总耗时87分钟,任务完成度约80%。我们的老分析师做同样任务,熟练的话45分钟,不熟练的新人要2小时且需要问人。

关键发现:模型在"需要理解隐性规则"的环节明显吃力。品牌规范、跨部门协作的默认流程、"这个数据看起来不对"的直觉——这些没有写成文档的东西,是它和人类差距最大的地方。但问题是,我们公司有多少工作真的依赖这些?可能比我想象的少。

我在团队会议上实际说了什么

周四的all-hands,我准备了3页PPT。第一页是OSWorld-V的分数对比,第二页是我们内部测试的结果,第三页是空白,只写了一个问题。

我的原话:

「75%这个数字是真的,72.4%的人类基线也是真的。但这两个数字比较的时候,有一个隐藏变量:人类测试者是"被要求完成任务",模型是"被设计来完成这类任务"。动机结构不一样,疲劳曲线不一样,对"完成"的定义也可能不一样。」

「我们内部测试72%,比官方人类基线略低。这可能说明我们团队平均水平低于200人样本,也可能说明我的测试设计有偏差。我不确定哪个解释更安慰人。」

「接下来两个季度,我们会做三件事:第一,所有重复性报告任务必须评估自动化可行性;第二,每个人要认领一个"AI做不到"的领域,深度发展;第三,我会和HR谈转岗培训预算,不是裁员预备,是能力升级预备。」

第三句是谎话。预算确实是裁员预备,但我需要团队先动起来。

会后一个入职两年的分析师问我:「Claudio,你觉得三年后我们团队还在吗?」

我说:「我觉得三年后"数据团队"的定义会完全不一样。但具体怎么不一样,诚实讲,我在等比我们更聪明的人给出答案。」

我没说出口的,以及整个行业没聊的

Medium这篇文章的评论区有个高赞回复,来自某个AI公司的产品经理:「72.4%是人类基线,不是人类上限。顶尖分析师能做到90%以上,模型短期内追不上。」

这个安慰剂我咀嚼了很久,最后吐了。因为OSWorld-V的设计者明确说过,测试任务是从真实工作流中采样,不是故意选"简单的"。如果模型已经超过平均人类,而"平均人类"就是劳动力市场的供给主体,那"顶尖人类"的稀缺性能不能支撑整个行业的就业?

另一个我没跟团队提的数字:GPT-5.4的API成本,处理一个OSWorld-V级别任务,约0.17美元。我们的初级分析师时薪换算过来,同样时长的任务成本是23美元。不是23%的差距,是135倍。

成本结构会重塑一切。不是"AI能不能做",是"AI做坏了再让人修,还是直接让人做"的决策阈值在移动。

我还在想那个空白PPT上的问题。开会时我没让人回答,现在也不想在这里写出标准答案。因为标准答案可能根本不存在,或者存在但说出来太残忍。

只是每次路过那个分析师的工位,看他还在手动调整PPT的2cm边距,我就会想:这个动作,明年还需要人做吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凉透了的专业,顶级硕士也在网络哭诉:月薪4500!

凉透了的专业,顶级硕士也在网络哭诉:月薪4500!

黯泉
2026-04-07 22:03:00
每天 200 个深蹲 vs 每天走 1 万步,谁先瘦下来?

每天 200 个深蹲 vs 每天走 1 万步,谁先瘦下来?

增肌减脂
2026-04-05 11:07:51
泰山紧急换帅,三大潜在人选,一人呼声最高,另一人最具冲冠潜力

泰山紧急换帅,三大潜在人选,一人呼声最高,另一人最具冲冠潜力

体坛风之子
2026-04-08 07:00:08
安徽6岁女童遇害:凶手报复下黑手,两次转移遗体,搜救细节曝光

安徽6岁女童遇害:凶手报复下黑手,两次转移遗体,搜救细节曝光

眼光很亮
2026-04-07 11:17:56
韩媒:一旦开战,将对北京发起致命打击,大连、青岛都在列!

韩媒:一旦开战,将对北京发起致命打击,大连、青岛都在列!

甜到你心坎
2026-04-08 05:28:53
一碗泡面引爆全网,泰国人开始“抗日”了!

一碗泡面引爆全网,泰国人开始“抗日”了!

大道微言
2026-04-06 12:38:56
娃哈哈百亿遗产迎来大反转!宗馥莉携弟妹扫墓,真不斗了?

娃哈哈百亿遗产迎来大反转!宗馥莉携弟妹扫墓,真不斗了?

雷科技
2026-04-07 16:03:37
王励勤终于下定决心!4大老将逐步放弃,重点培养新生代为时不晚

王励勤终于下定决心!4大老将逐步放弃,重点培养新生代为时不晚

罗纳尔说个球
2026-04-07 12:00:49
【意甲】阿莱格里:争冠失败!AC米兰0-1客负那不勒斯

【意甲】阿莱格里:争冠失败!AC米兰0-1客负那不勒斯

体坛周报
2026-04-07 08:20:12
詹姆斯:文班亚马是外星人,很高兴当他巅峰期时我已不在联盟

詹姆斯:文班亚马是外星人,很高兴当他巅峰期时我已不在联盟

懂球帝
2026-04-08 05:46:52
兵败如山倒!国产新能源,撕下了二线豪华品牌最后的“遮羞布”

兵败如山倒!国产新能源,撕下了二线豪华品牌最后的“遮羞布”

羽逸地之光
2026-04-06 05:44:43
伊朗代表:俄罗斯和中国阻止了滥用安理会的行为

伊朗代表:俄罗斯和中国阻止了滥用安理会的行为

财联社
2026-04-08 02:03:51
1959年,刘文彩被当做教育典型,周恩来得知后立即让其弟进京任职

1959年,刘文彩被当做教育典型,周恩来得知后立即让其弟进京任职

鹤羽说个事
2026-04-07 22:45:40
张兰生日好闹心!马筱梅发文翻车,小玥儿做饼干,汪小菲躲避相聚

张兰生日好闹心!马筱梅发文翻车,小玥儿做饼干,汪小菲躲避相聚

潮鹿逐梦
2026-04-08 00:02:21
游客称7人点3盆米饭被收78元,华阴市监局介入,饭店:小份米饭3元,大盆米饭约8小碗,用五常大米和矿泉水蒸煮

游客称7人点3盆米饭被收78元,华阴市监局介入,饭店:小份米饭3元,大盆米饭约8小碗,用五常大米和矿泉水蒸煮

潇湘晨报
2026-04-07 17:12:51
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
我妈常把腊肉香油搬舅舅,今年我爸不办年货,酒席一句全体哑然

我妈常把腊肉香油搬舅舅,今年我爸不办年货,酒席一句全体哑然

热心市民小黄
2026-04-07 03:01:58
灾难!拜仁巨星全场摆烂,安联王牌亲手送皇马生机

灾难!拜仁巨星全场摆烂,安联王牌亲手送皇马生机

澜归序
2026-04-08 06:00:16
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

科普100克克
2026-03-27 00:17:05
郑丽文去慈湖谒陵,两地距离40公里有高速有高铁,她出行方便

郑丽文去慈湖谒陵,两地距离40公里有高速有高铁,她出行方便

老呶侃史
2026-04-02 18:56:58
2026-04-08 09:12:49
字节漫游指南
字节漫游指南
有态度网友ytd
1228文章数 14关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

郑丽文表态:感谢大陆热情接待 国民党坚持"九二共识"

头条要闻

郑丽文表态:感谢大陆热情接待 国民党坚持"九二共识"

体育要闻

科特迪瓦中场卡迪尔-凯塔被控过失杀人罪,面临九年以上监禁

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

健康
本地
教育
数码
公开课

干细胞抗衰4大误区,90%的人都中招

本地新闻

跟着歌声游安徽,听古村回响

教育要闻

解方程:y²+2424²=2525²,学霸只需20秒

数码要闻

售价413元!苹果官网上架iPhone斜挎包:可放置AirTag追踪器

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版