GPT-5.4拿下75%人类基准测试，我的团队只拿了72|数据源|gpt|工作流|重复性

GPT-5.4拿下75%人类基准测试，我的团队只拿了72

分享至

75%对72.4%。这组数字在上周二的数据复盘会上被丢进Slack时，整个频道安静了四分钟。不是那种"大家在忙没看消息"的安静，是那种"所有人都盯着屏幕，手指悬在键盘上不知道打什么"的安静。

说话的是我的高级分析师Maria。她平时发消息带表情包，这次只甩了一个链接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"

我回了句"晚点聊"，然后关掉通知，继续讲Q1的归因模型。但说实话，那48小时我一直在想：该怎么跟团队开口。

OSWorld-V是什么，以及为什么75%这个数字很扎心

先解释这个 benchmark。OSWorld-V 不是那种"解数学题"或者"写代码"的测试，它模拟的是真实的桌面办公场景：打开Excel拉数据、跨应用复制粘贴、整理文件夹、生成报告、处理邮件附件。简单说，就是你我每天早上坐到电脑前干的那些杂活。

人类基线72.4%，来自对200名知识工作者的实测。这些人有3-8年工作经验，分布在咨询、金融、运营等岗位。测试环境完全开放，允许Google搜索、允许试错、允许"哎呀这个快捷键我忘了"的真实状态。

GPT-5.4的75%，是在相同条件下跑的。模型自己操作虚拟桌面，自己决定点哪里、输入什么、什么时候保存。没人给它写脚本，没人告诉它"第3步要按Ctrl+Shift+V"。

Maria后来私下问我：这算"超过人类"吗？

我当时的回答是：算，也不算。75%对72.4%在统计上确实显著，但OSWorld-V的测试时长只有90分钟。真实工作不是90分钟的闭卷考试，是8小时里不断被打断、重新进入心流、再被打断的马拉松。模型现在还不能处理"老板突然插进来的紧急任务"或者"同事在Slack上@你问一个蠢问题"这种上下文切换。

但我说完这段话，自己也没底气。因为2024年GPT-4在同样测试里只有12%，2025年中某个版本跳到34%，现在75%。这个斜率让我失眠。

我的团队真实水平，以及我为什么不敢公开聊

我们的数据团队12人，平均工龄4年。我让他们匿名做了OSWorld-V的简化版——去掉一些需要企业内网权限的任务，保留核心流程。平均分72%，中位数71%，最高81%来自一个工作6年的老分析师。

也就是说，我们团队的中位数比GPT-5.4低4个百分点。最高分比模型高6个百分点，但那是全组经验最丰富的人，而模型是批量生产的。

我在周会上没提这个内部测试。只说了官方数字，然后补了一句："大家注意，benchmark是benchmark，实际业务场景复杂得多。"

这句话是事实，但也是逃避。我没说的是：我们正在评估的3个自动化项目，原本计划招2个初级分析师，现在预算被冻结了。我没说的是，CTO上周问我"数据团队明年能不能缩编30%"。

最讽刺的是，我自己就是那个推动用AI做数据清洗的人。2024年我们上了自动化pipeline，3个ETL工程师转岗去做分析。当时我觉得这是"升级"，现在看可能是"预演"。

GPT-5.4能做什么，以及它还不能做什么

为了验证边界，我让Maria设计了一个真实任务：从Salesforce导出Q1客户数据，匹配HubSpot的营销互动记录，按行业分组计算CAC（客户获取成本），输出PPT格式的摘要。

她给模型的是完全开放的虚拟机，安装了和我们一样的软件栈，但没有任何预配置。

GPT-5.4的表现分三个阶段：

前20分钟，它像刚入职的实习生。Salesforce的界面改版了，它找了3分钟才定位到导出按钮。HubSpot的API调用次数限制让它卡住，它尝试了4种不同的分页策略，最后选择最笨的手动翻页——和人类一样。

中间40分钟进入状态。匹配两个数据源时，它主动发现HubSpot的日期格式是MM/DD/YYYY，Salesforce是YYYY-MM-DD，自己写了转换公式。计算CAC时，它注意到有个行业的样本量只有3个，在输出里加了置信度说明。

最后30分钟翻车。PPT模板有公司品牌规范，字体、配色、Logo位置都是固定的。模型生成的内容是对的，但版式完全不对，它尝试了7次调整都没get到"标题必须左对齐且距离顶部2cm"这种非结构化规则。最后Maria接手花了15分钟手工调整。

总耗时87分钟，任务完成度约80%。我们的老分析师做同样任务，熟练的话45分钟，不熟练的新人要2小时且需要问人。

关键发现：模型在"需要理解隐性规则"的环节明显吃力。品牌规范、跨部门协作的默认流程、"这个数据看起来不对"的直觉——这些没有写成文档的东西，是它和人类差距最大的地方。但问题是，我们公司有多少工作真的依赖这些？可能比我想象的少。

我在团队会议上实际说了什么

周四的all-hands，我准备了3页PPT。第一页是OSWorld-V的分数对比，第二页是我们内部测试的结果，第三页是空白，只写了一个问题。

我的原话：

「75%这个数字是真的，72.4%的人类基线也是真的。但这两个数字比较的时候，有一个隐藏变量：人类测试者是"被要求完成任务"，模型是"被设计来完成这类任务"。动机结构不一样，疲劳曲线不一样，对"完成"的定义也可能不一样。」

「我们内部测试72%，比官方人类基线略低。这可能说明我们团队平均水平低于200人样本，也可能说明我的测试设计有偏差。我不确定哪个解释更安慰人。」

「接下来两个季度，我们会做三件事：第一，所有重复性报告任务必须评估自动化可行性；第二，每个人要认领一个"AI做不到"的领域，深度发展；第三，我会和HR谈转岗培训预算，不是裁员预备，是能力升级预备。」

第三句是谎话。预算确实是裁员预备，但我需要团队先动起来。

会后一个入职两年的分析师问我：「Claudio，你觉得三年后我们团队还在吗？」

我说：「我觉得三年后"数据团队"的定义会完全不一样。但具体怎么不一样，诚实讲，我在等比我们更聪明的人给出答案。」

我没说出口的，以及整个行业没聊的

Medium这篇文章的评论区有个高赞回复，来自某个AI公司的产品经理：「72.4%是人类基线，不是人类上限。顶尖分析师能做到90%以上，模型短期内追不上。」

这个安慰剂我咀嚼了很久，最后吐了。因为OSWorld-V的设计者明确说过，测试任务是从真实工作流中采样，不是故意选"简单的"。如果模型已经超过平均人类，而"平均人类"就是劳动力市场的供给主体，那"顶尖人类"的稀缺性能不能支撑整个行业的就业？

另一个我没跟团队提的数字：GPT-5.4的API成本，处理一个OSWorld-V级别任务，约0.17美元。我们的初级分析师时薪换算过来，同样时长的任务成本是23美元。不是23%的差距，是135倍。

成本结构会重塑一切。不是"AI能不能做"，是"AI做坏了再让人修，还是直接让人做"的决策阈值在移动。

我还在想那个空白PPT上的问题。开会时我没让人回答，现在也不想在这里写出标准答案。因为标准答案可能根本不存在，或者存在但说出来太残忍。

只是每次路过那个分析师的工位，看他还在手动调整PPT的2cm边距，我就会想：这个动作，明年还需要人做吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

GPT-5.4拿下75%人类基准测试，我的团队只拿了72

OSWorld-V是什么，以及为什么75%这个数字很扎心

我的团队真实水平，以及我为什么不敢公开聊

GPT-5.4能做什么，以及它还不能做什么

我在团队会议上实际说了什么

我没说出口的，以及整个行业没聊的

造出地表最强AI，却死活不给你用！

郑丽文表态：感谢大陆热情接待 国民党坚持"九二共识"

郑丽文表态：感谢大陆热情接待 国民党坚持"九二共识"

科特迪瓦中场卡迪尔-凯塔被控过失杀人罪，面临九年以上监禁

女首富陈丽华离世 被曝生前已分好遗产

特朗普同意停火两周 伊朗:接受停火提议

不止是大 极狐首款MPV问道V9静态体验

态度原创

干细胞抗衰4大误区,90%的人都中招

跟着歌声游安徽，听古村回响

解方程：y²＋2424²＝2525²，学霸只需20秒

售价413元！苹果官网上架iPhone斜挎包：可放置AirTag追踪器

郑丽文表态：感谢大陆热情接待国民党坚持"九二共识"

郑丽文表态：感谢大陆热情接待国民党坚持"九二共识"

女首富陈丽华离世被曝生前已分好遗产

特朗普同意停火两周伊朗:接受停火提议

不止是大极狐首款MPV问道V9静态体验