网易首页 > 网易号 > 正文 申请入驻

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI发布最新研究,却在里面夸了一波Claude。

他们提出名为GDPval的新基准,用来衡量AI模型在真实世界具有经济价值的任务上的表现。

具体来说,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。

专业评分人员将主流模型的输出结果与人类专家的成果进行了对比。

最终测试下来,Claude Opus 4.1成为表现最佳的模型,47.6%的产出被评定媲美人类专家成果

GPT-5 38.8%的成绩和Claude还是有些差距,位居第二;GPT-4o与人类相比只有12.4%获胜或平局。

没能成为最优,OpenAI也给自己找补了:不同模型各有优势,Claude Opus 4.1主要是在美学方面突出,而GPT-5在准确性上更优

OpenAI还表示,同样值得注意的是模型的进步速度,其前沿模型在短短一年内,胜率几乎实现了翻倍。

最后OpenAI还开源了包含220项任务的优质子集,并提供公开的自动评分服务。

网友看后纷纷表示,非常因吹斯汀的研究:

  • OpenAI各代模型的性能呈线性增长,以及感谢对竞争对手的认可。

还有网友认为,这也可能是奥特曼精心设计的宣传手段,通过吹嘘AI能为GDP带来增长而筹集资金。

下面具体来看一下这项测试。

测试AI的“挣钱”能力

OpenAI指出,GDPval相比现有的AI评估,好就好在:

  • 任务基于真实工作成果且关联完成时间与成本,具备现实性;
  • 涵盖O*NET(美国职业信息网络)追踪的大部分职业工作活动,具有代表性广度
  • 任务要求处理多种格式文件并解析多个参考文件,涉及计算机使用与多模态;
  • 除了正确性还需考虑结构、风格等主观因素,数据集也可作为评估自动评分系统性能的测试平台;
  • 胜率为主要指标无上限,支持持续评估;
  • 任务难度高,行业专业人士平均需7小时完成,复杂任务甚至耗时数周。

其任务构建流程,首先从确定核心行业与职业入手。

OpenAI先是筛选出了对美国GDP贡献超5%的9个行业(依据2024年第二季度各行业增加值占美国国内生产总值百分比数据),再在每个行业内挑选5个贡献工资总额最多且以数字任务为主的职业。

判断职业是否“以数字任务为主”时,参考ONET中该职业的所有任务,借助GPT-4o对任务按“数字/非数字”分类,结合ONET中任务的相关性、重要性和频率得分加权计算,若60%以上任务为数字任务,则将该职业纳入。

最终OpenAI筛选出了44个职业,这些职业合计年创收3万亿美元

接着进行行业专业人士招募,要求参与任务创建的专家至少有4年相关职业经验,简历需体现专业认可度、晋升经历及管理职责。

经统计,招募来的行业专家平均经验达14年

这些人还需进一步通过视频面试、背景调查、培训及测试才能参与该项目(OpenAI还会给到一笔优厚报酬),其前雇主涵盖苹果、谷歌、微软、Meta、三星、甲骨文、IBM、摩根大通等众多知名企业与机构,确保专家具备扎实的行业实践基础。

任务创建环节,每个GDPval任务包含“需求”和“交付成果”两部分,行业专家会对照O*NET中自身职业的任务分类设计任务,以保证任务覆盖的广度与代表性。

为了评估任务质量,OpenAI要求这些专家根据其职业的实际标准,对每项任务的难度、代表性、完成时间和整体质量等进行打分,并结合OEWS(美国劳工统计局职业就业统计)数据中对应职业的中位时薪,通过“平均完成时间×时薪”计算每个任务的经济价值

最终,GDPval全集中总共包含1320项任务,所有任务均经过了“自动化模型筛选+多轮人类专家审核”的迭代流程,每个任务会获得至少3次、平均5次的人工审核。

专家在各评审阶段会给出详细意见。任务会根据意见反复修改完善。

Claude表现媲美人类专家

OpenAI开源了包含220项任务的优质子集,采用了盲态专家pairwise对比法(即专家不知晓待评成果来源的成对对比评分方式),对该子集进行评级。

每项对比评分平均耗时超过1小时。OpenAI表示还额外邀请了更多职业领域专家,对人类专家与模型输出的成果进行评分。专家需为其选择及排序结果提供详细依据。

针对优质子集,OpenAI同时开发了实验性自动评分器,其与人类专家评分的一致性达66%,仅比人类间评分一致性(71%)低5%。

对GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro及Grok 4这几款模型进行评估后,结果显示:

在GDPval优质子集任务中,Claude Opus 4.1是整体表现最佳的模型,尤其在美观性方面(如文档格式、幻灯片布局)表现突出。

其输出的成果中,有47.6%被评定为优于或等同于人类专家水平的成果。

OpenAI各代模型在GDPval上的表现大致呈线性提升。

而根据下图所示,GPT-5在准确性方面(如严格遵循指令、完成正确计算)优势显著。

换句话说,GPT-5在纯文本任务上表现更优,但Claude在.pdf、.xlsx、.ppt等文件类型的处理上表现更佳,展现出更强的视觉感知与美观设计能力。

在GDPval优质子集的全部任务中,有略多于50%的任务里,至少有一个模型的输出成果优于人类专家或与人类专家相当。

OpenAI还指出,将AI模型与人类监督结合,在完成任务时有望比单独人类专家更经济高效。

无论是“先让模型试做,不满意再自己改”的模式,还是“直接用模型成果”“只让模型试一次就自己做”等模式,都能帮人类节省成本和时间。

此外,研究发现增加推理努力(如对o3、GPT-5设置不同推理强度)、提供更多任务背景、优化提示词与智能体辅助框架(如通过在容器中支持GET请求,采用“N=4”的“最优N选1”抽样策略,搭配GPT-5作为判断模型)能显著提升模型性能。

OpenAI也指出了GDPval的局限性,如数据集规模有限(仅44种职业)、聚焦可在计算机上完成的知识工作(不包含体力劳动等)、任务为精准指定的一次性任务(缺乏交互性)、自动评分器存在不足、评估成本高等。

目前,GDPval尚处于初步阶段,OpenAI计划在未来的迭代版本中,逐步拓展其覆盖范围、增强真实性与交互性,并纳入更多场景细节。

By the way,不光OpenAI觉得Claude好,曾经的亲密盟友微软最近传来消息:携手Anthropic优化Microsoft 365 Copilot AI助手(doge)。


[1]https://x.com/OpenAI/status/1971249374077518226
[2]https://evals.openai.com/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2-0领先遭大逆转!科内输得不冤,朱婷尽力了,问题全在这

2-0领先遭大逆转!科内输得不冤,朱婷尽力了,问题全在这

金毛爱女排
2026-05-14 00:00:20
流量喧嚣下,莫忘真正价值所在

流量喧嚣下,莫忘真正价值所在

烽火瞭望者
2026-05-13 08:55:09
彻底撕破脸!卡塞米罗公开怒怼卡拉格,争议口水战彻底爆发

彻底撕破脸!卡塞米罗公开怒怼卡拉格,争议口水战彻底爆发

夜白侃球
2026-05-13 10:03:45
“1035元4只皮皮虾”事件最新进展:涉事出租车司机徐某已被开除;当事顾客称被网暴

“1035元4只皮皮虾”事件最新进展:涉事出租车司机徐某已被开除;当事顾客称被网暴

极目新闻
2026-05-13 13:15:20
还是那么漂亮,谁还记得她?

还是那么漂亮,谁还记得她?

东方不败然多多
2026-05-14 00:58:14
不断挑拨离间!小玥儿忍无可忍,一个动作揭开了与马筱梅的关系

不断挑拨离间!小玥儿忍无可忍,一个动作揭开了与马筱梅的关系

子芫伴你成长
2026-05-13 23:23:20
突发!灰熊前锋克拉克去世,年仅29岁

突发!灰熊前锋克拉克去世,年仅29岁

体坛周报
2026-05-13 06:33:13
“杀他全家也不解恨”,讨薪1560元20次遭拒,农民工怒杀老板全家

“杀他全家也不解恨”,讨薪1560元20次遭拒,农民工怒杀老板全家

易玄
2026-05-12 18:58:46
沈腾陪妻儿在江苏度假,王琦复胖目测有200斤,8岁儿子也壮了不少

沈腾陪妻儿在江苏度假,王琦复胖目测有200斤,8岁儿子也壮了不少

素衣读史
2026-05-13 15:53:12
好牛逼的状元!29岁带队进西决,30岁带队进东决,31岁带队进东决

好牛逼的状元!29岁带队进西决,30岁带队进东决,31岁带队进东决

球毛鬼胎
2026-05-12 11:24:51
别只盯特朗普专机,鲁比奥还是来了,释放比访问更重要的信号

别只盯特朗普专机,鲁比奥还是来了,释放比访问更重要的信号

兰妮搞笑分享
2026-05-13 09:06:32
性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

医学原创故事会
2026-05-12 15:34:03
干了20年殡葬,我希望所有家属拿到骨灰后,不要把亲人塞进后备箱

干了20年殡葬,我希望所有家属拿到骨灰后,不要把亲人塞进后备箱

千秋文化
2026-05-12 20:21:18
轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

橘子约定
2026-05-13 21:23:01
被姚明抱着上奥运的抗震小英雄,曾发誓考上清华,18年后成了这样

被姚明抱着上奥运的抗震小英雄,曾发誓考上清华,18年后成了这样

云舟史策
2026-05-13 07:17:23
研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

研究表明:性生活次数不达标,不管男女容易早衰且癌症风险增高!

黯泉
2026-05-03 20:25:37
事态失控!女星白鹿突然掉20万粉,评论区炸锅网友为李晨鸣不平

事态失控!女星白鹿突然掉20万粉,评论区炸锅网友为李晨鸣不平

胡一舸南游y
2026-05-13 13:54:27
1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

文史达观
2026-05-13 11:29:24
医生呼吁:70岁以上老人,宁可吃热乎馒头喝稀粥,也别碰这些!

医生呼吁:70岁以上老人,宁可吃热乎馒头喝稀粥,也别碰这些!

芹姐说生活
2026-05-13 19:15:32
CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

戗词夺理
2026-05-13 18:07:23
2026-05-14 01:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12621文章数 176462关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

时尚
家居
亲子
游戏
公开课

专栏 | 进入心流后,不被洪流裹挟

家居要闻

内在自叙,无域有方

亲子要闻

去最需要的地方!安慧霞远赴高原幼教帮扶:夜晚吸氧白天授课

LOL迎来史诗级改动,GEN被削废T1获利!GEN老板:为谁改的版本?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版