网易首页 > 网易号 > 正文 申请入驻

OpenAI研究大模型对GDP贡献,三大行业代替人类,自曝不敌Claude

0
分享至




机器之心报道

编辑:泽南、杨文

AI 的颠覆近在眼前,奥特曼不是乱说的。

时至今日,我们已见过太多大模型的评估方法。

比如涵盖了数十个学科的考试式问题的学术基准 MMLU,还有 SWE-Bench (软件工程错误修复任务)、 MLE-Bench (机器学习工程任务,例如模型训练和分析)和 Paper-Bench (对研究论文的科学推理和评论)这类更具应用性的评估,以及基于市场的评估 SWE-Lancer。

最近,OpenAI 又推出了一种名为GDPval 的新评估方法,用来跟踪模型在具有经济价值的现实世界任务上的表现。



  • 论文:GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks
  • 论文链接:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

之所以将其命名为 GDPval,是因为它以国内生产总值 (GDP) 作为关键经济指标,并从对 GDP 贡献最大的行业中的关键职业中提取任务。

评估结果显示,当今最优秀的前沿模型已接近行业专家的工作质量。OpenAI 进行了盲测,行业专家将几个领先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果与人工成果进行了比较。

在 GDPval 黄金数据集的 220 项任务中,他们记录了哪些模型的输出优于或与行业专家的成果相当。



在不同生产部门的作用上,可以看到AI 在政府部门、零售和批发上的能力是已经达到或超越人类水平的



有趣的是,在 GDPval 上,OpenAI 大方地承认了 Claude 的领先地位:Claude Opus 4.1 是该数据集中表现最佳的模型,尤其在美观性(例如文档格式、幻灯片布局)方面表现出色,该模型在 49% 的任务中被评为优于或与行业专家相当。另一方面,GPT-5 则在准确性(例如查找特定领域知识)方面更为出色。

不过 OpenAI 又说了,Claude 得分如此之高,是因为它倾向于制作令人愉悦的图形,而非纯粹的性能。

此外,这些任务随着时间的推移取得了显著的进步。从 2024 年春季发布的 GPT-4o 到 2025 年夏季发布的 GPT-5,性能提高了一倍多,呈现出明显的线性趋势。



从 GPT-4o 到 GPT-5,GDPval 任务的性能在一年内提升了两倍多。

前沿模型完成 GDPval 任务的速度比行业专家大约快 100 倍,成本也低 100 倍。虽然这些数据只考虑了模型的推理时间和 API 费用,但在模型特别擅长的任务上,先使用 AI 完成任务再交由人类测试,能够显著节省时间和成本。

有了测评基准,自然就可以想如何提高成绩,OpenAI 逐步训练了 GPT-5 的内部实验版本,以评估能否提升 GDPval 任务的性能。可见,这一过程提升了性能,并为进一步的潜在改进开辟了道路。其他对照实验也证实了这一点:增加模型规模、鼓励更多推理步骤以及提供更丰富的任务上下文,这些都带来了可衡量的收益。

OpenAI 还发布了 GDPval 任务的黄金子集和公共评分服务,以便其他研究人员在此基础上继续研究。

这些职业如何被选出来的?

GDPval 是该评估的首个版本,涵盖了从对美国 GDP 贡献最大的 9 个行业中甄选出的 44 个职业,如软件开发人员、律师、注册护士和机械工程师等。这些职业因其经济重要性而被选中,代表了人工智能可以在日常工作中有意义地辅助专业人士的工作类型。



GDPval 全套评估包含 1320 项专业任务(黄金开源评估包含 220 项),每项任务均由经验丰富的专业人士精心设计并审核,这些专业人士平均拥有超过 14 年的相关领域从业经验。每项任务均基于真实的工作成果,例如法律摘要、工程蓝图、客户支持对话或护理计划。每个任务经过至少 5 轮审查,确保其真实、可行且清晰。

最终数据集包含每个职业 30 个完全审查的任务(完整集),以及 5 个任务的开源黄金集,为评估模型在实际知识工作中的表现提供基础。每个任务由专业人士设计,基于实际工作成果,专家的解决方案作为参考。



GDPval 的独特之处在于其现实性和评估任务的多样性。与其他专注于特定领域的经济价值评估(例如 SWE-Lancer)不同,GDPval 涵盖了众多任务和职业。同时与那些以学术考试或测试形式综合创建任务的基准测试(例如 Humanity's Last Exam 或 MMLU)不同,GDPval 关注的是基于可交付成果的任务,这些可交付成果可以是现有的实际工作或产品,也可以是类似构造的工作产品。

GDPval 任务并非简单的文本提示,它们附带参考文件和上下文,预期交付成果涵盖文档、幻灯片、图表、电子表格和多媒体,这种现实性使得 GDPval 能够更真实地测试模型如何支持专业人士。

如何评估模型性能?

OpenAI 通过专家评分员来评估模型的表现,这些评分员来自数据集中相应职业的专业人士。评分员在盲评下比较 AI 和人类的交付成果,并给出排名,判断 AI 成果是「更好」、「相当」还是「更差」。任务编写者还制定了详细的评分标准,确保评分一致性和透明度。

此外,OpenAI 还开发了一个「自动评分员」,可以快速预测人类专家的评价,作为辅助工具,但目前其可靠性尚不如专家评分员,因此并未替代专家评分。

随着 AI 能力的增强,它可能会改变就业市场。GDPval 的早期结果表明,模型已经能够比专家更快、更低成本地完成一些重复性、明确规定的任务。然而,大多数工作不仅仅是一堆可以记录下来的任务。GDPval 强调了人工智能可以处理日常任务的领域,以便人们可以将更多时间投入到创造性和判断性较强的工作中。

当人工智能以这种方式补充工人时,它可以转化为显著的经济增长。OpenAI 的目标是通过普及这些工具的使用权、支持工人应对变革以及建立奖励广泛贡献的制度,让每个人都能登上人工智能的「上升梯」。

最后,OpenAI 表示,GDPval 尚处于起步阶段。虽然它涵盖了 44 种职业和数百项任务,但仍在不断改进方法的过程中。OpenAI 计划继续扩展 GDPval,以涵盖更多职业、行业和任务类型,提高交互性,并添加更多涉及处理模糊性的任务,其长期目标是更好地衡量多元化知识工作的进展。

参考内容:

https://openai.com/index/gdpval/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

界面新闻
2026-03-25 15:50:08
水亦诗也没想到,她同父异母的弟弟妹妹,如今已经开始给父亲争光

水亦诗也没想到,她同父异母的弟弟妹妹,如今已经开始给父亲争光

云舟史策
2026-03-23 14:32:43
我57岁,退休后参加了3个老年团,发现不同圈子的不同“潜规则”

我57岁,退休后参加了3个老年团,发现不同圈子的不同“潜规则”

十指说情
2026-03-24 09:06:31
法国大区主席:法甲争冠战延期令人遗憾;朗斯捍卫的是体育公平

法国大区主席:法甲争冠战延期令人遗憾;朗斯捍卫的是体育公平

懂球帝
2026-03-26 23:02:22
土耳其老丈人来中国,被亲家一桌菜整破防:庆幸女儿嫁过来!

土耳其老丈人来中国,被亲家一桌菜整破防:庆幸女儿嫁过来!

晨光苏醒a
2026-03-27 03:23:20
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

极目新闻
2026-03-26 16:43:13
2026年3月25日摩托车补贴新消息:国补地补叠加,最高可省近万元

2026年3月25日摩托车补贴新消息:国补地补叠加,最高可省近万元

刘哥谈体育
2026-03-26 08:43:40
伊媒:伊朗若遭美国地面入侵将打击曼德海峡

伊媒:伊朗若遭美国地面入侵将打击曼德海峡

参考消息
2026-03-26 11:02:08
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

潮鹿逐梦
2026-03-26 11:53:28
4.66克变2.71克?女子用两件金饰换“一口价”项链后克重“缩水”严重;金店:可补折旧费换回足克

4.66克变2.71克?女子用两件金饰换“一口价”项链后克重“缩水”严重;金店:可补折旧费换回足克

大风新闻
2026-03-26 19:31:03
【2026.3.26】爆姐的饭后爆料:生命不止,爆料不息!

【2026.3.26】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-03-26 23:33:09
香港车市新王诞生:以9751辆战绩创新高,凭硬核实力改写市场格局

香港车市新王诞生:以9751辆战绩创新高,凭硬核实力改写市场格局

不凡智库官方
2026-03-15 19:03:06
安徽一女护士回娘家路上失踪,15年后给哥哥托梦:我在院子里

安徽一女护士回娘家路上失踪,15年后给哥哥托梦:我在院子里

清茶浅谈
2025-02-27 14:55:55
施海荣若下课,谁来执掌江苏女排?张常宁,沈富麟还是外教

施海荣若下课,谁来执掌江苏女排?张常宁,沈富麟还是外教

金毛爱女排
2026-03-27 00:00:04
中国大使馆迁新址,做墙体检查时,发现35枚“中国制造”的窃听器

中国大使馆迁新址,做墙体检查时,发现35枚“中国制造”的窃听器

华人星光
2025-10-08 11:27:35
陕西男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知酿成惨剧

陕西男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知酿成惨剧

红豆讲堂
2025-03-26 10:05:43
公安部172号令落地,70岁以上开车,记住“一测一体检”就够了

公安部172号令落地,70岁以上开车,记住“一测一体检”就够了

阿芒娱乐说
2026-03-25 10:25:03
油价一夜突变!3月25日全国油价调整后92/95汽油价格、0号柴油价格最新公布

油价一夜突变!3月25日全国油价调整后92/95汽油价格、0号柴油价格最新公布

沙雕小琳琳
2026-03-25 15:38:00
2026-03-27 04:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
数码
时尚
本地

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版