网易首页 > 网易号 > 正文 申请入驻

OpenAI 3万亿美元测试,AI首战44个行业人类专家!

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】AI下半场,AGI已成过去式,ASI正引领新智能革命!OpenAI推出的GDPval评估体系,通过真实工作任务审视大模型潜力,揭示AI如何从实验室走向3万亿经济战场,助力人类从日常琐事中解放,拥抱创造性未来。

AI下半场真来了!

AGI都过时了,现在AI业内讨论的是:

AGI能把人类从80%的日常工作中解放出来;

而ASI则全面超越人类智能的系统。

刚刚,在a16z访谈中,OpenAI首席科学家Jakub Pachocki,透露OpenAI的研究路线图的下一步是推理,下一个5年的重点目标是打造自动化研究人员

AI自动发现新想法,自动化研究人员的工作,自动化机器学习研究。

但理解AI潜力最清晰的方式,并不是预测未来,而是看看模型现在已经能做什么

历史经验告诉我们,从互联网到智能手机,每一项重大技术从诞生到普及都需要十年以上。

OpenAI希望以更透明的方式,展示大模型如何真正服务于现实世界。

因此,他们推出了一项全新的评估体系GDPval,在有据可依的基础上审视AI进步轨迹,而不是凭空臆测。

论文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

数据集:https://huggingface.co/datasets/openai/gdpval

在GDPval 上,专家评审员将顶尖模型的输出与人类专家的工作进行了比较。

哈佛大学教授、名誉校长Lawrence H. Summers——同时任OpenAI的董事会成员,认为新研究令人兴奋:

在多项实际任务上,即使只有有限的指导,AI的表现与人类相当甚至更好;

人类与人·工智能结合,可以更高效;

AI具有令人惊讶的能力,可用来评估并随后改进其性能。

OpenAI坦承:Claude Opus 4.1表现最佳,在接近一半的任务上与专家工作相当或更好,明显优于GPT-5。

但OpenAI的进步速度引人注目:在一年内,GPT系列模型胜率几乎翻了一番。

GDPVal

衡量AI的3万亿美元影响

过去,大模型评估往往集中在学术测试或编程挑战上。

这些评估虽然在推动模型推理能力方面起到了重要作用,但与现实工作场景仍有一定距离。

为了填补这道鸿沟,OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——

从传统的MMLU(涵盖多学科的考试型题目),

到更具实战意味的SWE-Bench(软件工程Bug修复任务)、MLE-Bench(机器学习工程任务,如模型训练与分析)、Paper-Bench(科研论文的逻辑推理与评议),

再到基于市场项目的SWE-Lancer(源于真实交易的自由职业软件开发任务)。

GDPval正是在这一演进路径上的下一个关键节点。

这项评估直接来源于现实工作中的任务,覆盖了9大行业、44种职业、每年共计3万亿美元经济价值

整个任务集共包含1,320个高度专业化任务(其中220为金标任务子集,已开源)。

这些任务源于真实工作产出,比如法律意见书、工程图纸、客服对话记录或护理计划等。

每一项任务都需通过多轮严格审核流程,确保其具备三点,即:高度贴近实际工作场景可由同领域的专业人士独立完成具备明确的评估标准

每项任务平均经历5轮专家评审,评审团队包括其他任务撰写者、独立职业评审专家,并辅以模型可行性与清晰度校验。

GDPval的独特之处在于,不仅任务内容贴近现实、形式多,还具备极高的专业性和代表性

与传统评估相比,GDPval并非简单的文本提示任务。它要求模型处理完整的参考材料与工作背景,输出形式也不仅限于文字,还包括文档、PPT、图表、电子表格,甚至多媒体内容。

当然,GDPval目前还只是一个起点,尚未完全覆盖现实知识工作中任务的复杂性。

它帮助我们清晰地认识到,大模型不仅仅能在实验室中解题,更可能在千千万万人的日常工作中,扮演可靠的辅助角色。

请再读一遍:AI不再只是「通过考试」,而是开始接受文明体系本身的考核标准:GDP。

独立研究员Shanaka Anslem Perera表示:

这不仅仅是一套评估体系,更像是某种经济生命体的诞生 。

GDPval,是「后人类经济时代」的第一套会计体系。

今天,它是一个「基准」;明天,它将成为新物种的记分牌

当AI的产出开始计入GDP,它就不再是工具,而是超越「土地、劳动与资本」的第四种生产要素

半数任务

AI已逼近专业水平

早期测试结果显示,当前领先的大模型在某些任务上,表现已接近甚至媲美行业专家。

在220项金标任务中,行业专家盲测了多款主流模型

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

结果显示:

  • Claude Opus 4.1美学表现方面表现最强(如文档排版、PPT布局等);

  • GPT-5则在准确性方面领先,尤其擅长定位专业知识点。

当前最先进的大模型,输出质量已接近业内专家水平。其中,Claude Opus 4.1表现尤为突出——

在接近一半的任务中,其产出被评为「与人类一样好」甚至「优于人类」。

从GPT-4o(2024年春发布)到GPT-5(2025年夏发布),模型在GDPval任务上的平均表现几乎翻倍,呈现出明显的线性进步趋势

OpenAI还发现,顶尖模型完成GDPval任务的速度和成本,平均是人类的1%——约快100倍、便宜100倍

不过,这一数据仅统计了模型推理时间与API调用成本,并未包含人类监督、迭代修改与实际集成等现实工作流程所需的资源投入

尽管如此,在模型表现尤为出色的任务类型上,先用AI试一轮,再交由人类介入,可能成为节省时间与成本的理想策略。

如何优化模型以提升GDPval表现

为了验证是否可以提升GPT-5在GDPval任务中的表现,OpenAI增量训练了实验性的内部特定版GPT-5

结果证实,经过该训练流程后,模型性能确实得到了实质性提升,展现了进一步优化的潜力。

下图的多项受控实验结果,进一步印证了这一点:扩大模型规模引导模型进行更多推理步骤提供更丰富的任务背景信息,都会带来可衡量的性能增益

OpenAI设计了一条通用提示词,要求模型在提交结果前进行严谨的自检,可适用于各类多模态经济类任务,并未针对具体问题进行过拟合

最豪评分员

顶尖机构的14年行业专家

在GDPval任务中,为了评估模型的实际表现,OpenAI依赖资深从业者作为「评分员」。

专家入选标准包括:至少4年行业从业经验,且简历中需体现专业认可度、晋升轨迹及管理职责。参与本项目的专家平均拥有14年从业经验。

行业专家团队曾任职于以下代表性机构:

Meta、微软、摩根士丹利、谷歌、甲骨文、苹果、通用电气、高盛、HBO、IBM、摩根大通、领英、洛克希德·马丁、美国银行、巴克莱银行、波音、美国疾控中心、花旗集团、美国国防部、美国联邦贸易委员会、美国国家公园管理局、NFL网络、雷神、Sally Beauty、《科学美国人》、苏富比、英国电讯报集团、赛默飞世尔、《时代》杂志、美国司法部、美国空军、美国邮政总局……

这些评分员来自与任务相同的职业背景,并在不知晓「人类 vs AI」身份的前提下,盲评由模型与人类任务撰写者完成的任务成果。

他们不仅会给出评价,还会对比排名,最终判断每个AI生成结果是「优于」、「相当于」或「劣于」人类结果。

为了确保评分过程透明一致,每位任务撰写者还为其职业领域制定了详细评分标准(rubric),涵盖各类评价维度。

OpenAI还开发了「自动评分器」——一个用于预测人类专家偏好的AI系统,模仿行业专家的对比评估方式。

自动评估工具比专家评估更快、成本更低,且与人类专家评估的一致性达到66%,仅比人类评估者之间71%的一致性低5%。

由于其局限性,OpenAI没有使用自动评分器取代人类打分员。

AI与工作的未来图景

随着AI能力不断提升,劳动力市场势必将发生结构性变化

GDPval的早期结果已经表明,大模型在处理那些重复性强、结构清晰的任务时,效率远超人类专家,不仅更快也更便宜。

但也要看到,大多数工作不仅仅是可拆解的任务清单

GDPval的意义在于:它揭示了AI可以承接哪些日常性事务型任务,从而为人类腾出时间专注更具创造力、判断力的复杂工作

当AI能够以这种方式补充而非替代人类时,将为经济增长释放巨大潜力。

OpenAI希望借助GDPval与相关工具,推动AI工具的普及平民化,支持劳动者顺利适应时代变革,并打造能鼓励广泛参与与共享成果的激励机制。

同时,OpenAI也开放了GDPval金标任务子集以及一个公共评分平台,希望能为更多研究者提供基础设施,持续推动该方向的发展。

愿每个人都能搭上AI时代的「上行电梯」。

参考资料:

https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

https://openai.com/index/gdpval/

https://x.com/OpenAI/status/1971249382889750803

https://x.com/a16z/status/1971304302569546237

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
内塔尼亚胡妻子诉苦:就因为是总理的孩子,我家孩子遭受了打骂,谴责任何形式的针对儿童的人身攻击

内塔尼亚胡妻子诉苦:就因为是总理的孩子,我家孩子遭受了打骂,谴责任何形式的针对儿童的人身攻击

大象新闻
2026-03-26 12:49:07
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

古希腊掌管松饼的神
2026-03-24 22:00:07
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

侃球熊弟
2026-03-26 21:09:11
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
柯文哲一审被判处有期徒刑17年 国台办回应

柯文哲一审被判处有期徒刑17年 国台办回应

新京报
2026-03-26 21:39:20
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

阿七说史
2026-03-09 16:01:03
没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

林轻吟
2026-03-26 07:22:50
三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

盛夏微凉
2026-03-24 18:10:08
乌克兰打出400:1恐怖战绩,俄罗斯列宁格勒港口基本被打瘫痪

乌克兰打出400:1恐怖战绩,俄罗斯列宁格勒港口基本被打瘫痪

史政先锋
2026-03-26 16:17:12
梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

墨印斋
2026-03-25 06:25:05
标普500指数和道琼斯指数迅速收窄跌幅。道琼斯指数跌0.03%

标普500指数和道琼斯指数迅速收窄跌幅。道琼斯指数跌0.03%

每日经济新闻
2026-03-26 22:16:04
华山医院候诊屏现“照顾号”引热议,院方:为75岁以上老人等优待群体提供便利

华山医院候诊屏现“照顾号”引热议,院方:为75岁以上老人等优待群体提供便利

上游新闻
2026-03-26 15:33:08
为啥没第二人称射击游戏,因为玩过的人都疯了

为啥没第二人称射击游戏,因为玩过的人都疯了

街机时代
2026-03-25 16:55:54
人体缺什么维生素会长白头发呢?怎么防止白发出现?看完就明白了

人体缺什么维生素会长白头发呢?怎么防止白发出现?看完就明白了

健康之光
2026-03-22 22:35:08
2026-03-27 00:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
游戏
手机
艺术
亲子

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

艺术要闻

哪一座桥不是风景?

亲子要闻

看看把孩子吓得哈哈哈

无障碍浏览 进入关怀版