网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI 3万亿美元测试，AI首战44个行业人类专家！

2025-09-26 13:11:08　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】AI下半场，AGI已成过去式，ASI正引领新智能革命！OpenAI推出的GDPval评估体系，通过真实工作任务审视大模型潜力，揭示AI如何从实验室走向3万亿经济战场，助力人类从日常琐事中解放，拥抱创造性未来。

AI下半场真来了！

AGI都过时了，现在AI业内讨论的是：

AGI能把人类从80%的日常工作中解放出来；

而ASI则全面超越人类智能的系统。

刚刚，在a16z访谈中，OpenAI首席科学家Jakub Pachocki，透露OpenAI的研究路线图的下一步是推理，下一个5年的重点目标是打造自动化研究人员：

AI自动发现新想法，自动化研究人员的工作，自动化机器学习研究。

但理解AI潜力最清晰的方式，并不是预测未来，而是看看模型现在已经能做什么。

历史经验告诉我们，从互联网到智能手机，每一项重大技术从诞生到普及都需要十年以上。

OpenAI希望以更透明的方式，展示大模型如何真正服务于现实世界。

因此，他们推出了一项全新的评估体系GDPval，在有据可依的基础上审视AI进步轨迹，而不是凭空臆测。

论文地址：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

数据集：https://huggingface.co/datasets/openai/gdpval

在GDPval 上，专家评审员将顶尖模型的输出与人类专家的工作进行了比较。

哈佛大学教授、名誉校长Lawrence H. Summers——同时任OpenAI的董事会成员，认为新研究令人兴奋：

在多项实际任务上，即使只有有限的指导，AI的表现与人类相当甚至更好;

人类与人·工智能结合，可以更高效;

AI具有令人惊讶的能力，可用来评估并随后改进其性能。

OpenAI坦承：Claude Opus 4.1表现最佳，在接近一半的任务上与专家工作相当或更好，明显优于GPT-5。

但OpenAI的进步速度引人注目：在一年内，GPT系列模型胜率几乎翻了一番。

GDPVal

衡量AI的3万亿美元影响

过去，大模型评估往往集中在学术测试或编程挑战上。

这些评估虽然在推动模型推理能力方面起到了重要作用，但与现实工作场景仍有一定距离。

为了填补这道鸿沟，OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——

从传统的MMLU（涵盖多学科的考试型题目），

到更具实战意味的SWE-Bench（软件工程Bug修复任务）、MLE-Bench（机器学习工程任务，如模型训练与分析）、Paper-Bench（科研论文的逻辑推理与评议），

再到基于市场项目的SWE-Lancer（源于真实交易的自由职业软件开发任务）。

GDPval正是在这一演进路径上的下一个关键节点。

这项评估直接来源于现实工作中的任务，覆盖了9大行业、44种职业、每年共计3万亿美元经济价值。

整个任务集共包含1,320个高度专业化任务（其中220为金标任务子集，已开源）。

这些任务源于真实工作产出，比如法律意见书、工程图纸、客服对话记录或护理计划等。

每一项任务都需通过多轮严格审核流程，确保其具备三点，即：高度贴近实际工作场景；可由同领域的专业人士独立完成；具备明确的评估标准。

每项任务平均经历5轮专家评审，评审团队包括其他任务撰写者、独立职业评审专家，并辅以模型可行性与清晰度校验。

GDPval的独特之处在于，不仅任务内容贴近现实、形式多样，还具备极高的专业性和代表性。

与传统评估相比，GDPval并非简单的文本提示任务。它要求模型处理完整的参考材料与工作背景，输出形式也不仅限于文字，还包括文档、PPT、图表、电子表格，甚至多媒体内容。

当然，GDPval目前还只是一个起点，尚未完全覆盖现实知识工作中任务的复杂性。

它帮助我们清晰地认识到，大模型不仅仅能在实验室中解题，更可能在千千万万人的日常工作中，扮演可靠的辅助角色。

请再读一遍：AI不再只是「通过考试」，而是开始接受文明体系本身的考核标准：GDP。

独立研究员Shanaka Anslem Perera表示：

这不仅仅是一套评估体系，更像是某种经济生命体的诞生。

GDPval，是「后人类经济时代」的第一套会计体系。

今天，它是一个「基准」；明天，它将成为新物种的记分牌。

当AI的产出开始计入GDP，它就不再是工具，而是超越「土地、劳动与资本」的第四种生产要素

半数任务

AI已逼近专业水平

早期测试结果显示，当前领先的大模型在某些任务上，表现已接近甚至媲美行业专家。

在220项金标任务中，行业专家盲测了多款主流模型：

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

结果显示：

Claude Opus 4.1在美学表现方面表现最强（如文档排版、PPT布局等）；
GPT-5则在准确性方面领先，尤其擅长定位专业知识点。

当前最先进的大模型，输出质量已接近业内专家水平。其中，Claude Opus 4.1表现尤为突出——

在接近一半的任务中，其产出被评为「与人类一样好」甚至「优于人类」。

从GPT-4o（2024年春发布）到GPT-5（2025年夏发布），模型在GDPval任务上的平均表现几乎翻倍，呈现出明显的线性进步趋势。

OpenAI还发现，顶尖模型完成GDPval任务的速度和成本，平均是人类的1%——约快100倍、便宜100倍。

不过，这一数据仅统计了模型推理时间与API调用成本，并未包含人类监督、迭代修改与实际集成等现实工作流程所需的资源投入。

尽管如此，在模型表现尤为出色的任务类型上，先用AI试一轮，再交由人类介入，可能成为节省时间与成本的理想策略。

如何优化模型以提升GDPval表现

为了验证是否可以提升GPT-5在GDPval任务中的表现，OpenAI增量训练了实验性的内部特定版GPT-5。

结果证实，经过该训练流程后，模型性能确实得到了实质性提升，展现了进一步优化的潜力。

下图的多项受控实验结果，进一步印证了这一点：扩大模型规模、引导模型进行更多推理步骤、提供更丰富的任务背景信息，都会带来可衡量的性能增益。

OpenAI设计了一条通用提示词，要求模型在提交结果前进行严谨的自检，可适用于各类多模态经济类任务，并未针对具体问题进行过拟合。

最豪评分员

顶尖机构的14年行业专家

在GDPval任务中，为了评估模型的实际表现，OpenAI依赖资深从业者作为「评分员」。

专家入选标准包括：至少4年行业从业经验，且简历中需体现专业认可度、晋升轨迹及管理职责。参与本项目的专家平均拥有14年从业经验。

行业专家团队曾任职于以下代表性机构：

Meta、微软、摩根士丹利、谷歌、甲骨文、苹果、通用电气、高盛、HBO、IBM、摩根大通、领英、洛克希德·马丁、美国银行、巴克莱银行、波音、美国疾控中心、花旗集团、美国国防部、美国联邦贸易委员会、美国国家公园管理局、NFL网络、雷神、Sally Beauty、《科学美国人》、苏富比、英国电讯报集团、赛默飞世尔、《时代》杂志、美国司法部、美国空军、美国邮政总局……

这些评分员来自与任务相同的职业背景，并在不知晓「人类 vs AI」身份的前提下，盲评由模型与人类任务撰写者完成的任务成果。

他们不仅会给出评价，还会对比排名，最终判断每个AI生成结果是「优于」、「相当于」或「劣于」人类结果。

为了确保评分过程透明一致，每位任务撰写者还为其职业领域制定了详细评分标准（rubric），涵盖各类评价维度。

OpenAI还开发了「自动评分器」——一个用于预测人类专家偏好的AI系统，模仿行业专家的对比评估方式。

自动评估工具比专家评估更快、成本更低，且与人类专家评估的一致性达到66%，仅比人类评估者之间71%的一致性低5%。

由于其局限性，OpenAI没有使用自动评分器取代人类打分员。

AI与工作的未来图景

随着AI能力不断提升，劳动力市场势必将发生结构性变化。

GDPval的早期结果已经表明，大模型在处理那些重复性强、结构清晰的任务时，效率远超人类专家，不仅更快也更便宜。

但也要看到，大多数工作不仅仅是可拆解的任务清单。

GDPval的意义在于：它揭示了AI可以承接哪些日常性事务型任务，从而为人类腾出时间专注更具创造力、判断力的复杂工作。

当AI能够以这种方式补充而非替代人类时，将为经济增长释放巨大潜力。

OpenAI希望借助GDPval与相关工具，推动AI工具的普及平民化，支持劳动者顺利适应时代变革，并打造能鼓励广泛参与与共享成果的激励机制。

同时，OpenAI也开放了GDPval金标任务子集以及一个公共评分平台，希望能为更多研究者提供基础设施，持续推动该方向的发展。

愿每个人都能搭上AI时代的「上行电梯」。

参考资料：

https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

https://openai.com/index/gdpval/

https://x.com/OpenAI/status/1971249382889750803

https://x.com/a16z/status/1971304302569546237

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

「机器学习之父」Jordan：Hinton等思想领袖们正在伤害年轻一代

机器之心Pro 2026-06-22 09:46:00
0 跟贴 0
133家联名挺开源，独缺Anthropic！达里奥：从没想过禁开源

新智元 2026-07-28 15:56:18
0 跟贴 0

阿里达摩院开源具身大脑基础模型

机器之心Pro 2026-02-11 18:09:11
0 跟贴 0

AI助力多组学与机器学习联合分析（机器学习分析代谢组、蛋白组、宏基因组、网络药理学、转录组）

医咖会 2026-03-05 19:27:22
0 跟贴 0
宇泛智能的赛博“灵猫”跳出720°后空翻

量子位 2026-07-26 04:41:58
0 跟贴 0

擎朗又一人形机器人上岗，X-man化身酒店脏衣送洗小哥，全球首次人形机器人进酒店洗衣房

量子位 2026-07-26 04:41:09
0 跟贴 0

国家数据局：鼓励基于词元应用的商业模式创新，探索词元交易等新型交易模式

每日经济新闻 2026-07-28 13:54:26
0 跟贴 0
地瓜机器人开源X-Lens：4000万参数，实时输出真实尺度深度

雷科技 2026-07-28 17:32:29
0 跟贴 0

亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
动易科技PhyAgents双足人形自主对打羽毛球，无遥控，实时决策击球落点

量子位 2026-07-26 04:39:09
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
AI如何从聊天问答工具转向可追溯、可决策的真实医疗系统

量子位 2026-05-21 08:04:06
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
我的AI甜品店合伙人，月薪88元，兼任策划、设计和程序员

智东西 2026-07-28 17:49:25
0 跟贴 0
汽车轮胎扎钉子测试，拔出瞬间定输赢，这才叫轮胎！

搞笑小旋风 2026-07-28 10:32:26
1 跟贴 1
不同价位的遥控模型车，马力没对比就没伤害，压轴的都是王者！

欢乐搞笑站 2026-07-25 11:02:04
4 跟贴 4
《科学美国人》编辑们的夏日私藏书单：从环保恐怖到科学诗歌

码上闲叙 2026-07-27 19:49:15
0 跟贴 0
跨越50年，《银翼杀手2099》首支预告炸裂来袭：复制人反超人类，2026年11月25日开播

追星雷达站 2026-07-25 01:40:12
0 跟贴 0
雍正夺嫡成功想除掉邬思道，老邬凭借半隐策略躲过一劫

若一说剧 2026-07-24 17:57:23
9 跟贴 9
AI+工业到底怎么落地？移动天工给出了新解法

地球村讲解员 2026-07-26 18:19:53
0 跟贴 0
女子军魂：鬼子想杀人灭口，以为技术超强，下秒女特工一枪引爆

脑洞编剧小剧场 2026-07-27 18:50:21
0 跟贴 0
AI 自主破解数学猜想，离哥德巴赫猜想还有多远？

甲子光年 2026-07-24 21:01:29
0 跟贴 0
俄组建建筑工程部队　武装力量总人数增至242万余

新华社 2026-07-28 06:36:09
12614 跟贴 12614
小棋手专注对弈，智慧与策略的碰撞！

秘密大爆炸 2026-07-25 09:20:21
1 跟贴 1
美反华机构：以后我们每年都要去中国

澎湃新闻 2026-07-28 14:48:08
2128 跟贴 2128
机器人格斗赛硬碰硬太炸裂了!头掉了还在战斗!

财经网科技 2026-07-26 16:46:59
0 跟贴 0
最新进展！耿同学质疑上海交大仇某论文造假！因基因编辑致6岁女童死亡，遭Science质疑，患者症状轻微，是否有编辑必要？卫健委已介入调查

梅斯医学 2026-07-28 07:56:46
337 跟贴 337
Ilya获黄仁勋50亿美元押注：“是时候Scaling了”

量子位 2026-07-28 13:49:17
0 跟贴 0
692分双胞胎姐妹各赴山海：一个披戎装，一个铸重器

极目新闻 2026-07-28 12:56:51
34 跟贴 34
物理智能在WAIC“开悟”了,大晓机器人已悄悄上岗

量子位 2026-07-26 04:41:28
0 跟贴 0
巴塞罗那青训体系的人才储备简直离谱，这些孩子至多12岁！

长安一片月 2026-07-28 00:04:53
146 跟贴 146
王虹报告现场座无虚席导师满脸笑意扒窗聆听

潇湘晨报 2026-07-28 01:23:14
1611 跟贴 1611
美国科研资助体系迎来大转向：单个学者将取代大学成为资助重心

生物学霸 2026-07-28 17:36:00
0 跟贴 0
王兴兴登上《时代》封面谈及病毒式走红的“另一面”：硬核科技的突破需要时间

每日经济新闻 2026-07-26 04:19:15
0 跟贴 0

台风“白海豚”位于西北太平洋洋面上强度将逐渐增强

台风“白海豚”位于西北太平洋洋面上强度将逐渐增强

北青网-北京青年报

2026-07-28 11:46:02

原来他们是父子，《兵自风中来》他是星二代，演技浮夸观众反感

原来他们是父子，《兵自风中来》他是星二代，演技浮夸观众反感

娱君坠星河

2026-07-28 17:35:07

东莞一知名中学年检不合格！

东莞好生活

2026-07-28 16:30:35

周星驰电影不好笑，从启用内地演员开始

周星驰电影不好笑，从启用内地演员开始

牛角说

2026-07-18 22:01:21

不怕解放军武统，就怕解放军锁台？美媒：赖清德和特朗普都太天真

不怕解放军武统，就怕解放军锁台？美媒：赖清德和特朗普都太天真

梦史

2026-07-28 17:49:49

王虹还是别回来的好

维舟

2026-07-26 21:33:45

地铁安检到底在防谁？国外多年没有照样过，国内为何层层设防？

地铁安检到底在防谁？国外多年没有照样过，国内为何层层设防？

抽象派大师

2026-07-20 02:07:32

印媒：因为青藏高原的存在，印度空军享有对中国空军的显著优势

印媒：因为青藏高原的存在，印度空军享有对中国空军的显著优势

春若秋水

2026-07-28 09:07:32

李嘉诚：当儿女不尊重你时，不要讲道理，不要发脾气，记住两句话就够了

李嘉诚：当儿女不尊重你时，不要讲道理，不要发脾气，记住两句话就够了

心理观察局

2026-07-25 06:21:07

大三破解西塔潘猜想，22岁就成为正教授级研究员，刘路后来怎样了

大三破解西塔潘猜想，22岁就成为正教授级研究员，刘路后来怎样了

林子说事

2026-07-28 00:14:46

7月28日，万众期待的2026年退休人员养老金不涨了吗？原因太现实

7月28日，万众期待的2026年退休人员养老金不涨了吗？原因太现实

社保小达人

2026-07-28 11:13:58

局长岳父嫌我没出息逼我离婚，七年后省厅重逢，岳父当场愣住

局长岳父嫌我没出息逼我离婚，七年后省厅重逢，岳父当场愣住

千秋文化

2026-07-27 19:56:11

涉案金额过亿刘应成（原法名释永信）一审被判有期徒刑24年

涉案金额过亿刘应成（原法名释永信）一审被判有期徒刑24年

每日经济新闻

2026-05-30 00:42:59

普京再向东方借兵，这次出兵数量十分惊人，俄朝联盟要动真格？

普京再向东方借兵，这次出兵数量十分惊人，俄朝联盟要动真格？

万物知识圈

2026-07-26 22:00:06

乌克兰总统泽连斯基抵达美国

环球网资讯

2026-07-28 14:16:23

良子敢死，所以能活

求实处

2026-07-26 17:10:46

网红“痞幼” 发布飙车视频，副驾未系安全带被指违规，“痞幼”回应：封路拍摄

网红“痞幼” 发布飙车视频，副驾未系安全带被指违规，“痞幼”回应：封路拍摄

大象新闻

2026-07-27 13:51:05

高中生扶大妈遭讹15万,12年后大妈孙子考上清大,他在门口跪地求饶

高中生扶大妈遭讹15万,12年后大妈孙子考上清大,他在门口跪地求饶

罪案洞察者

2025-09-12 13:55:25

彻查！信号强烈！中央升级反腐“天网”！

彻查！信号强烈！中央升级反腐“天网”！

细说职场

2026-07-28 13:09:22

大陆若逮捕赖清德咋办？特朗普：中国的事中国定，但会卖我个面子

大陆若逮捕赖清德咋办？特朗普：中国的事中国定，但会卖我个面子

观星赏月

2026-07-28 06:15:38

AI产业主平台领航智能+时代

15809文章数 66973关注度

往期回顾全部

科技要闻

Kimi K3开放权重，想本地部署，200万元起

头条要闻

美伊这轮停火能撑多久伊朗驻华大使把话挑明了

头条要闻

美伊这轮停火能撑多久伊朗驻华大使把话挑明了

体育要闻

35岁德甲球星，退役半年后成了一名农民

娱乐要闻

43岁演员王凯去世！独居公寓无人知晓

财经要闻

潘老板的算盘全砸了，欠的25亿跑不了了

汽车要闻

宾利托卡尔重塑百年菱形美学，将于9月全球首秀

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

手机

教育

公开课

军事航空

亲子要闻

宝蓝和家人的三色颜料比赛。蒙眼选颜料，看谁做的彩泥更漂亮

手机要闻

Valve VR头显要涨价！高通芯片成本上涨

教育要闻

2026高考作文出炉：你以为考的是语文，其实考的是社会的毒打

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普：若谈判破裂将强力打击伊朗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版