AI大模型也好,智能体也好,在各种测评榜上刷得不亦乐乎。对于跟踪模型进展,发现模型能力上限确实有用;不过衡量的是模型的抽象能力,而不是具有经济价值的产出。
从投资界、产业界到公众,对于人工智能的刷榜和演示能力固然感到惊艳,但他们关注的重心,正在从“核弹级的炸裂”,转移到真正的拷问,花这么多钱和这么多名校绝顶聪明的孩子,搞这些东西,最终用来干什么?
就是AI的经济价值有多大,在实际工作中,替代或者增强人类的潜力有多大; 如果很大的话,现在发挥出了多少?AI交付实际工作的能力,可能更需要衡量,如果说现在排上用场,人们还不放心的话。
硅谷的AI招聘独角兽公司Mercor也想知道,帮助那些顶级AI大厂和独角兽企业找到的学霸们,弄出来的大模型,除了又当学霸之外,还能干什么实际工作。
“人工智能在奥林匹克数学方面已经超越人类,但这些能力可能与经济发展脱节。拥有一万个博士学位固然很好,但拥有一个能可靠地帮你报税的模型就更好了。”
他们设计了一个AI生产力指数 (AI Productivity Index, APEX),首先选取了4个最高经济价值的白领行业进行测试,邀请了投行、咨询、法律、医学的资深专家,把它们在实际工作中遇到和解决的问题搬出来,让23个大模型下到职场,当下这四个行业的“牛马”:投资银行助理、管理顾问、大型律师事务所助理和初级保健医生 (MD)。
表现如何?结果如下:
![]()
排名前五的,都达到了及格线60分,排名第5-10名的,接近及格线。总体来看,OpenAI的模型家族,当牛马的能力最强。
GPT-5、Grok4、Gemini 2.5位居前三,值得关注的是,Qwen 3 235B和DeepSeek R1分别获得第7名和第9名,在开源模型中排名前两位,GPT OSS 120B(Medium)名列开源第三。相比之下,编程明星Sonnet 4 表现一般。
下面这个测试的案例,来自一家律所最近遇到的一个真实客户,这位音乐家的版权继承人遇到了麻烦,想找律师帮助解决问题。律所助理要对这个客户的合法继承问题做出初步判断。该测试涉及到22条标准,8个法律来源,不超过10万个token。
![]()
诸如此类的案例,总共200个,每个行业50个,分别由20名左右资深专家设计。Mercor通过自己的平台找到了这些专家:
投资银行:20 位投资银行家,经验从业 2 至 18 年不等,平均 8.7 年。他们曾在高盛、Evercore 和摩根大通等公司任职。
管理咨询:18位管理咨询师,经验从业2至20年不等,平均6.9年。他们曾在麦肯锡、波士顿咨询公司和贝恩等公司任职。
法律:20名律师均拥有大型律所工作经验,从业经验在3至22年之间,平均5年。他们曾在Latham & Watkins、Skadden和Cravath, Swaine & Moore等律所任职,并拥有哈佛、耶鲁、斯坦福等美国顶尖14所法学院的法学博士学位。
医学:18名医生拥有3至22年初级保健临床经验,平均8.8年。他们曾在布莱根妇女医院和西奈山医院等医院工作,并拥有宾夕法尼亚大学、西北大学、康奈尔大学等美国顶尖医学院的医学博士学位。
这些专家共同创建了一个数据库APEX-v1.0 ,所有的案例和提示,都来自真实世界。这些任务,专家们自己干,一般要用1-8个小时,平均3.5小时。
专家们找到权威和真实的来源,建立了标准和评分细则。然后由Mercor去搜集各模型的回答,再由语言模型根据专家标准打出分数。关于为什么用语言模型进行评判,以及它们与人工专家评判之间的差异,可以参考论文了解细节。
![]()
Mercor称APEX是首个基于AI执行具有经济价值的知识工作能力的基准测试。APEX-v1.0 测试了 23 个模型,除亚马逊的 Nova Pro(发布于 2024 年 12 月)和 OpenAI 的 GPT 4o(最初发布于 2024 年 5 月,最后更新于 2024 年 11 月)外,所有模型均于 2025 年发布。最新的模型是 GPT 5(Thinking = High),发布于 2025 年 8 月初。模型响应于 2025 年 8 月初收集。13 个闭源模型通过各自的 API 访问,10 个开源模型通过开源提供商访问。
测试还有些发现,值得拿出来说下:
开源和闭源模型的性能有何不同?
还是有差距的。闭源模型的平均得分为55.2%,而开源模型的平均得分为 45.8%,下降了9.4个百分点。在成对胜率方面,差距更大,分别为57.6% 和40.2%,下降了15个百分点以上。也有两个例外,Qwen3 235B和DeepSeek R1还是能和有些前沿闭源模型掰手腕的。
性能更强大的模型(工作中)表现是否更好?
不一定,而且这些模型的“考试”表现和“工作”表现,有时反差挺大的。Claude模型家族的Opus 4在所有四个性能指标上的表现都比Sonnet 4差。o3 Pro在平均分数方面仅比o3高 0.1%,在其他三个指标上的表现更差。Gemini 2.5 Flash的平均分数比 Gemini 2.5 Pro高 0.3%,它在成对获胜率和排名第一的次数百分比方面也表现出色。这些结果表明,功能更强大的模型版本(通常价格更高)并不一定更擅长执行现实世界中高经济价值的任务。同一家族中不同代模型的性能略有提升。
响应是不是越长越好?
Qwen 3 235B和DeepSeek R1都提供了大量关于其思维过程的细节,并且高度重复,且在某些地方偏离主题。然而,由于没有对长度进行惩罚,因此两者都获得了较高的平均分数,并且它们提供了足够多的正确信息来通过许多标准。另一方面,一些表现较差的模型(例如 GPT 4o、Phi 4 Multimodal 和Nova Pro(Thinking = CoT))的平均回复长度最短(分别排名第一、第二和第四)。分析显示回复长度与结果之间相关度几乎为零。
大家最关心的问题,哪个领域牛马最有可能被AI增(替)强(代)。
得分依次为法律56.9%,管理咨询52.5%,投资银行47.6%,医学47.5%。看来AI在法律行业的表现最好,医学最难。APEX 的未来迭代会涵盖更多岗位,下面4个可能是软件工程、教学、保险和平面设计。
最后,AI 模型提升劳动生产率的能力,正日益成为研究的热点, 中国这方面的研究相对较少,也许更多是直接把模型当牛马到职场上去溜溜了?
论文原文及参考:
https://arxiv.org/html/2509.25721v2
https://mercor.com/blog/introducing-apex-ai-productivity-index/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.