网易首页 > 网易号 > 正文 申请入驻

AI智能体是否已准备好进入职场?新基准测试引发质疑

0
分享至


距离微软CEO萨蒂亚·纳德拉预测AI将取代知识工作已经近两年了——这些白领工作包括律师、投资银行家、图书馆员、会计师、IT人员等职业。

尽管基础模型取得了巨大进展,但知识工作的变革却姗姗来迟。模型已经掌握了深度研究和智能体规划能力,但不知何故,大多数白领工作相对未受影响。

这是AI领域最大的谜团之一——而训练数据巨头Mercor的新研究终于为我们提供了一些答案。

新研究考察了领先的AI模型在执行真实白领工作任务时的表现,这些任务来自咨询、投资银行和法律领域。研究产生了一个名为Apex-Agents的新基准测试——到目前为止,每个AI实验室的成绩都不及格。面对真实专业人士的问题,即使是最优秀的模型也难以答对超过四分之一的问题。绝大多数情况下,模型都给出了错误答案或根本无法回答。

参与研究的研究员布伦丹·富迪表示,模型最大的障碍是跨多个领域追踪信息——这是人类执行大部分知识工作不可或缺的部分。

"这个基准测试的一大变化是我们构建了完整的环境,模拟真实的专业服务环境,"富迪告诉TechCrunch。"我们工作的方式并不是由某个人在一个地方为我们提供所有背景信息。在现实生活中,你需要在Slack、Google Drive和其他各种工具间操作。"对于许多智能体AI模型来说,这种跨领域推理仍然不稳定。

这些场景都来自Mercor专家市场的真实专业人士,他们既提出了问题,也设定了成功回答的标准。浏览这些在Hugging Face公开发布的问题,可以感受到任务的复杂程度。

法律部分的一个问题如下:

在欧盟生产中断的前48分钟内,Northstar的工程团队将一到两个包含个人数据的欧盟生产事件日志捆绑集导出到美国分析供应商……根据Northstar自身的政策,它能否合理地将这一到两次日志导出视为符合第49条?

正确答案是肯定的,但要得出这个结论需要深入评估公司自身的政策以及相关的欧盟隐私法。

这可能连见多识广的人类都会感到困惑,但研究人员试图模拟该领域专业人士的工作。如果大语言模型能够可靠地回答这些问题,它就能有效地取代今天许多律师的工作。"我认为这可能是经济中最重要的话题,"富迪告诉TechCrunch。"这个基准测试非常真实地反映了这些人所做的实际工作。"

OpenAI也尝试通过其GDPVal基准测试来衡量专业技能——但Apex Agents测试在重要方面有所不同。GDPVal测试跨广泛职业的一般知识,而Apex Agents基准测试衡量系统在少数高价值职业中执行持续任务的能力。结果对模型来说更困难,但也更贴近这些工作是否能被自动化。

虽然没有模型证明已经准备好接管投资银行家的工作,但有些明显更接近目标。Gemini 3 Flash在小组中表现最佳,一次性准确率为24%,GPT-5.2紧随其后,准确率为23%。其次,Opus 4.5、Gemini 3 Pro和GPT-5的得分都约为18%。

虽然初始结果不尽如人意,但AI领域有突破挑战性基准测试的历史。现在Apex测试已经公开,对于相信自己能做得更好的AI实验室来说,这是一个公开的挑战——富迪完全期待在未来几个月内看到改进。

"它正在快速改善,"他告诉TechCrunch。"现在可以说它像一个四分之一时间答对的实习生,但去年它是一个只有5%到10%时间答对的实习生。这种年复一年的改善能够如此迅速地产生影响。"

Q&A

Q1:什么是Apex-Agents基准测试?

A:Apex-Agents是由训练数据公司Mercor开发的新基准测试,用于评估AI模型在执行真实白领工作任务时的表现。测试场景来自咨询、投资银行和法律等领域的实际专业人士,重点考察AI在跨多个工具和领域处理复杂任务的能力。

Q2:目前AI模型在职场任务上的表现如何?

A:表现并不理想,即使是最优秀的AI模型也难以答对超过四分之一的专业问题。Gemini 3 Flash表现最佳,一次性准确率为24%,GPT-5.2为23%。大多数情况下,模型都给出错误答案或无法回答,距离取代专业人士还有很大差距。

Q3:AI模型在处理职场任务时的主要困难是什么?

A:最大的困难是跨多个领域追踪信息。在现实工作中,专业人士需要在Slack、Google Drive等多种工具间操作,整合不同来源的信息。而对于智能体AI模型来说,这种多领域推理和信息整合能力仍然不稳定,无法有效模拟真实的工作环境。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪小菲下了好大一盘棋!小杨阿姨带两孩回京,张兰含泪准备分离

汪小菲下了好大一盘棋!小杨阿姨带两孩回京,张兰含泪准备分离

一盅情怀
2026-01-25 16:01:52
末节12分击溃青岛!健康的郭艾伦真稳!想得分就得分,根本拦不住

末节12分击溃青岛!健康的郭艾伦真稳!想得分就得分,根本拦不住

篮球资讯达人
2026-01-25 21:45:56
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
家长的控制欲能有多变态?网友:隔着屏幕都能感觉到这种窒息

家长的控制欲能有多变态?网友:隔着屏幕都能感觉到这种窒息

带你感受人间冷暖
2026-01-23 00:15:05
雷军无奈宣布:全部下架!

雷军无奈宣布:全部下架!

电动知家
2026-01-25 15:31:25
503:9,欧洲议会压倒性投票通过,让中国释放黎智英,中方回应

503:9,欧洲议会压倒性投票通过,让中国释放黎智英,中方回应

王姐懒人家常菜
2026-01-26 08:24:31
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
曼城31岁巨星愿加盟巴萨:今夏0转会费 相当于白捡2700万

曼城31岁巨星愿加盟巴萨:今夏0转会费 相当于白捡2700万

叶青足球世界
2026-01-25 20:35:06
生姜立大功?美国研究发现:生姜能在36小时清除60%老化细胞?

生姜立大功?美国研究发现:生姜能在36小时清除60%老化细胞?

蜉蝣说
2026-01-24 16:45:07
外媒:中国驳斥马斯克说法!

外媒:中国驳斥马斯克说法!

电动知家
2026-01-24 15:33:08
中国队丢冠仅1夜,队长赴英超!王钰栋遭批:态度有问题 基本废了

中国队丢冠仅1夜,队长赴英超!王钰栋遭批:态度有问题 基本废了

侃球熊弟
2026-01-25 10:37:48
梅洛尼:强烈愤慨,决定召回大使

梅洛尼:强烈愤慨,决定召回大使

上观新闻
2026-01-25 20:27:05
深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

深度揭秘 | 航空“老色虎”谭瑞松,搞权色交易、“靠军工吃军工”

一分为三看人生
2026-01-12 00:09:36
Lisa去车公庙上香,穿lululemon瑜伽裤臀很翘,她素颜长相很普通

Lisa去车公庙上香,穿lululemon瑜伽裤臀很翘,她素颜长相很普通

有范又有料
2026-01-25 19:23:45
5.00-1.17!王欣瑜冲澳网8强,2-1爆冷?拭目以待,比赛时间如下

5.00-1.17!王欣瑜冲澳网8强,2-1爆冷?拭目以待,比赛时间如下

侃球熊弟
2026-01-26 00:15:03
三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

博士观察
2026-01-25 20:18:40
知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

一盅情怀
2026-01-25 15:54:20
随着利雅得新月1-1,沙特联最新积分出炉:C罗率队逼近榜首

随着利雅得新月1-1,沙特联最新积分出炉:C罗率队逼近榜首

侧身凌空斩
2026-01-26 04:08:11
一夜之间!金饰1克突破1500元

一夜之间!金饰1克突破1500元

南方都市报
2026-01-23 11:02:43
离谱!25岁前女足球员喊王钰栋父亲“岳父” :这门亲事考虑一下

离谱!25岁前女足球员喊王钰栋父亲“岳父” :这门亲事考虑一下

念洲
2026-01-26 07:07:34
2026-01-26 09:55:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15659文章数 49687关注度
往期回顾 全部

科技要闻

三星闪存,涨价100%

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

现货黄金历史首次突破5000美元

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

手机
数码
艺术
家居
游戏

手机要闻

三星S25+充电时爆炸家人送医!官方承认问题:用户不满赔偿

数码要闻

2025年中国智能投影仪市场创史上最大下滑 行业洗牌加速

艺术要闻

你能在5秒内认出这18个字吗?看看专家怎么说!

家居要闻

在家度假 160平南洋混搭宅

为什么在穿越火线里面,马来剑的口碑能好到那个程度?

无障碍浏览 进入关怀版