网易首页 > 网易号 > 正文 申请入驻

新测试表明AI实际办公准确率不足25%,但进展比想象更快

0
分享至

IT之家 1 月 26 日消息,Digital Trends 24 日报道,一项由训练数据公司 Mercor 发布的研究报告指出,当前主流人工智能模型在处理实际办公室任务时表现不佳,最高准确率未超过 25%,研究表明 AI 在短期内难以替代人类知识工作者


该研究基于 Mercor 新推出的 APEX-Agents 基准进行测试,有别于传统上通过写诗和解数学题为主的 AI 评估方法,该基准测试直接采用律师、顾问和银行家的真实工作流,要求受试模型完成横跨多个信息来源的多步骤综合任务。

结果显示,即使是市场上明显处于领先地位的模型也无法达到 25% 的准确率,测试中成绩领先的 Gemini 3 Flash 和 GPT-5.2,其准确率也仅为 24% 和 23%,而其他大多数受试模型的成绩则不高于 20%。


为何 AI 会在“办公测试”中失败?Mercor 首席执行官 Brendan Foody 分析称,AI 失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散资源,比如查看日程,翻阅即时通讯记录、阅读 PDF 文档和电子表格,而 AI 在跨源信息搜索与整理时容易混淆、出错,要么干脆放弃。这导致目前的 AI 在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员

IT之家附 APEX-Agents 准确率测试结果如下(排名从高到低):

  • Gemini 3 Flash (High) - 24.0%
  • GPT-5.2 (High) - 23.0%
  • Claude Opus 4.5 (High) - 18.4%
  • Gemini 3 Pro (High) - 18.4%
  • GPT-5 (High) - 18.3%
  • Grok 4 - 15.2%
  • GPT-OSS-120B (High) - 4.7%
  • Kimi K2 Thinking - 4.0%

尽管表现有限,但 AI 的进步引人关注。Foody 指出,一年前同类测试的准确率仅为 5%-10%,如今已提升至 24%,AI 的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换之前,AI 尚无法胜任复杂的知识工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,台海交锋!美军宙斯盾舰被中国武直-10一路“押送”出境

刚刚,台海交锋!美军宙斯盾舰被中国武直-10一路“押送”出境

华山穹剑
2026-01-26 21:14:55
新干线上外国乘客的行李箱掉下砸到日本女性头部,语言不通无法和解造成列车晚点

新干线上外国乘客的行李箱掉下砸到日本女性头部,语言不通无法和解造成列车晚点

日本物语
2026-01-25 20:32:37
伊朗神权崩塌前夜:9000万高知青年与内战危机

伊朗神权崩塌前夜:9000万高知青年与内战危机

夏至陌离殇
2026-01-14 15:34:27
军中败类喜新厌旧,老预审员章金梁亲历的1986年南京八字山白骨案

军中败类喜新厌旧,老预审员章金梁亲历的1986年南京八字山白骨案

顾氏造船厂厂长
2025-11-19 08:00:11
太强了!9中6狂揽21分17板!杨瀚森努力的目标,是成为他的替补

太强了!9中6狂揽21分17板!杨瀚森努力的目标,是成为他的替补

弄月公子
2026-01-19 19:45:49
离谱!挪威帝王蟹堆成山,中国人买一只却要花上千,原因太现实

离谱!挪威帝王蟹堆成山,中国人买一只却要花上千,原因太现实

掉了颗大白兔糖
2026-01-25 07:34:58
詹俊:曼联换帅换了一把屠龙刀,利物浦离崩盘仅一步之遥

詹俊:曼联换帅换了一把屠龙刀,利物浦离崩盘仅一步之遥

懂球帝
2026-01-26 11:55:08
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
江苏一婆婆打扮精致像未婚,儿媳羡慕不来:公公比我老公有实力

江苏一婆婆打扮精致像未婚,儿媳羡慕不来:公公比我老公有实力

唐小糖说情感
2026-01-25 00:08:43
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

有你便是晴天呢
2026-01-26 18:42:32
1977年,陈丕显想留在北京工作,可组织却安排他赴云南履职,叶剑英:要不索性回部队算了

1977年,陈丕显想留在北京工作,可组织却安排他赴云南履职,叶剑英:要不索性回部队算了

文史明鉴
2026-01-26 17:39:28
牢A是本世纪最大预言家!什么脏货都跳出来了!

牢A是本世纪最大预言家!什么脏货都跳出来了!

红色少女主播
2026-01-22 20:16:29
阿森纳累了慌了输了 还没有危机但要避免信心危机

阿森纳累了慌了输了 还没有危机但要避免信心危机

体坛周报
2026-01-26 17:42:12
赵薇女儿回瑞士上学,小四月染金发戴假睫毛形象大变,太像网红!

赵薇女儿回瑞士上学,小四月染金发戴假睫毛形象大变,太像网红!

娱乐团长
2026-01-24 21:23:08
被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

叹为观止易
2026-01-21 10:21:06
加拿大总理成达沃斯“全场最靓的仔”!又遭特朗普关税威胁,他呼吁国人:买国货

加拿大总理成达沃斯“全场最靓的仔”!又遭特朗普关税威胁,他呼吁国人:买国货

红星新闻
2026-01-25 16:38:16
河南周口姐妹联手骗婚!骗了12人,一个多月结7次婚,共敛财488万

河南周口姐妹联手骗婚!骗了12人,一个多月结7次婚,共敛财488万

观察鉴娱
2026-01-26 09:13:17
他是潜藏在军队里的大间谍,给国家造成永久损失,被注射死刑严惩

他是潜藏在军队里的大间谍,给国家造成永久损失,被注射死刑严惩

近史谈
2025-10-23 20:24:33
洗车行业拒绝电车,害怕洗电车会破产,与防水造假有关?

洗车行业拒绝电车,害怕洗电车会破产,与防水造假有关?

柏铭锐谈
2026-01-25 13:11:40
前高盛策略师:黄金站上5100美元 反映出投资者对庞大政府债务规模的担忧不断加剧

前高盛策略师:黄金站上5100美元 反映出投资者对庞大政府债务规模的担忧不断加剧

财联社
2026-01-26 19:29:07
2026-01-26 21:51:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
326589文章数 606916关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

头条要闻

村民用无人机吊运年猪挂住高压线致停电 维修成本近万

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

教育
艺术
手机
数码
时尚

教育要闻

2026年中国教育改革或推出普及高中!留学萧条期真的来了?

艺术要闻

溥心畬的花鸟,淡雅清新

手机要闻

小米REDMI Turbo5系列确认魏思琪主讲,卢伟冰赠其灭霸无限手套

数码要闻

首发可用NVIDIA DLSS 4.5,480帧的《明日方舟:终末地》体验如何

绿色+棕色、蓝色+棕色,这3组配色高级又好看!

无障碍浏览 进入关怀版