网易首页 > 网易号 > 正文 申请入驻

红杉xbench 最新报告:104 项日常任务,Agent 可处理 60+%

0
分享至

现在 Agent 产品很多,Claude Code、ChatGPT Agent、Manus、Genspark...还有各种各样的

对于大家的干活靠谱程度,红杉中国的 xbench 团队,整了新评测,叫 AgentIF-OneDay
(俩周,发了俩评测集了,另一个是 ,然后xiaobo 跟我说,他上个月全在整这个)

大概就是:一堆真实的日常任务,带着 Excel、PPT、PDF 这些附件,能不能帮我搞定

结论:头部 Agent 大约 62-65%


https://xbench.org/agi/agentif

先说在前面:这个榜单目前啥也不代表,看 insight 就行

能同时跑通所有附件格式的 Agent 其实很少,xbench 测了一圈,只有四家能完整跑完

Claude Code 因为各种原因没测出来,Cowork 测的时候还没发布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通

所以这次的价值不在排名,在方向

顺便一提,虽然大家都是混合模型,但 Manus 和 Minimax-Agent 的基础模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT

为什么要做这个评测

xbench 之前发过 ScienceQA 和 DeepSearch,都是分钟级的集中推理任务,模型表现已经从 human-average 逐渐到了 PhD-level

但他们发现一个问题:一旦任务突破一般人一小时可处理的复杂度,Agent 的整体完成度就会出现明显下降

短程任务表现惊艳,长程任务显乏力


所以 xbench 提了一个新视角来理解 Agent 能力边界:任务复杂度

这里的复杂度,指的是完成一个任务所需的人类时间投入

Agent 能力的演进会沿着两条线展开:

Scaling Context
任务在时间维度上延展,从分钟级到一天级、甚至一周级。Agent 需要在更长的执行周期中维护上下文状态,跟踪中间目标,保持一致性

Scaling Domain
任务类型上的扩展。现实世界的工作往往横跨多个领域,不同任务在目标表述、隐含约束、工具使用上差异很大

AgentIF-OneDay 就是沿着这两个方向推进的第一步:以人类一天内可完成的任务复杂度作为基准

这个评测在测什么

AgentIF-OneDay 的核心是指令遵循,它要求 Agent 处理真实的附件:Excel、PPT、PDF、图片,然后输出可交付的文件,任务分三类:

场景一:你知道该怎么做,但执行太繁琐

用户已知完整流程并明确给出操作步骤,Agent 只需精确执行。这类任务叫工作流执行(Workflow Execution)

例题 我计划去 NeurIPS 2025,帮我规划一个好的行程方案。请你先去官网确认 NeurIPS 2025 会议的主会场位置(San Diego Convention Center, San Diego)是否准确,然后用另一个可靠来源交叉验证这个信息,确保万无一失 接下来,帮我收集基本信息,比如会议时间、地点和论文提交截止日期 还要确认完整的会议日程是否已经发布,如果还没发布,请明确告诉我 最后,从纽约出发给我两套去圣地亚哥的行程方案:一个最便宜的 Cheap Plan,一个最快的 Fast Plan

当 Agent 能够在整个流程中保持一致性、逐步完成步骤、并在长上下文中保持状态,就具备帮你把事情做完的潜力

这也是大量用户希望 Agent 能真正替代重复性劳动的原因

场景二:你不知道规则,只能给个参考

用户不明确知道完整的工作流或者条件约束,只提供若干案例或参考资料。这类任务叫隐式指令推理(Latent Instruction Inference)

例题 我现在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元预付费。我想换 iPhone 17 Pro Max 基于附件里的购机方案和运营商优惠,帮我找出总成本最低的方式

这是人类最自然的工作方式,人们不会每次都从零写起

Agent 需要从提供的示例文件中挖掘出潜在的意图,同时满足用户的显式指令与附件的隐式指令

如果具备这种能力,Agent 就能真正参与内容生产、报告生成、数据整理等职业型任务

场景三:需求本身是动态的,要边做边看

人类的工作普遍呈现多轮迭代结构,在工作的开始并不知道完整解法、也没有参考示例,需要在与 Agent 多轮交互中逐渐提出新需求。这类任务叫迭代式编辑(Iterative Refinement)

例题 拿着这个 SVG 平面图(venue_layout.svg)和 Excel 约束表(venue_constraints.xlsx),更新会场布局以满足所有约束条件,同时保持设计的可读性和可行走性

Agent 必须具备在不断变化的约束下维持上下文一致性并稳定推进任务的能力

评测细节

总共 104 道任务,覆盖工作、生活(游戏攻略、旅游规划)和学习,其中 62 道由文件驱动的合成任务用于补充长尾场景

覆盖 PDF、PPT、Excel、图像、代码文件在内的 15 种以上格式,模拟真实工作流程中跨格式、跨来源的模式

每道任务都带有一套细粒度的评判标准,总计 767 个评分点,分为正向指标(格式一致性、结构复现、步骤完整)与负向指标(误删内容、越界生成、错误操作)

评测系统采用 LLM 作为裁判,值得一提的是 Gemini 3-pro 的出现让 rubrics 打分的准确性提升到可用的程度

Agent 的得分不仅取决于最终是否完成任务,还包括流程是否干净、是否出现误操作、是否正确解析附件、是否能在迭代过程中保持一致性

几个有意思的发现

发现一:不同框架,拉不开差距

Manus、Genspark 与 ChatGPT-Agent 都集中在 0.62-0.65 区间,构成当下能力最强的第一梯队

不管是模型原生训练出来的 Agent,还是基于 API 的工具链集成,在完成一套真实任务链时,用户侧感受到的能力是比较接近的

这印证了一个判断:基础 Agent 能力已经商品化了


底层模型能力不变的情况下,不同多智能体框架本身难以拉开数量级上的性能差异。基座模型会逐步集成 agentic 能力,下游基于 API 的 Agent 产品,在能力表现上也会体现出 Agent RL 的能力

发现二:分场景各有所长

工作场景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27

生活场景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85

学习场景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29

三个产品迭代方向不同。ChatGPT-Agent 重点关注 GDPval,聚焦专业工作场景的体验;Manus 与 Genspark 更侧重用户反馈

xbench 的观点是:优秀的通用 Agent 应当兼顾最多样的任务,而不侧重一方

发现三:分能力维度看

Genspark 在隐式指令推断上表现最优,Manus 在开放工作流执行最优,Minimax-Agent 具有最好的迭代式编辑能力

隐式条件推断是目前 Agent 普遍最薄弱的能力项

比如让 Agent 从 PPT 模板中抽取页眉页脚结构或引用标注方式,再迁移到新内容生成中


即便是整体表现最好的系统,在这类任务中也很难做到完全正确。要么格式复现正确但覆盖不足,要么内容理解到位但无法保持结构一致

综合来看,稳定性、文件处理链路、隐式结构理解能力,乃至跨工具的状态管理,都是决定 Agent 能否真正承担一天工作量的关键环节

展望:从 OneDay 到 OneWeek

xbench 已经开始着手构建 OneWeek 评测集

他们的判断是:当一个 Agent 能够在一周尺度的工作量上保持稳定高质量的产出,它就具备了承担真实岗位的能力

这个过程有点像自动驾驶,从有限路段走向通用路段,从频繁人工干预走向长时无干预


有效的数据积累可以带来高可靠 Agent 系统的出现,优先转起数据飞轮的公司将率先实现通用 Agent 的 FSD 时刻

xbench 的节奏

xbench 是红杉中国 2025 年 5 月发的 AI 评测基准,设计思路是 Evergreen Evaluation,持续维护、动态更新

这两周,他们连发两篇:上周是 ,测多模态的纯视觉能力,这周 AgentIF-OneDay 测 Agent 的日常任务能力

BabyVision 的结论是模型的视觉能力普遍低于 3 岁儿童

AgentIF-OneDay 的结论是最强 Agent 在日常任务上大约 65%

所以嘛,模型的「看」和「做」,都还有很大空间

开源地址

Paper Link
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

Website
https://xbench.org/

GitHub
https://github.com/xbench-ai/AgentIF-OneDay

HuggingFace
https://huggingface.co/datasets/xbench/AgentIF-OneDay

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
格陵兰岛本就不是丹麦的!从历史根儿上算,真正归属早有定论

格陵兰岛本就不是丹麦的!从历史根儿上算,真正归属早有定论

福建平子
2026-01-12 10:33:34
15胜0负!联盟第一!全联盟都说要退役了,你却逆天改命要冲冠了

15胜0负!联盟第一!全联盟都说要退役了,你却逆天改命要冲冠了

篮球扫地僧
2026-01-21 18:18:33
特朗普“格陵兰关税”引爆达沃斯,全球政要警告、怒骂齐上阵

特朗普“格陵兰关税”引爆达沃斯,全球政要警告、怒骂齐上阵

凤凰网财经
2026-01-21 19:14:31
丹麦打响第一枪!250亿美元养老基金“清仓美债”,手握83万亿元美元资产的欧洲,会用资本“保卫”格陵兰岛?

丹麦打响第一枪!250亿美元养老基金“清仓美债”,手握83万亿元美元资产的欧洲,会用资本“保卫”格陵兰岛?

每日经济新闻
2026-01-21 16:28:05
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
汪嘉伟:离婚又再婚,一生辜负两个女人,如今儿子是他的骄傲

汪嘉伟:离婚又再婚,一生辜负两个女人,如今儿子是他的骄傲

小嶯说故事
2026-01-19 12:57:15
大布发文控诉父母!贝嫂改婚纱抢跳舞不尊重儿媳,全家表演型人格

大布发文控诉父母!贝嫂改婚纱抢跳舞不尊重儿媳,全家表演型人格

照见古今
2026-01-21 19:34:24
又一旅游巨头被查!曾控制56%市场,日赚2亿多,美资手握众多股份

又一旅游巨头被查!曾控制56%市场,日赚2亿多,美资手握众多股份

顾史
2026-01-21 19:45:37
美女画师展示身材回应AI作画质疑,玩家惊呼作品还是保守了

美女画师展示身材回应AI作画质疑,玩家惊呼作品还是保守了

街机时代
2026-01-20 15:00:03
江西省德兴市委常委、市政府常务副市长严志平,主动向组织交代问题

江西省德兴市委常委、市政府常务副市长严志平,主动向组织交代问题

大风新闻
2026-01-20 21:04:26
护士长曝光李亚鹏感人细节!医院早没钱了,却硬不裁员,不停手术

护士长曝光李亚鹏感人细节!医院早没钱了,却硬不裁员,不停手术

谈史论天地
2026-01-18 13:23:55
佰维存储:公司预计2026年底晶圆级先进封测制造项目月产能将达到5000片

佰维存储:公司预计2026年底晶圆级先进封测制造项目月产能将达到5000片

每日经济新闻
2026-01-21 15:52:06
马斯克一语成真 全球抢购的不是芯片 而是中国20万一台变压器

马斯克一语成真 全球抢购的不是芯片 而是中国20万一台变压器

时尚的弄潮
2026-01-21 13:47:15
北京一驾校突然人去楼空!上千名学员培训中断......官方回应

北京一驾校突然人去楼空!上千名学员培训中断......官方回应

驾研院
2026-01-21 10:27:07
刘銮雄长子将股权卖给继母,获得巨额财富后,甘比首次露富心情超好

刘銮雄长子将股权卖给继母,获得巨额财富后,甘比首次露富心情超好

小鱼爱鱼乐
2026-01-20 22:39:00
19万志愿军牺牲在朝鲜,为何毛主席下令:不惜代价抢回701遗体?

19万志愿军牺牲在朝鲜,为何毛主席下令:不惜代价抢回701遗体?

大运河时空
2026-01-20 13:00:03
俄罗斯公开喊话中国!明确表示尊重中国

俄罗斯公开喊话中国!明确表示尊重中国

胥言
2026-01-21 15:42:21
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
谢杏芳没想到,费心培养9年的儿子,开始帮她保全婚姻的“体面”

谢杏芳没想到,费心培养9年的儿子,开始帮她保全婚姻的“体面”

阿柒的讯
2026-01-21 12:37:13
央视曝光毒纸巾,比抹布还脏用多了还致癌,别再整箱往家扛了

央视曝光毒纸巾,比抹布还脏用多了还致癌,别再整箱往家扛了

通文知史
2026-01-20 19:10:03
2026-01-21 20:15:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
268文章数 15关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

头条要闻

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

教育
家居
房产
艺术
军事航空

教育要闻

聚焦“26届广州高考复读学校哪家好”:这三所学校值得考虑

家居要闻

褪去浮华 触达松弛与欣喜

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

艺术要闻

一百多年前的中国,太雄伟震撼了!

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版