网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

ChatGPT、Manus、Genspark哪家强？红杉中国xbench出了考卷

2026-01-21 21:38:24　来源: AI异类

北京举报

0

分享至

最近，红杉中国 xbench 在行业里有不少动作，连发两篇Agent有关的论文。

老朋友应该都知道，xbench是红杉中国推出的一款AI基准测试，用来量化AI系统在真实场景的效用价值，采用的是长青评估机制。

xbench想在市面上鱼龙混杂的“刷榜”、“野榜”、“纸面数据”之外，建立起一套评价标准，更好地衡量 AI 模型在真实业务场景中，解决复杂问题的能力。

印象中的投资机构，亲自下场参与模型能力测评以及技术标准定义的，不算多。
而在AI新技术范式影响下的VC，似乎已经有了新的组织形态，以及在新组织形态上长出来的技术理解和成果。
记得xbench刚发布的时候，我的理解还停留在大模型测评集的阶段，感觉是投资人为了追求更精准的判断力，主动打造的一手实验数据。
现在再看，红杉中国对AI模型能力边界和Agent发展路线的理解，不亚于一线的技术型公司。

所以，别以为投资人不懂技术、很好忽悠了。
我甚至有种恐慌，也许有一天，头部基金，用Venture Studio等形式，亲自下场做产品也很正常。
听说已经有了。
难道下一个字节跳动，会是投资人在投资机构里，自己vibe coding出来的吗？
说不定真的有可能。

https://xbench.org/

具体说说这两篇论文是咋回事。

上周，xbench 联合 UniPat AI 发布了 BabyVision，一个专注于纯视觉理解能力的评测集。

它讨论的主题很明确：在世界模型和视觉多模态这条路上，模型的潜力远没有被完全释放。

那套评测并不急着给模型打分，更像是在提醒行业，未来的能力增长，很可能来自对真实世界结构的重新理解。

这一周，xbench 又向前推了一步。

这一次，关注点从「看懂世界」转向了「把一天过完」。

https://xbench.org/agi/agentif

AgentIF-OneDay 的出现，标志着 Agent 评测从短时、单点、封闭任务，正式进入长时、复杂、全场景的现实尺度。

它试图回答一个简单又残酷的问题：如果把人类一天的任务量完整交给一个 Agent，它能否在没有人工介入的情况下，把事情真正做完。

在当前的行业语境下，这个问题比任何排行榜都更重要。

01.当单点能力接近 PhD，Agent 的短板开始暴露

过去一年，大模型在单点推理任务上的进步已经非常明显。

无论数学、代码，还是知识密集型问答，分钟级任务的完成质量已经逼近人类高水平专家。

ScienceQA、DeepSearch 这类评测的多次升级，也不断拉高着模型的上限。

问题出现在时间被拉长之后。

一旦任务复杂度超过普通人一小时可以处理的范围，Agent 的整体完成度会出现明显下滑。

这种下滑并不体现在某个步骤做错，而是体现在全过程的失控：上下文断裂、中间目标丢失、工具调用前后不一致、隐含约束被忽略，最终导致任务在形式上完成，实质上失败。

这道鸿沟的存在，让「Agent 已经很强」与「Agent 还不能真正替你工作」这两种判断同时成立。

xbench 在这一阶段选择引入 AgentIF-OneDay，本质上是一次尺度的重构。

评测的核心不再是模型知道多少知识，也不只是能否完成某个高难度推理点，而是把注意力转向一个更贴近现实的问题：完成一个任务，需要消耗多少人类时间，这个时间背后，对应着怎样的经济价值。

02.用「人类一天」重新定义 Agent 的能力边界

AgentIF-OneDay 背后的一个关键判断，是将任务复杂度与知识深度解耦。

在传统评测中，复杂度往往意味着推理链更长、知识点更冷门、逻辑结构更精巧。

但在真实工作中，复杂度更多来自时间和协同成本。一个任务并不一定难，却可能极其耗时，需要反复确认信息、切换工具、处理格式、校验结果，还要在过程中持续保持目标一致。

xbench 提出了两个决定 Agent 能力上限的轴线：scaling context 与 scaling domain。

前者关注时间维度。

Agent 是否能在更长的执行周期中维护上下文状态，记住中间结果，遵守先前的约束，在多步骤、多工具的交互中保持一致性。

从分钟级，到小时级，再到一天级，这是一个对稳定性和记忆管理要求极高的过程。

后者关注任务分布。

现实世界的工作很少是单一领域的连续推理，而是跨 domain、跨格式、跨语境的混合任务。

目标表述往往不完整，约束隐藏在附件里，评估标准随场景变化。

Agent 能否覆盖更广泛的任务类型，决定了它是否具备真正的通用性。

AgentIF-OneDay 正是沿着这两条轴线展开设计。它把评测的时间尺度推进到 OneDay，同时覆盖生活、学习与职业等多个高频场景，试图描绘出当前 Agent 在真实世界任务分布中的能力轮廓。

03.把一天拆开，工作流、范例与迭代才是真实世界

在构造评测任务之前，xbench 分析了大量用户的真实工作日志。

一个有意思的发现是，具体内容千差万别，但任务结构高度稳定。

大多数人的一天，可以被抽象为三种类型。

第一类是工作流执行。

用户清楚知道该做什么，步骤明确，难点集中在执行的繁琐性和信息校验上。

以 NeurIPS 行程规划为例，Agent 需要跨站点核验信息、收集时间节点、判断日程是否发布，再给出不同优化目标下的方案。

这类任务考验的不是创造力，而是耐心、准确性和流程一致性。

第二类是范例参考。

用户无法完整描述规则，只能提供示例或附件。换手机套餐的例子中，Agent 需要从文件中推断隐含条件，在显式指令与隐式约束之间做出平衡。

这是人类日常工作中最常见的模式，也是 Agent 走向内容生产、报告生成等职业型任务的前提。

第三类是迭代式编辑。

需求在过程中不断变化，约束逐步显现，解法并不预先存在。

更新会场布局的任务，要求 Agent 在多轮修改中保持上下文一致，同时遵守来自不同文件的硬性条件。这类任务对状态管理和长期一致性的要求极高。

AgentIF-OneDay 的 104 道任务，正是围绕这三种结构展开。

文件驱动的合成任务覆盖了 PDF、PPT、Excel、图像、代码等 15 种以上格式，模拟的正是现实工作中极为常见的跨来源、跨工具流程。

04.当评分变得细碎，Agent 的失误也无处可藏

为了避免「结果对了就算赢」的粗糙判断，AgentIF-OneDay 为每道任务设计了细粒度的评分标准，总计 767 个评分点。

这些评分点既包含正向指标，也包含负向指标。

格式是否一致、结构是否复现、步骤是否完整，会被逐一检查；误删内容、越界生成、错误操作，同样会被明确扣分。

评测系统采用 LLM 作为裁判，并结合网页检索、HTML 渲染、多模态比对等自动校验方式，尽量减少主观偏差。

在这套机制下，Agent 的得分不只取决于有没有完成任务，更取决于过程是否干净，是否正确解析附件，是否在迭代中保持一致。

评测结果也呈现出一些值得玩味的现象。

从整体任务成功率来看，Manus、Genspark 与 ChatGPT-Agent 集中在 0.62–0.65 区间，构成第一梯队。

不同技术路线的 Agent，在真实任务链上的体感差异并没有拉开数量级。

这在一定程度上印证了模型能力的重要性，在不引入 test-time scaling 的前提下，多智能体框架本身很难制造巨大差距。

从任务领域看，ChatGPT-Agent 更偏向专业生产力，Manus 在生活助手场景表现突出，Genspark 更适合学习型任务。

不同产品的迭代方向，决定了各自的长项与短板。

从能力维度看，Genspark 在隐式指令推断上表现最佳，Manus 在开放工作流执行中更稳定，Minimax-Agent 在迭代式编辑中优势明显。

隐式结构理解依然是当前 Agent 普遍的薄弱环节，尤其是在格式迁移和规则抽取任务中，完整正确的案例仍然罕见。

这些结果共同指向一个结论：稳定性、文件处理链路、隐式结构理解能力，以及跨工具的状态管理，才是决定 Agent 能否承担一天工作量的关键。

05.从OneDay到OneWeek，Agent的下一道门槛

在 AgentIF-OneDay 之后，xbench 已经开始构建 OneWeek 级别的评测集。

一周尺度的任务，带来的挑战并不仅仅是时间更长。

随着跨度增加，任务往往会自然嵌入具体行业语境，金融、医疗、法律等高价值场景的数据获取成本显著上升，rubric 的设计也会变得更加严格。

在这一阶段，依赖静态数据集和离线评测的方式开始显露局限性。

Agent 要想进一步提升，很难只靠训练时吃下更多人类知识，而需要在实际运行中不断修正行为。这也是近期 online learning 讨论升温的背景。

如果把长程 Agent 的发展类比自动驾驶，那么当前阶段更接近有限路段的辅助驾驶。

真正的 FSD 时刻，依赖于大量真实场景数据的积累。用户数据带来的场景多样性，是系统泛化能力的关键来源。

在 Agent 领域，同样的逻辑正在显现。谁能率先建立高质量的数据飞轮，谁就更有可能率先交付可靠的长程 Agent。

当 Agent 能够在一周尺度上稳定产出，它才真正具备进入组织、承担岗位、创造持续经济价值的资格。

AgentIF-OneDay 的意义，正在于此。

它并不宣告某个系统已经足够成熟，而是清晰地标出了下一段路的难度与方向。

最后，强烈大家去看看论文原文！

以及去红杉中国xbench的官网去看看，上面有各种各样的打分和排名，还有些好玩的小东西！

https://xbench.org/

AI一年，人间十年。

连投资人都这么努力，我们也多看些论文吧……

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

MiniMax把自家“实习生”放出来了！

量子位 2026-01-20 21:25:26
0 跟贴 0
一人干翻十亿：5人团队想让“一人独角兽”成为现实

虎嗅APP 2026-01-22 02:23:13
0 跟贴 0

拒绝成为落后的开发者：用TRAE Skills构建你的10倍效能工具箱

机器之心Pro 2026-01-22 14:14:05
0 跟贴 0

广告主摩拳擦掌！OpenAI据传将于二月初上线ChatGPT广告

财联社 2026-01-21 18:22:08
4 跟贴 4
中国团队一夜封神，AI出海「全球第一」！曾靠游戏狂赚10亿美金

新智元 2026-01-21 15:07:37
2 跟贴 2

非Transformer架构新突破，液态神经网络推理小模型只用900M内存

机器之心Pro 2026-01-21 18:08:27
3 跟贴 3

拒绝智能手机，炮轰ChatGPT，没有他就没有今天的互联网

DeepTech深科技 2025-12-26 18:07:26
0 跟贴 0
让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

机器之心Pro 2026-01-09 14:22:47
0 跟贴 0

智能体卷王诞生！干活自动配结项报告，1.5张截图就把事说清了

量子位 2026-01-10 14:38:21
10 跟贴 10
AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心Pro 2025-10-15 16:05:02
0 跟贴 0
视频理解+开放网络搜索=首个视频Deep Research评测基准

新智元 2026-01-22 12:09:50
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
复旦、上海创智学院等发布前沿大模型安全报告，覆盖六大领先模型

机器之心Pro 2026-01-22 14:22:19
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
市场规模可达汽车行业10倍！禾赛科技创始人成立机器人公司，激光雷达头部玩家抢滩“第二增长曲线”

每日经济新闻 2026-01-22 15:07:31
0 跟贴 0
中国供应链，决定全球Robotaxi竞赛赢家！

华尔街见闻官方 2026-01-22 14:23:43
0 跟贴 0
信访难题如何破局？实战案例揭秘舆情黄金4小时

周兆成律师 2026-01-21 21:55:21
0 跟贴 0
南部空军：从今以后绝不允许有人对我大声说话

环球时报 2026-01-22 01:30:54
36521 跟贴 36521
取消临停，银川一小区千余车位被“包销”，车主回家拥堵6小时；住建部门介入

大风新闻 2026-01-21 16:11:07
8853 跟贴 8853
刘强东没想到，离过年不到2月，章泽天走上了和田朴珺一样的路

世界新趋势 2026-01-19 22:15:46
0 跟贴 0
为支付安置项目工程款，13户村民“被贷款”；当地回应：情况较复杂，正设法解决

大风新闻 2026-01-21 20:46:04
2794 跟贴 2794
中方重申：日本根本没有资格要求"入常"

海外网 2026-01-22 07:06:04
13020 跟贴 13020
这逻辑满分

憨憨爱影视 2026-01-18 00:36:00
0 跟贴 0
刚刚 | 德云社严正声明！

天津广播 2026-01-21 20:23:38
6503 跟贴 6503
首个真正能用的LLM游戏Agent诞生！可实时高频决策，CoT全程可见

量子位 2026-01-20 16:15:21
3 跟贴 3
暂时获救！四川男篮质押股权向省篮协借款偿还球员欠薪和本赛季运

狼叔评论 2026-01-22 00:30:12
24 跟贴 24
为什么资深工程师会放任糟糕项目失败？

CSDN 2026-01-22 10:15:18
1 跟贴 1
AI加速入局，全球汽车后市场的爆发前夜

36氪 2026-01-21 16:35:05
0 跟贴 0
认知不同，不必争辩：一种人生的大智慧

沐浴春江 2026-01-22 15:26:28
0 跟贴 0
亏损5亿元后，西贝完成新融资：老朋友新荣记张勇、阿里前合伙人胡晓明“火线救援”！贾国龙曾谈及理想的投资人：给钱，相信我

每日经济新闻 2026-01-21 21:31:05
42 跟贴 42
媒体人：四川男篮遭法院裁决需支付6.58亿元，四川女篮投资人暂时救火

懂球帝 2026-01-22 10:20:02
6 跟贴 6
深圳官方明确：中小学期末不统考！

南方都市报 2026-01-21 19:21:23
887 跟贴 887
ChatGPT接入广告，免费用户首当其冲

量子位 2026-01-21 00:24:14
0 跟贴 0
日增1.6亿公里，256万辆保有量，比亚迪真的开创了全民智驾！

i王石头 2026-01-21 23:12:46
38 跟贴 38
奶茶妹妹创业被嘲，刘强东天塌了！

品牌头版 2026-01-19 18:52:51
1 跟贴 1
2025年度中国股权投资行业「产业并购」投资机构系列名册揭晓！

36氪 2025-11-27 20:42:06
0 跟贴 0
32岁的章泽天根本不理解年轻人！

弗怠进化论 2026-01-22 12:03:00
3 跟贴 3
孟加拉虎 3D 模型 DIY

制造科技 2026-01-21 19:51:40
0 跟贴 0
有中国公民被“上海浦西分局的警官”骗了！中领馆紧急提醒：上海并无浦西区

上观新闻 2026-01-22 11:27:18
317 跟贴 317
互联网，绝不能成为对立的宣泄场

澎湃新闻 2026-01-22 11:40:05
46 跟贴 46

大溃败！中国网贷公司，在印度全军覆没

大溃败！中国网贷公司，在印度全军覆没

首席品牌评论

2026-01-07 18:20:00

万万没想到，小国朝鲜霸占四个世界第一，至今无人能破？

万万没想到，小国朝鲜霸占四个世界第一，至今无人能破？

素年文史

2026-01-20 20:05:03

千人相送只是冰山一角，看了向华炎的葬礼，才知何谓真正的大佬！

千人相送只是冰山一角，看了向华炎的葬礼，才知何谓真正的大佬！

青橘罐头

2026-01-21 19:34:14

退钱哥：经中国使馆与沙特足协协商，中国球迷决赛将免票入场

退钱哥：经中国使馆与沙特足协协商，中国球迷决赛将免票入场

懂球帝

2026-01-21 22:21:07

98年泸定县惨案：690元引发血案，24岁民警遭围殴后枪杀10名村民

98年泸定县惨案：690元引发血案，24岁民警遭围殴后枪杀10名村民

谈史论天地

2026-01-21 23:20:03

女子违停竖中指被撞，疑似撞人车主发声，不是故意原因披露

女子违停竖中指被撞，疑似撞人车主发声，不是故意原因披露

阿纂看事

2026-01-21 18:41:21

原来王菲没撒谎！公开求助、哽咽落泪的李亚鹏，证实了她当年评价

原来王菲没撒谎！公开求助、哽咽落泪的李亚鹏，证实了她当年评价

芳芳历史烩

2026-01-22 12:58:18

“甘肃一拆迁工地被曝有人挖宝”，官方回应：现场已管控，文保部门已介入，“没见到银元”

“甘肃一拆迁工地被曝有人挖宝”，官方回应：现场已管控，文保部门已介入，“没见到银元”

扬子晚报

2026-01-22 15:01:21

奥迪Q5L降11.88万！老车主哭到：早知道不买那么早了

奥迪Q5L降11.88万！老车主哭到：早知道不买那么早了

汽车网评

2026-01-19 19:30:35

-14℃！新一轮雨雪要来！江苏天气最新预测！

-14℃！新一轮雨雪要来！江苏天气最新预测！

句容发布

2026-01-22 05:02:08

高盛：AI有望引爆PCB大周期

高盛：AI有望引爆PCB大周期

财闻

2026-01-21 19:56:32

极氪8X内饰图首次曝光今年上半年上市

极氪8X内饰图首次曝光今年上半年上市

答答买车

2026-01-22 15:22:29

娱乐圈又丢人！嫣然医院捐款名单曝光，年入上亿明星一个都不吭声

娱乐圈又丢人！嫣然医院捐款名单曝光，年入上亿明星一个都不吭声

君笙的拂兮

2026-01-21 07:19:36

换帅的前奏？广东“七冠教头”霸气放话，朱芳雨施压杜锋！

换帅的前奏？广东“七冠教头”霸气放话，朱芳雨施压杜锋！

绯雨儿

2026-01-21 14:29:47

国手常昊：不顾恩师聂卫平的反对，娶大8岁的二婚师姑，如今成了典范

国手常昊：不顾恩师聂卫平的反对，娶大8岁的二婚师姑，如今成了典范

动物奇奇怪怪

2026-01-22 10:44:21

【美股收盘】大逆转！特朗普宣布取消关税道指暴涨588点、英伟达飙升11.7%

【美股收盘】大逆转！特朗普宣布取消关税道指暴涨588点、英伟达飙升11.7%

FX168美股聚焦

2026-01-22 06:05:11

上海炒股大赛冠军的箴言：如果手里只有10万，不妨死磕"七大口诀"

上海炒股大赛冠军的箴言：如果手里只有10万，不妨死磕"七大口诀"

一方聊市

2026-01-19 13:13:48

谁说詹姆斯已被厌恶？珍妮巴斯火速发文澄清，湖人想夺冠离不开他

谁说詹姆斯已被厌恶？珍妮巴斯火速发文澄清，湖人想夺冠离不开他

小路看球

2026-01-22 15:28:50

赢了官司却亏到吐血！嫣然医院搬家，房东成年度最大笑话！

赢了官司却亏到吐血！嫣然医院搬家，房东成年度最大笑话！

达文西看世界

2026-01-20 13:35:51

10亿王者级肉签发申购，打新收益高，但股民中签很难！

10亿王者级肉签发申购，打新收益高，但股民中签很难！

数据挖掘分析

2026-01-22 07:48:41

从硅谷到中关村，AI信息与测评

98文章数 5关注度

往期回顾全部

科技要闻

几千亿只是开胃菜，AI基建还得再砸几万亿

头条要闻

特朗普邀请普京加入和平委员会：他办实事影响力巨大

头条要闻

特朗普邀请普京加入和平委员会：他办实事影响力巨大

体育要闻

珍妮回应爆料：湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市旅行车的春天可能真要来了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

本地

健康

房产

军事航空

50+女性穿衣没头绪？教你3个显瘦还时髦的思路，照搬就好看

本地新闻

云游中国｜格尔木的四季朋友圈，张张值得你点赞

打工人年终总结！健康通关=赢麻了

房产要闻

那个砸下400亿的绿地，又要杀回海南了！

军事要闻

普京：愿意向"和平委员会"提供10亿美元

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版