网易首页 > 网易号 > 正文 申请入驻

ChatGPT、Manus、Genspark哪家强?红杉中国xbench出了考卷

0
分享至

最近,红杉中国 xbench 在行业里有不少动作,连发两篇Agent有关的论文。

老朋友应该都知道,xbench是红杉中国推出的一款AI基准测试,用来量化AI系统在真实场景的效用价值,采用的是长青评估机制。


xbench想在市面上鱼龙混杂的“刷榜”、“野榜”、“纸面数据”之外,建立起一套评价标准,更好地衡量 AI 模型在真实业务场景中,解决复杂问题的能力。

印象中的投资机构,亲自下场参与模型能力测评以及技术标准定义的,不算多。
而在AI新技术范式影响下的VC,似乎已经有了新的组织形态,以及在新组织形态上长出来的技术理解和成果。
记得xbench刚发布的时候,我的理解还停留在大模型测评集的阶段,感觉是投资人为了追求更精准的判断力,主动打造的一手实验数据。
现在再看,红杉中国对AI模型能力边界和Agent发展路线的理解,不亚于一线的技术型公司。

所以,别以为投资人不懂技术、很好忽悠了。
我甚至有种恐慌,也许有一天,头部基金,用Venture Studio等形式,亲自下场做产品也很正常。
听说已经有了。
难道下一个字节跳动,会是投资人在投资机构里,自己vibe coding出来的吗?
说不定真的有可能。


https://xbench.org/

具体说说这两篇论文是咋回事。

上周,xbench 联合 UniPat AI 发布了 BabyVision,一个专注于纯视觉理解能力的评测集。

它讨论的主题很明确:在世界模型和视觉多模态这条路上,模型的潜力远没有被完全释放。

那套评测并不急着给模型打分,更像是在提醒行业,未来的能力增长,很可能来自对真实世界结构的重新理解。

这一周,xbench 又向前推了一步。

这一次,关注点从「看懂世界」转向了「把一天过完」。


https://xbench.org/agi/agentif

AgentIF-OneDay 的出现,标志着 Agent 评测从短时、单点、封闭任务,正式进入长时、复杂、全场景的现实尺度。

它试图回答一个简单又残酷的问题:如果把人类一天的任务量完整交给一个 Agent,它能否在没有人工介入的情况下,把事情真正做完。

在当前的行业语境下,这个问题比任何排行榜都更重要。

01.当单点能力接近 PhD,Agent 的短板开始暴露

过去一年,大模型在单点推理任务上的进步已经非常明显。

无论数学、代码,还是知识密集型问答,分钟级任务的完成质量已经逼近人类高水平专家。

ScienceQA、DeepSearch 这类评测的多次升级,也不断拉高着模型的上限。

问题出现在时间被拉长之后。

一旦任务复杂度超过普通人一小时可以处理的范围,Agent 的整体完成度会出现明显下滑。


这种下滑并不体现在某个步骤做错,而是体现在全过程的失控:上下文断裂、中间目标丢失、工具调用前后不一致、隐含约束被忽略,最终导致任务在形式上完成,实质上失败。

这道鸿沟的存在,让「Agent 已经很强」与「Agent 还不能真正替你工作」这两种判断同时成立。

xbench 在这一阶段选择引入 AgentIF-OneDay,本质上是一次尺度的重构。

评测的核心不再是模型知道多少知识,也不只是能否完成某个高难度推理点,而是把注意力转向一个更贴近现实的问题:完成一个任务,需要消耗多少人类时间,这个时间背后,对应着怎样的经济价值。

02.用「人类一天」重新定义 Agent 的能力边界

AgentIF-OneDay 背后的一个关键判断,是将任务复杂度与知识深度解耦。

在传统评测中,复杂度往往意味着推理链更长、知识点更冷门、逻辑结构更精巧。

但在真实工作中,复杂度更多来自时间和协同成本。一个任务并不一定难,却可能极其耗时,需要反复确认信息、切换工具、处理格式、校验结果,还要在过程中持续保持目标一致。

xbench 提出了两个决定 Agent 能力上限的轴线:scaling context 与 scaling domain。


前者关注时间维度。

Agent 是否能在更长的执行周期中维护上下文状态,记住中间结果,遵守先前的约束,在多步骤、多工具的交互中保持一致性。

从分钟级,到小时级,再到一天级,这是一个对稳定性和记忆管理要求极高的过程。

后者关注任务分布。

现实世界的工作很少是单一领域的连续推理,而是跨 domain、跨格式、跨语境的混合任务。

目标表述往往不完整,约束隐藏在附件里,评估标准随场景变化。

Agent 能否覆盖更广泛的任务类型,决定了它是否具备真正的通用性。

AgentIF-OneDay 正是沿着这两条轴线展开设计。它把评测的时间尺度推进到 OneDay,同时覆盖生活、学习与职业等多个高频场景,试图描绘出当前 Agent 在真实世界任务分布中的能力轮廓。

03.把一天拆开,工作流、范例与迭代才是真实世界


在构造评测任务之前,xbench 分析了大量用户的真实工作日志。

一个有意思的发现是,具体内容千差万别,但任务结构高度稳定。

大多数人的一天,可以被抽象为三种类型。

第一类是工作流执行。

用户清楚知道该做什么,步骤明确,难点集中在执行的繁琐性和信息校验上。

以 NeurIPS 行程规划为例,Agent 需要跨站点核验信息、收集时间节点、判断日程是否发布,再给出不同优化目标下的方案。

这类任务考验的不是创造力,而是耐心、准确性和流程一致性。

第二类是范例参考。

用户无法完整描述规则,只能提供示例或附件。换手机套餐的例子中,Agent 需要从文件中推断隐含条件,在显式指令与隐式约束之间做出平衡。

这是人类日常工作中最常见的模式,也是 Agent 走向内容生产、报告生成等职业型任务的前提。

第三类是迭代式编辑。

需求在过程中不断变化,约束逐步显现,解法并不预先存在。

更新会场布局的任务,要求 Agent 在多轮修改中保持上下文一致,同时遵守来自不同文件的硬性条件。这类任务对状态管理和长期一致性的要求极高。


AgentIF-OneDay 的 104 道任务,正是围绕这三种结构展开。

文件驱动的合成任务覆盖了 PDF、PPT、Excel、图像、代码等 15 种以上格式,模拟的正是现实工作中极为常见的跨来源、跨工具流程。

04.当评分变得细碎,Agent 的失误也无处可藏

为了避免「结果对了就算赢」的粗糙判断,AgentIF-OneDay 为每道任务设计了细粒度的评分标准,总计 767 个评分点。

这些评分点既包含正向指标,也包含负向指标。

格式是否一致、结构是否复现、步骤是否完整,会被逐一检查;误删内容、越界生成、错误操作,同样会被明确扣分。


评测系统采用 LLM 作为裁判,并结合网页检索、HTML 渲染、多模态比对等自动校验方式,尽量减少主观偏差。

在这套机制下,Agent 的得分不只取决于有没有完成任务,更取决于过程是否干净,是否正确解析附件,是否在迭代中保持一致。

评测结果也呈现出一些值得玩味的现象。


从整体任务成功率来看,Manus、Genspark 与 ChatGPT-Agent 集中在 0.62–0.65 区间,构成第一梯队。

不同技术路线的 Agent,在真实任务链上的体感差异并没有拉开数量级。

这在一定程度上印证了模型能力的重要性,在不引入 test-time scaling 的前提下,多智能体框架本身很难制造巨大差距。

从任务领域看,ChatGPT-Agent 更偏向专业生产力,Manus 在生活助手场景表现突出,Genspark 更适合学习型任务。


不同产品的迭代方向,决定了各自的长项与短板。

从能力维度看,Genspark 在隐式指令推断上表现最佳,Manus 在开放工作流执行中更稳定,Minimax-Agent 在迭代式编辑中优势明显。


隐式结构理解依然是当前 Agent 普遍的薄弱环节,尤其是在格式迁移和规则抽取任务中,完整正确的案例仍然罕见。

这些结果共同指向一个结论:稳定性、文件处理链路、隐式结构理解能力,以及跨工具的状态管理,才是决定 Agent 能否承担一天工作量的关键。

05.从OneDay到OneWeek,Agent的下一道门槛

在 AgentIF-OneDay 之后,xbench 已经开始构建 OneWeek 级别的评测集。

一周尺度的任务,带来的挑战并不仅仅是时间更长。

随着跨度增加,任务往往会自然嵌入具体行业语境,金融、医疗、法律等高价值场景的数据获取成本显著上升,rubric 的设计也会变得更加严格。

在这一阶段,依赖静态数据集和离线评测的方式开始显露局限性。

Agent 要想进一步提升,很难只靠训练时吃下更多人类知识,而需要在实际运行中不断修正行为。这也是近期 online learning 讨论升温的背景。

如果把长程 Agent 的发展类比自动驾驶,那么当前阶段更接近有限路段的辅助驾驶。

真正的 FSD 时刻,依赖于大量真实场景数据的积累。用户数据带来的场景多样性,是系统泛化能力的关键来源。

在 Agent 领域,同样的逻辑正在显现。谁能率先建立高质量的数据飞轮,谁就更有可能率先交付可靠的长程 Agent。

当 Agent 能够在一周尺度上稳定产出,它才真正具备进入组织、承担岗位、创造持续经济价值的资格。

AgentIF-OneDay 的意义,正在于此。

它并不宣告某个系统已经足够成熟,而是清晰地标出了下一段路的难度与方向。

最后,强烈大家去看看论文原文!

以及去红杉中国xbench的官网去看看,上面有各种各样的打分和排名,还有些好玩的小东西!


https://xbench.org/

AI一年,人间十年。

连投资人都这么努力,我们也多看些论文吧……


Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
万万没想到,小国朝鲜霸占四个世界第一,至今无人能破?

万万没想到,小国朝鲜霸占四个世界第一,至今无人能破?

素年文史
2026-01-20 20:05:03
千人相送只是冰山一角,看了向华炎的葬礼,才知何谓真正的大佬!

千人相送只是冰山一角,看了向华炎的葬礼,才知何谓真正的大佬!

青橘罐头
2026-01-21 19:34:14
退钱哥:经中国使馆与沙特足协协商,中国球迷决赛将免票入场

退钱哥:经中国使馆与沙特足协协商,中国球迷决赛将免票入场

懂球帝
2026-01-21 22:21:07
98年泸定县惨案:690元引发血案,24岁民警遭围殴后枪杀10名村民

98年泸定县惨案:690元引发血案,24岁民警遭围殴后枪杀10名村民

谈史论天地
2026-01-21 23:20:03
女子违停竖中指被撞,疑似撞人车主发声,不是故意原因披露

女子违停竖中指被撞,疑似撞人车主发声,不是故意原因披露

阿纂看事
2026-01-21 18:41:21
原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

芳芳历史烩
2026-01-22 12:58:18
“甘肃一拆迁工地被曝有人挖宝”,官方回应:现场已管控,文保部门已介入,“没见到银元”

“甘肃一拆迁工地被曝有人挖宝”,官方回应:现场已管控,文保部门已介入,“没见到银元”

扬子晚报
2026-01-22 15:01:21
奥迪Q5L降11.88万!老车主哭到:早知道不买那么早了

奥迪Q5L降11.88万!老车主哭到:早知道不买那么早了

汽车网评
2026-01-19 19:30:35
-14℃!新一轮雨雪要来!江苏天气最新预测!

-14℃!新一轮雨雪要来!江苏天气最新预测!

句容发布
2026-01-22 05:02:08
高盛:AI有望引爆PCB大周期

高盛:AI有望引爆PCB大周期

财闻
2026-01-21 19:56:32
极氪8X内饰图首次曝光 今年上半年上市

极氪8X内饰图首次曝光 今年上半年上市

答答买车
2026-01-22 15:22:29
娱乐圈又丢人!嫣然医院捐款名单曝光,年入上亿明星一个都不吭声

娱乐圈又丢人!嫣然医院捐款名单曝光,年入上亿明星一个都不吭声

君笙的拂兮
2026-01-21 07:19:36
换帅的前奏?广东“七冠教头”霸气放话,朱芳雨施压杜锋!

换帅的前奏?广东“七冠教头”霸气放话,朱芳雨施压杜锋!

绯雨儿
2026-01-21 14:29:47
国手常昊:不顾恩师聂卫平的反对,娶大8岁的二婚师姑,如今成了典范

国手常昊:不顾恩师聂卫平的反对,娶大8岁的二婚师姑,如今成了典范

动物奇奇怪怪
2026-01-22 10:44:21
【美股收盘】大逆转!特朗普宣布取消关税 道指暴涨588点、英伟达飙升11.7%

【美股收盘】大逆转!特朗普宣布取消关税 道指暴涨588点、英伟达飙升11.7%

FX168美股聚焦
2026-01-22 06:05:11
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
谁说詹姆斯已被厌恶?珍妮巴斯火速发文澄清,湖人想夺冠离不开他

谁说詹姆斯已被厌恶?珍妮巴斯火速发文澄清,湖人想夺冠离不开他

小路看球
2026-01-22 15:28:50
赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

达文西看世界
2026-01-20 13:35:51
10亿王者级肉签发申购,打新收益高,但股民中签很难!

10亿王者级肉签发申购,打新收益高,但股民中签很难!

数据挖掘分析
2026-01-22 07:48:41
2026-01-22 16:19:00
AI异类 incentive-icons
AI异类
从硅谷到中关村,AI信息与测评
98文章数 5关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

特朗普邀请普京加入和平委员会:他办实事 影响力巨大

头条要闻

特朗普邀请普京加入和平委员会:他办实事 影响力巨大

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

时尚
本地
健康
房产
军事航空

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

打工人年终总结!健康通关=赢麻了

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

军事要闻

普京:愿意向"和平委员会"提供10亿美元

无障碍浏览 进入关怀版