网易首页 > 网易号 > 正文 申请入驻

红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”

0
分享至

随着基础模型的快速发展和AI Agent进入规模化应用,被广泛用于评估AI能力的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实反映AI系统的客观能力正变得越来越困难,这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库,纷纷在各大测试榜单上斩获高分甚至满分。

因此,构建一个更加科学、长效和反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。

5月26日,红杉中国宣布推出全新的AI基准测试xbench,并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的AI基准测试。xbench将在评估和推动AI系统能力提升上限与技术边界的同时,重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品的关键突破。

xbench基准测试的特点包括:

  • xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI 系统的能力上限与技术边界;(2)量化AI 系统在真实场景的效用价值(Utility Value)。其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。
  • xbench 采用长青评估 (Evergreen Evalution)机制,通过持续维护并动态更新测试内容 ,以确保时效性和相关性。xbench将定期测评市场主流Agent产品,跟踪模型能力演进,捕捉 Agent产品迭代过程中的关键突破,进而预测下一个Agent 应用的技术-市场契合点(TMF,Tech-Market Fit)。作为独立第三方,xbench致力于为每类产品设计公允的评估环境,提供客观且可复现的评价结果。
  • 首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类 Agent评测框架。
  • 在过去两年多的时间里,xbench一直是红杉中国在内部使用的跟踪和评估基础模型能力的工具,今天红杉将其公开并贡献给整个AI社区。无论是基础模型和Agent的开发者, 还是相关领域的专家和企业,或者是对AI评测具有浓厚兴趣的研究者,xbench都欢迎加入,成为使用并完善xbench的一份子,一起打造评估AI能力的新范式。

xbench最早是红杉中国在2022年ChatGPT推出后,对AGI进程和主流模型进行的内部月评与汇报。在建设和不断升级“私有题库”的过程中,红杉中国发现主流模型“刷爆”题目的速度越来越快,基准测试的有效时间在急剧缩短。正是由于这一显著变化,红杉中国对现有评估方式产生了质疑——

“当大家纷纷考满分的时候,到底是学生变聪明了,还是卷子出了问题?”

因此,红杉中国开始思考并准备解决两个核心问题:

1)模型能力和AI实际效用之间的关系?基准测试的题目越出越难,意义是什么?是否落入了惯性思维?AI落地的实际经济价值真的会和AI做难题呈正相关吗?

2) 不同时间维度上的能力比较:在xbench每一次更换题库之后,我们就失去了对AI能力的前后可比性追踪。因为在新的题库下,模型版本也在迭代,无法比较不同时间维度上单个模型的能力如何变化。在判断创业项目的时候,创业者的“成长斜率”是一个重要依据,但在评估AI能力上,题库的不断更新却反而让判断失效。

为了解决这两个问题,xbench给出了新的解题思路:

1) 打破惯性思维,为现实世界的实用性开发新颖的任务设置和评估方式。

当AI进入“下半场”,不仅需要越来越难的AI Search能力的测试基准(AI Capabilities Evals),也需要一套对齐现实世界专家的实用性任务体系(Utility Tasks)。前者考察的是能力边界,呈现形式是score,而后者考察的实用性任务和环境多样性,商业KPIs(Conversion Rate, Closing Rate)和直接的经济产出。

因此,xbench引入了Profession Aligned的基准概念,接下来的评估会使用“双轨制”,分为AGI Tracking和Profession Aligned,AI将面临更多复杂环境下效用的考察,从业务中收集的动态题集,而不单是更难的智力题。

2)建立长青评估体系。静态评估集一旦面世,会出现题目泄露导致过拟合然后迅速失效的问题,我们将维护一个动态更新的题目扩充评估集来缓解这一现象。

针对AI Capacity Evals:学术界提出了很多出色的方法论,但是受限于资源与时间不充分,无法维护成动态扩充的持续评估。xbench希望能延续一系列公开评估集的方法,并提供第三方、黑白盒、Live的评测。

针对Profession Aligned Evals:xbench希望建立从真实业务中Live收集机制,邀请各行业的职业专家共同构建和维护行业的动态评估集。

同时,在动态更新的基础上,xbench设计可横向对比的能力指标,用于在时间上观察到排名之外发展速度与关键突破的信号,帮助判断某个模型是否达到市场可落地阈值,以及在什么时间点上,Agent可以接管已有的业务流程,提供规模化服务。

在xbench推出当天,官网xbench.org上线了首期针对主流基础模型和Agent的测评结果。

红杉中国表示:xbench欢迎社区共建。对于基础模型与Agent开发者,可以使用最新版本的xbench评测集来第一时间验证其产品效果,得到内部黑盒评估集得分;对于垂类Agent开发者、相关领域的专业和企业,欢迎与xbench共建与发布特定行业垂类标准的Profession Aligned xbench;对于从事AI评测研究,具有明确研究想法的研究者,希望获取专业标注并长期维护评估更新,xbench可以帮助AI评估研究想法落地并产生长期影响力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
逃亡沙特不久,马步芳强取亲侄女为妻,蒋介石:他让我颜面尽失

逃亡沙特不久,马步芳强取亲侄女为妻,蒋介石:他让我颜面尽失

史笔似尘钩
2026-03-17 20:35:07
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

美国懵了,能摧毁伊朗电力的石墨炸弹,竟让中国两座城市联手废了

瑛派儿老黄
2026-03-25 23:46:07
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

鹤羽说个事
2026-03-25 22:21:29
向鹏林诗栋退出世界杯

向鹏林诗栋退出世界杯

乒乓11分
2026-03-26 09:48:25
如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

芳芳历史烩
2026-03-25 22:24:25
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
小米公布实情,大家都被雷军骗了

小米公布实情,大家都被雷军骗了

鸣金网
2026-03-26 09:08:36
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
英媒:以色列是特朗普的战争伙伴而非和平伙伴

英媒:以色列是特朗普的战争伙伴而非和平伙伴

参考消息
2026-03-25 18:54:05
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

牛锅巴小钒
2026-03-26 17:09:02
演员因商演获赠股权卷入债务纠纷,账户上30万元被法院冻结

演员因商演获赠股权卷入债务纠纷,账户上30万元被法院冻结

半岛晨报
2026-03-26 17:15:03
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

虎哥闲聊
2026-03-26 15:09:13
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
国产螺丝刀在海外蹿红,在TikTok狂卖2800万

国产螺丝刀在海外蹿红,在TikTok狂卖2800万

跨境派Pro
2026-03-23 14:16:59
2026-03-26 19:35:00
创业邦 incentive-icons
创业邦
关注创新经济及其推动者。
15899文章数 112020关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
艺术
家居
亲子
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版