网易首页 > 网易号 > 正文 申请入驻

大模型哪家强?红杉xbench:AI评测应该以解决问题的能力为基准

0
分享至

不知道大家有没有这样一种体验,明明模型在各种AI基准评测中的得分很高,但在真正使用时,却状况百出,基本处于一个低可用,甚至不可用的状态。

为什么会出现这样反常识的现象呢?

这里我们就不得不提一下目前主流的AI基准评测体系,虽然目前AI基准评测体系五花八门,但都有一个共有的特点,题库,通过预设的题库中的题目让AI模型进行解答,通过题目结果进行评测。

貌似很公平,但互联网是有记忆的,只要题库中的题目出现过,理论上都能查到,所以,模型很容易就可以“爆库刷题”,进而在评测中取得高分

但模型的能力与刷题,或者说会做题其实并没有什么关系。

很显然,我们需要一套全新的基准评测体系,一种基于AI模型真实解决问题能力,而不是做题能力的评测基准。

于是,Xbench就此诞生。

Xbench是知名投资机构红杉中国推出一款全新的AI基准测试工具,旨在真实地反映AI的客观能力,其在评估和推动AI系统提升能力上限与技术边界的同时,会重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉AI产品的关键突破。

其实Xbench项目开始于2023年3月,构建伊始也是采用题库模式,不出意外,被爆了,主流模型从20,30分快速刷到了90-100分,Xbench团队于2024年重新评估与更新替换题库,没有意外,又被爆了,再换,再爆…

2025年3月,频繁被爆的Xbench团队停止了更新题库,开始质疑现有评估方式,最终,他们决定跳出“研究视角”惯性,转向“市场与业务视角”,从AI落地真实解决问题的能力出发,在2025年5月底,推出了Xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。

研究背景:顶尖学府的跨界合作探索

Xbench由红杉联合全球多所知名高校的研究者一起完成,包括卡内基梅隆大学、麻省理工学院、斯坦福大学、牛津大学、复旦大学等18所知名院校。论文发表于2025年6月,目前已经公开在arXiv上。从作者署名可以看出,这是一个"产学研"结合项目,核心贡献者中既有学术界的研究者,也有来自头猎公司和营销机构的业内专家。

研究团队选择招聘和营销两个领域作为起点,这两个领域都具备一个共同特点:工作流程相对标准化,同时又高度依赖人的经验和判断,而且这两个领域的工作成果可以用相对客观的标准来衡量,招聘的成功率、营销的转化效果都有明确的数据支撑。

核心成果:从技术思维到商业价值

xbench的核心理念非常直接,评测应该与专业实践紧密结合,它不是简单地测试AI的某项孤立能力,而是评估AI在特定专业领域中完成真实任务的表现。

这种评测方式与传统评测有着根本区别。

首先是评测方向的不同,传统评测关注AI在哪些方面存在不足,而xbench关注AI在哪些专业场景中能创造最大价值。

再就是任务的分布不同,传统评测追求任务的多样性,而xbench则聚焦于由领域专家定义的、具有实际价值的任务。

除了以上两点,Xbench相比传统评测,环境和反馈机制也不相同,传统评测通常在静态或模拟环境中进行,而xbench尽量模拟真实工作环境,并使用与业务指标紧密相关的评分标准。

xbench的评测框架设计也非常实用,它先根据市场规模和技术成熟度选择评测领域。市场规模决定了AI能创造的总价值上限,而技术成熟度则影响开发难度。然后由领域专家主导评测任务的设计,确保评测任务与实际工作需求一致,从而确保评测结果能够真实反映AI在实际应用中的价值。

研究团队已经实现了两个具体的评测集:招聘和营销。

在招聘领域,评测任务包括公司映射、人才信息收集和人才筛选,AI需要理解职位要求,知道哪些公司有类似人才,分析这些人才的背景和跳槽可能性,这需要AI具备深度的行业理解能力,而不仅仅是简单的信息检索。

营销领域的评估则关注网红与广告主需求的精准匹配,AI需要根据产品特性、目标受众、预算限制等多维度因素,为客户推荐最合适的网红合作伙伴,这需要AI理解复杂的商业逻辑和市场动态。

这些任务都来源于真实业务场景,并由行业专家参与设计。

方法评析:从能力评测到价值预测

xbench的方法论有几个突出特点,首次将评测与实际业务价值紧密关联,传统评测通常关注模型在特定任务上的准确率,而xbench更关心模型能否提供实际的商业价值,这种转变将AI从实验室带入了实际业务场景。

同时xbench引入了"技术-市场匹配度"(Technology-Market Fit, TMF)的概念,这是一个非常实用的框架,它分析评测指标与成本之间的关系,判断技术是否已经达到了可商业化的程度。具体来说,它通过市场可接受曲线和技术可行曲线的交叉区域,来估计AI每单位任务能创造的价值。

Xbench还建立了长期更新的评测机制,AI领域发展迅速,单一时间点的评测结果很快就会过时,xbench通过持续更新评测结果,跟踪不同AI产品的能力变化,甚至可以发现那些进步迅速的"黑马"产品。

在具体实现上,招聘评测包括50个真实的猎头业务场景,涵盖公司映射、信息检索和人才搜索三类任务,这些任务评估AI在行业知识、人才搜索等方面的能力。

营销评测则要求AI代理根据50个广告主需求,从836个候选网红中找出最合适的匹配。评测过程使用评判模型作为评判器,根据专业评分标准给出1-5的评分。

Xbench最大的挑战在于如何平衡不同利益相关者的需求研究团队需要让学术界认可其科学严谨性,同时要让业界认可其实用价值。这种双重约束导致了一些设计上的妥协。比如在营销任务中,虽然使用了真实的广告需求,但网红数据库相对较小(836个候选者),这与真实的营销环境中数以万计的候选者相比还有不小差距。

还有就是文化和地域的适用性,目前的招聘任务主要基于中国的商业环境,营销任务则更多考虑北美市场,不同文化背景下的商业实践存在显著差异,这可能会影响评估结果的普适性。

结论:不止于排名,更为AI进化指明新方向

研究团队对当前主流AI模型通过Xbench进行了评测,OpenAI的o3模型在两个测试领域都位居榜首。

这个结果并不令人意外,因为o3采用了端到端的强化学习训练,特别针对复杂任务进行了优化。在招聘任务中,o3获得了78.5分的平均成绩,而师出同门的GPT-4o只有38.9分。

同时,模型规模并不是决定性因素:Gemini-2.5-Pro和Gemini-2.5-Flash的表现相当接近,这说明在特定任务上,模型的架构设计可能比参数数量更重要。

Perplexity-Search在招聘任务中的优异表现,甚至超过了其研究版本Perplexity-Research。这个现象反映了过度复杂的推理过程可能会引入更多幻觉,反而降低任务表现。

在营销任务中,各模型的得分普遍较低,最高的o3也只获得了50.8分,因为营销任务的主观性确实更强,需要对文化背景、用户心理有深入理解;同时,当前的AI模型在处理涉及创意和审美判断的任务时还有很大提升空间。

Deepseek R1虽然在数学和编程任务上表现出色,但在这两个商业任务中的表现相对较差,这其实很好的说明了技术能力与商业应用能力之间的差异,能够解决复杂数学问题的AI,不一定能够理解商业场景中的微妙需求。

相比这些评分排名,Xbench还利用TMF分析框架,判断一个AI产品究竟是处于概念炒作阶段,还是已经具备了落地的潜力 。这大大降低了技术选型和投资决策的风险。

Xbench展望了AI应用的三个阶段。

第一阶段,技术与市场脱节,AI只是一个昂贵的玩具或工具,无法大规模创造价值 。

第二阶段,人机协作,AI开始在一些重复性工作中辅助人类,技术可行性与市场接受度开始出现重叠 。

第三阶段,专业Agent主导,在领域专家的引导下,高度专业化的AI Agent能够系统性地完成核心工作流,专家则从执行者转变为AI的设计者和管理者 。

我们看到,xbench其实为AI评测带来了一个新的视角,不再仅仅关注AI能做什么,而是关注AI能为专业领域创造多少价值。对于AI厂商来说,不再需要去猜测市场需要什么,也不用盲目地在一些通用能力上“内卷”,来自真实业务的考题,就是最直接的需求说明书,攻克这些任务,就意味着离商业成功更近了一步。

至顶AI实验室洞见

xbench的出现,标志着AI发展进入了一个新的阶段,我愿意称之为“下半场”。

AI的上半场,是“大炼模型”的时代,其核心逻辑是通过投入海量的计算资源和数据,不断扩大模型的规模,从而在各种通用能力基准上取得突破,这个阶段诞生了像GPT-4,claude-4这样的里程碑,证明了暴力美学的有效性,也完成了对公众和市场的AI启蒙。

而AI的下半场,将是“精耕场景”的时代,当模型的通用能力达到一个瓶颈期后,竞争的焦点不再是谁的模型更大、参数更多,而是谁能将这些强大的能力,与真实的行业场景做更深度、更高效的结合,从而创造出实实在在的商业价值。

下半场的比赛,需要一套全新的游戏规则,xbench恰恰就是为这个新赛段量身定做的,但同时,xbench又不仅仅是一个评测工具,它更是一个价值导向的指向标,正在引导整个AI生态,从对“智商”的单一崇拜,转向对“价值”的务实追求。

这,或许才是AI技术真正走向成熟的开始。

论文地址:https://arxiv.org/pdf/2506.13651

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A:

Q: 现有的AI评测方式有什么问题?

A: 现有AI评测主要依赖题库模式,存在严重的"刷题"问题。由于互联网有记忆,题库中的题目都能被查到,模型很容易通过"爆库刷题"获得高分,但这种高分并不能真实反映模型解决实际问题的能力。这导致许多模型在评测中得分很高,但在真正使用时却状况百出,处于低可用甚至不可用状态。

Q: Xbench是什么?和传统评测有什么区别?

A: Xbench是红杉中国推出的全新AI基准测试工具,专注评估AI在真实场景中解决问题的能力。与传统评测的主要区别:传统评测关注AI哪些方面不足,Xbench关注AI在哪些专业场景能创造最大价值;传统评测追求任务多样性,Xbench聚焦领域专家定义的实际价值任务;传统评测在静态环境进行,Xbench模拟真实工作环境并使用业务指标评分

Q: AI发展会经历哪些阶段?

A: 根据Xbench的分析,AI应用将经历三个阶段:第一阶段是技术与市场脱节,AI只是昂贵的玩具,无法大规模创造价值;第二阶段是人机协作,AI开始在重复性工作中辅助人类,技术可行性与市场接受度出现重叠;第三阶段是专业Agent主导,高度专业化的AI Agent能系统性完成核心工作流,专家从执行者转变为AI的设计者和管理者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

谭老师地理大课堂
2026-04-22 00:03:57
陈翔六点半老员工吴妈去世,陈翔暂未回应,妹爷也已经退出多年

陈翔六点半老员工吴妈去世,陈翔暂未回应,妹爷也已经退出多年

蜜桔娱乐
2026-05-09 16:29:52
演员张颂文片场收工后,将粉丝赠送的茶叶原路退回,并叮嘱“你们自己工作挣的钱给自己和家人花,我收收你们的信就好了”

演员张颂文片场收工后,将粉丝赠送的茶叶原路退回,并叮嘱“你们自己工作挣的钱给自己和家人花,我收收你们的信就好了”

洪观新闻
2026-05-07 15:18:54
上海交大发现:体内有恶性肿瘤的人,身体一般或可能有4个表现?

上海交大发现:体内有恶性肿瘤的人,身体一般或可能有4个表现?

垚垚分享健康
2026-05-09 20:15:08
特朗普“密友”,访华了

特朗普“密友”,访华了

中国新闻周刊
2026-05-09 07:29:04
被人低估的副主席,彭德怀和林彪都说过:他的功劳比我大

被人低估的副主席,彭德怀和林彪都说过:他的功劳比我大

英子谈
2026-05-10 01:11:00
58年毛主席和刘亚楼的会谈不欢而散,刘亚楼连忙求助周总理和罗帅

58年毛主席和刘亚楼的会谈不欢而散,刘亚楼连忙求助周总理和罗帅

历史龙元阁
2026-05-09 14:25:10
美国公开UFO秘密文件,阿波罗宇航员目击神秘天体,布满万亿粒子

美国公开UFO秘密文件,阿波罗宇航员目击神秘天体,布满万亿粒子

译言
2026-05-09 07:43:22
湖南卫视停播翻车:悼念没感动人,反把差评炸出来了

湖南卫视停播翻车:悼念没感动人,反把差评炸出来了

可乐谈情感
2026-05-09 21:11:27
精心伪装豪门妻子,谎话连篇,学历家世全造假,一段婚姻人财两空

精心伪装豪门妻子,谎话连篇,学历家世全造假,一段婚姻人财两空

一盅情怀
2026-05-08 10:59:16
放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

锐评利物浦
2026-05-08 00:30:44
婆婆帮我带了18年孩子,孩子上大学后,父母要来养老,我果断拒绝

婆婆帮我带了18年孩子,孩子上大学后,父母要来养老,我果断拒绝

民间精选故事汇
2026-05-09 20:27:12
毛焦尔当选匈牙利总理;此前曾表示有意访问北京,同时也欢迎中国领导人访问布达佩斯

毛焦尔当选匈牙利总理;此前曾表示有意访问北京,同时也欢迎中国领导人访问布达佩斯

鲁中晨报
2026-05-09 21:22:04
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
让2追3逆转!梁靖崑为何被王皓重用 三大原因揭晓 国乒跟日本争冠

让2追3逆转!梁靖崑为何被王皓重用 三大原因揭晓 国乒跟日本争冠

侃球熊弟
2026-05-10 06:09:48
没保镖没助理!刘强东在福建夜市被偶遇,两女子陪伴,章泽天没来

没保镖没助理!刘强东在福建夜市被偶遇,两女子陪伴,章泽天没来

白面书誏
2026-05-09 14:48:38
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

晓栗
2026-05-08 01:08:33
江西省省长:政府不要带血的GDP,企业也不能要带血的营收

江西省省长:政府不要带血的GDP,企业也不能要带血的营收

新京报
2026-05-09 14:05:07
43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

马拉松跑步健身
2026-05-04 19:32:40
2026-05-10 07:15:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3467文章数 171关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
本地
手机
公开课
军事航空

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

iQOO 15T首发天玑9500特别版:实测帧率无敌 稳如泰山

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版