网易首页 > 网易号 > 正文 申请入驻

红杉中国,刚刚发了一篇Paper

0
分享至

红杉中国,以出乎意料的方式刷屏国内AI圈。

今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。

过去两年多里,AI benchmark渐渐成为评估基础大模型和AI Agent能力的通用工具,海内外高校、研究机构和AI公司推出了大量不同维度的测试体系,而众多的基础大模型和AI Agent就像一个个高三学生,不断在各种题库里刷题,测试能力、提升成绩。

然而快速发展的基础模型和AI Agent毕竟不是普通的高三学生,题库很快被刷爆,并且频频获得高分甚至满分的成绩。这时候,一个重要的问题就出现了:到底是学生变聪明了,还是卷子出了问题?

红杉中国出品,有何不同?

xbench最早是红杉中国在2022年ChatGPT推出后,对AGI进程和主流模型进行的内部月评与汇报。在建设和不断升级“私有题库”的过程中,发现主流模型“刷爆”题目的速度越来越快,基准测试的有效时间在急剧缩短。

图片来源:OpenAI研究员姚顺雨个人博客(评估的有效时间在急剧缩短)

在官宣的技术报告中,红杉中国提出了这个让AI界头疼的问题:想要真实地反映AI的客观能力正变得越来越困难,如何构建更加科学、长效和如实反映AI客观能力的评价体系,正成为指引AI基数突破与产品迭代的重要需求。

科学、长效和如实反映,切中了当前AI基准测试的痛点。红杉中国表示,xbench的推出,是在“评估和推动AI系统提升能力上限与技术边界”的同时,“重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破”。

xbench采用双轨评估体系,构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:第一,评估AI系统的能力上限与技术边界;第二,量化AI系统在真实场景的效用价值(utility value)。其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。

此外,xbench采用长青评估(Evergreen Evaluation)机制,通过持续维护并动态更新测试内容,以确保时效性和相关性。xbench会定期测评市场主流Agent产品,跟踪模型能力演进,捕捉Agent产品迭代过程中的关键突破,进而预测下一个Agent应用的技术-市场契合点(TMF,Tech-Market Fit)。

实用和长青,成为了xbench最大的两个亮点:前者让xbench脱离了市面上很多基准测试中单纯的“智力测验”,后者则形成对AI能力的连续性评估,从而更早更快地判断出AI技术或产品实现落地的“奇点”将出现在哪里。

价值在哪里?

如果仅仅是推出一款基准测试工具,这在形式上并不新鲜,但结合xbench的特点以及红杉中国的行业地位,此举的意义和造成的影响可能会超越普通的基准测试本身。

两年多前,ChatGPT的横空出世终于让AI不再是纸上谈兵,给大众看到了实实在在的价值。这就像iPhone的诞生被视为移动互联网的开端一样,不少人将其比喻为AI时代的iPhone moment。

10多年前,iPhone等智能终端的出现和移动通信技术的进步,给移动互联网时代夯实了地基,最直接的表现就是智能手机APP的大爆发。如今,大模型成为了AGI时代的基础设施,AI应用正在像“全民APP”时代一样,呈现出雨后春笋的苗头。

那个“英雄不问出处”的年代似乎又重现了。移动互联网时代的一切都有望被AGI重构,而且大大降低了创新的成本。未来,一个有划时代意义的AI Agent,不一定非来自于大厂,它或许是某位计算机专业大学生的课后作业,甚至是某个高中生极客的灵光一现。

在这个新叙事下,TMF(技术-市场契合)正成为AGI创业的新范式:对大模型的能力和发展有清晰了解,并在这个基础上找到场景,开发出真正有需求的产品。

xbench的出现,就切中了大模型和Agent的TMF上。在技术报告里,红杉中国用三张图详细解释了TMF在Agent领域创业的阶段:

第一个阶段,未达成TMF:技术可信与市场接受区域没有交集,此时Agent应用仅是工具或概念,无法交付结果或规模化产生价值;Agent对人的影响较小。

第二个阶段,Agent与Human共同工作:技术可信与市场接受区域发生交集,交叉区域是AI带来的价值增量,包括:一,以低于最低人类成本提供可行服务;二,帮助提升应对重复性、质量要求中等的工作内容。而高水准的工作内容,由于数据稀缺、难度更高、依然需要人来执行,此时由于稀缺性,企业获取的AI收入可能会被用于支付高端工作产出。

第三个阶段,专业化Agent:领域专家在构建评估体系,并指引Agent迭代。专家的工作从交付结果转向构建专业评估训练垂类Agents,并提供规模化服务。

阶段1到阶段2的转变是由于AI技术突破、算力与数据的规模扩张带来的;阶段2到阶段3的进展则依赖于熟悉的垂类需求、标准、历史经验的专家。

如果说这是AGI时代的价值转移之路,那xbench就有望成为这条转移之路上的瞭望塔,第一时间看到和抓到AI技术与产品的突破。

投资机构扎的更深了

在此之前,几乎很少有投资机构会去发表一篇学术论文。投资人更多还是在商业化的指标里去评估一个项目的价值,再辅之以一系列感性的、微妙的判断。

当AGI的大潮汹涌到来之时,传统的打法正在发生变化。xbench在技术报告最后,发出了社区共建的号召:基础模型与Agent开发者可以使用最新版本的xbench评测集来第一时间验证产品效果,得到内部黑盒评估集得分;垂类Agent开发者和相关领域的专家或企业,可以与xbench共建与发布特定行业垂类标准的Profession-Aligned xbench;以及从事且具有明确想法的AI评测研究者,可以获取专业标注并长期维护xbench的更新。

成为标准的制定者,打造一个高人才密度的社区,在不断探求和推动AI技术上限的过程中寻找商业化落地的机会,这或许是红杉中国在AGI时代给出的投资新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这可能是最丑的一代宝马

这可能是最丑的一代宝马

放毒
2026-07-04 15:17:44
男篮输日本主因,阵中少了三个关键人,有他们在不会惨败19分

男篮输日本主因,阵中少了三个关键人,有他们在不会惨败19分

兵哥篮球故事
2026-07-04 12:17:05
碾压赖斯!阿森纳砸 6000 万抢世界杯全能战神,打造英超最强中场

碾压赖斯!阿森纳砸 6000 万抢世界杯全能战神,打造英超最强中场

澜归序
2026-07-04 10:52:46
一场30后!美国大满贯卫冕冠军爆冷出局,潍坊姑娘横扫前第1进8强

一场30后!美国大满贯卫冕冠军爆冷出局,潍坊姑娘横扫前第1进8强

林子说事
2026-07-04 12:16:39
哈梅内伊棺前摆着遇害外孙女的遗照,其女儿、女婿、儿媳及14个月大的外孙女均在美以大规模空袭中遇害;伊朗首都空域6日将全面关闭

哈梅内伊棺前摆着遇害外孙女的遗照,其女儿、女婿、儿媳及14个月大的外孙女均在美以大规模空袭中遇害;伊朗首都空域6日将全面关闭

政知新媒体
2026-07-03 19:36:56
默特萨克:我愿意为德国足球做点什么,在德国足协工作没问题

默特萨克:我愿意为德国足球做点什么,在德国足协工作没问题

懂球帝
2026-07-04 15:29:06
佛得角也没想到,辛辛苦苦拖垮阿根廷,或给埃及“做嫁衣”?

佛得角也没想到,辛辛苦苦拖垮阿根廷,或给埃及“做嫁衣”?

墨道荣
2026-07-04 12:03:38
兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

兰州相亲现场:35+女士站成排,男士都绕着走,评论区全是大实话

谭谈社会
2026-05-24 23:20:37
恭喜!香港知名男星宣布妻子再度怀孕,肚子圆滚滚临盆在即

恭喜!香港知名男星宣布妻子再度怀孕,肚子圆滚滚临盆在即

阿握聊事
2026-07-04 00:17:13
周六你需要知道的隔夜全球要闻:摩根大通预计黄金第四季度均价回升至4500美元/盎司 美国最大电网周四用电需求创纪录

周六你需要知道的隔夜全球要闻:摩根大通预计黄金第四季度均价回升至4500美元/盎司 美国最大电网周四用电需求创纪录

财联社
2026-07-04 06:43:03
中国能将云南纳入版图,为何却无法再向南统治缅北,打通印度洋?

中国能将云南纳入版图,为何却无法再向南统治缅北,打通印度洋?

抽象派大师
2026-07-04 00:49:17
突然确诊“懒癌”,杭州女子不敢相信:我每年都做检查的!医生叹息,这种癌伪装能力太强,出现症状千万小心

突然确诊“懒癌”,杭州女子不敢相信:我每年都做检查的!医生叹息,这种癌伪装能力太强,出现症状千万小心

环球网资讯
2026-07-03 18:33:33
王新军未料到离婚16年,独自至今的前妻与孩子,早已步入全新生活

王新军未料到离婚16年,独自至今的前妻与孩子,早已步入全新生活

老吴教育课堂
2026-07-04 14:13:08
1天4瓜!离婚、败诉、被逼发身体私密照、韩红风波后续,个个离谱

1天4瓜!离婚、败诉、被逼发身体私密照、韩红风波后续,个个离谱

好贤观史记
2026-07-04 15:06:40
好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

林林先生
2026-06-13 10:25:06
江波龙不生产存储芯片

江波龙不生产存储芯片

智远同学
2026-07-04 01:00:10
哥伦比亚拿下最后一张晋级门票!世界杯16强产生!对阵图、比赛时间来了

哥伦比亚拿下最后一张晋级门票!世界杯16强产生!对阵图、比赛时间来了

新浪财经
2026-07-04 12:53:01
美媒:中国又一王牌航空旅,换装歼-20A,被替换的也是歼-20

美媒:中国又一王牌航空旅,换装歼-20A,被替换的也是歼-20

蓝星杂谈
2026-07-04 11:51:05
少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

人生录
2026-07-02 16:19:01
08年新加坡陪读妈妈案:4女1男同住一屋,两个月后,以3死1残收场

08年新加坡陪读妈妈案:4女1男同住一屋,两个月后,以3死1残收场

莫地方
2026-07-02 00:10:59
2026-07-04 16:11:00
投资界 incentive-icons
投资界
投资界:清科控股旗下创业与投资资讯平台?
38415文章数 111930关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

投资4000万游乐园被拆设备拉走 原为当地招商引资项目

头条要闻

投资4000万游乐园被拆设备拉走 原为当地招商引资项目

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
手机
游戏
亲子
公开课

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

手机要闻

消息称国行苹果iPhone 18 Pro Max电池5391mAh,增幅11.78%

《GTA6》PS联动仅一周下架!停盘争议连累宣发?

亲子要闻

我曾经有一段失败的婚姻,过来人的经验说:一定不能太软弱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版