网易首页 > 网易号 > 正文 申请入驻

RoboChallenge发布年度报告:评测标尺够权威吗?

0
分享至

当下的具身智能行业可谓陷入了“Demo”的怪圈,大家惊呼于视频内机器人的流畅操作,但视频中的机器人却又在现实世界中频繁失误。

这种虚假繁荣的背后,其实是行业长期缺乏真实场景验证、评测标准模糊等问题。机器人从实验室走到现实世界,始终被仿真到现实世界等难题所制约。

模拟器的评估无法完美复现真实世界中的物理扰动、环境变异等关键因素,在此背景下,2025年10月原力灵机Dexmal与Hugging Face联合推出了全球首个具身智能大规模评测平台——RoboChallenge。

紧随其后,原力灵机又与Hugging Face联合智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及GOSIM等机构,于2025年11月20日正式成立RoboChallenge组委会。

2026年1月11日,RoboChallenge榜单更新,前三名依次为Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中国千寻智能自研的模型,而WALL-OSS则是自变量机器人的全自研开源操作大模型。

这个榜单释放出了一个重磅信号:中国自主研发的具身智能模型,已具备与国外顶级模型同台对打的实力,甚至还打赢了。

不过,作为推出还没多久的新兴评测平台,尚处发展完善阶段,网络上的态度也充满争议,所以AI科技评论打算从技术和核心设计的角度,对RoboChallenge进行深度拆解与解读。

01RoboChallenge系统核心设计

在具身智能领域,真机评测的标准化与公平性⻓期以来一直是制约技术横向对比的关键瓶颈。而缺乏统一的评测标尺,更让不同团队的技术成果难以形成有效对比,严重影响了行业迭代效率。

但提供机器人在线服务并非表面看上去那么简单,首要问题是如何向提交算法的用户开放机器人访问权限。

RoboChallenge最开始考虑了三种主要的模式,分别是模型级提交、系统级提交、模型API调用,但这三种模式最后都没有采用,原因在于:

▪计算兼容性:提交模型并使其在其他环境中正确运行极为复杂。软件栈和硬件配置难以匹配,除非提供完全访问权限,否则几乎无法调试。

▪灵活性:RoboChallenge不希望将用户限制在以往系统中默认的 “观测 - 动作” 映射所隐含的 “暂停 - 推理” 控制模式中。

▪可访问性:并非所有人都拥有公网IP,尤其是在网络地址转换(NAT)主导的现代互联网环境中。

于是,RoboChallenge采用 “远程机器人” 交互范式,摒弃传统模型提交、Docker镜像部署等方案,让用户无需上传模型文件或推理代码,通过标准化低层级API即可实现全异步交互。

不同于仿真测试,RoboChallenge拥有UR5、Franka、ARX5、ALOHA等主流机型在内的20台真机测试集群,对这些机器人的选择上,还有几条准则:耐用性、普及性、安全性以及性能良好。

所有机器人均搭载Intel RealSense深度相机,包含俯视工作区域的主相机、机械臂末端的腕部相机及单臂设备专用的侧面相机,为VLA模型提供多视角观测数据。

前期的准备完善后,RoboChallenge又发现测试中的各种因素会导致最后的结果巨大,难以成为客观、公正的测评体系。因此,需要一套规范的方法来控制测试中的各种因素。

首先,对于测试人员导致的差异,RoboChallenge对有经验、无经验、适应性的测试人员进行了测试,发现了一种 “最佳区域效应”(Sweet-spot Effect),如下图所示,存在特定的物体位置组合,在这些位置上任务更有可能成功。根据这些经验,RoboChallenge设计出了更完善的评估协议,特别是更稳定的物体重置方法。


RoboChallenge还对环境中的各种因素进行了研究,比如光照条件,但进行的概念验证实验发现,背景或环境的变化不会对测试结果产生太大影响。


02 Table30基准测试集

Table30基准测试集包含30项围绕固定工作台执行的任务,涵盖家庭、厨房、办公、校园等多元场景,任务类型包括物体整理、机械操作、分类分拣、软体处理等,全面覆盖了VLA模型的核心技术挑战。

这些任务衡量了通用机器人控制算法应具备的多种能力,乍看下来很简单,但即使是最先进的基础模型也无法达到较高的总体成功率。



任务的选择也不是毫无根据的,主要遵循难度覆盖全面、算法挑战覆盖全面、贴近现实生活以及简洁性这四个原则。



RoboChallenge认为,基准测试集是衡量通用机器人技术方法的必要测试。并且,随着评估数据的积累可以发现更多趋势:

首先是,模型的单任务与多任务模型的能力差距显著。

RoboChallenge的评测区分了单任务模型和多任务模型,单任务模型是对特定任务进行优化,多任务模型能够使适配不同类型的任务,泛化能力较好。

对比同一基座模型在单任务与多任务设定下的表现,pi0.5的多任务模型成功率相较于单任务模型下滑了25%。这一数据变相印证了模型需要提高多任务泛化能力。


至于如何平衡“单项精准度”与“多任务适配性”,这或许将会成为通往通用具身智能的关键课题。

其次,任务难度梯队清晰,部分任务成行业共性难题。

Table30的每一个任务都是赋予了机型、构型、能力类型这三个维度,共15个标签。


通过对头部模型成功率的分布,可以将30个标准化任务分为三个不同能力梯队。

第一梯队是hello world级任务,这类人任务对于头部模型而言没有任何难度。第二梯队是简单的任务,对于头部模型比较友好,难度较低。而第三梯队则是特定模型的特长,此类任务呈现极端的两级分化。

更值得关注的是,有部分任务呈现“零突破”的困境——所有参测模型成功率均为0%,典型案例包括“做素三明治”“给盆栽浇水”等任务:


复盘任务后发现,“做素三明治”任务的核心难点在于时序性,做三明治需要按照严格的顺序来做,模型往往在第一步就容易出现数量错误和失败,所以容错率极低,一步错步步错。

“给盆栽浇水”任务则暴露了模型的时序依赖缺失问题,长程任务要求模型维持对历史状态的记忆。一旦中间阶段出现状态丢失,模型就会陷入逻辑混乱,产生类似“幻觉”的随机动作。


此外,整理书籍、叠抹布、排列纸杯等任务,也成为参测模型的高频失败场景。

除了Table30测试集中的30项任务,RoboChallenge指出,当前具身智能领域典型的“卡脖子”任务可以从灵巧性、泛化性、智能以及性能这四个维度梳理。灵巧性是指输出不同的动作、驾驭不同的身体;泛化性是指即使测评对象不同也能成功;智能是面对没做过的任务也能尝试做成功;性能是指机器人的效率。

总的来说,这些失败案例共同指向一个核心结论:当前VLA模型仍未突破“感知-理解-决策-执行”的全闭环协同难题,距离真实场景的规模化应用仍有较大差距。

可见,当下的VLA参测模型仍然存在一些本质上难以解决的因素,现有模型还有巨大的提升空间。

03 落地效果良好

RoboChallenge的报告中指出,平台用户注册数与评测提交量在过去三个月呈指数级增长。并且活跃用户区域也不仅限于中国开发者,美国、新加坡等地的开发者正在逐渐涌入。


平台累计执行的真机测试总数甚至超过了4万次,单日真机测试峰值达到834次,Table30测试集在Hugging Face平台上的累计下载量已达17k次。

从上述前期的准备和后期的效果上来看,RoboChallenge的确精准衡量了VLA模型在真实场景中的综合能力,为市场提供了一个较为客观的评测标尺。

同时,也让业内人士发现,VLA模型仍在攻克人类的本能级操作,参测模型虽具备较强的指令语义理解能力,但在精细操作任务中成功率不高。

而这些尚未解决的技术难题,也正是模型未来的核心发展方向。而当当前的技术难题被模型完美解决后,平台未来将设计出更有区分度的Benchmark,持续引领模型技术迭代。

基于良好的发展基础,RoboChallenge进一步释放开放协作的信号,明确表示希望能吸引更多研究机构、科技企业、初创团队及高校力量加入。

RoboChallenge的早期发起人之一范浩强在回忆建立RoboChallenge的心路历程时,也迫切地表示想弄出下一个Benchmark,涵盖更多更难的任务,更长程的、更广泛的任务,而打造有价值的真实任务、向真实场景靠拢,也是RoboChallenge 2026年的核心发展方向。他还真诚地向全社会喊话,希望大家加入他们的社区一起讨论、一起分享。

未来,随着更多新鲜任务场景的注入、创新评估方法的融合及基准测试集的持续迭代,或许能揭示具身智能模型更多的特性和不足,推动具身智能模型向更通用、更实用的方向稳步发展。

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
装逼撞到你擅长的领域是啥体验?网友:我曾经也干过这种事呀

装逼撞到你擅长的领域是啥体验?网友:我曾经也干过这种事呀

夜深爱杂谈
2025-12-21 17:57:28
谷爱凌为中国夺下米兰-科尔蒂纳冬奥会首银!又一次输给了北京冬奥老对手!

谷爱凌为中国夺下米兰-科尔蒂纳冬奥会首银!又一次输给了北京冬奥老对手!

上观新闻
2026-02-09 21:41:09
河北搜爆器入户排查烟花爆竹,搜到没收罚款

河北搜爆器入户排查烟花爆竹,搜到没收罚款

记录刘杰
2026-02-09 14:38:41
世体:卡瓦哈尔为世界杯渴望获得出场时间,若处境不变可能离队

世体:卡瓦哈尔为世界杯渴望获得出场时间,若处境不变可能离队

兰亭墨未干
2026-02-10 07:51:02
我国31所"副部级大学"排名出炉!南开不输华东五校,华科大第10

我国31所"副部级大学"排名出炉!南开不输华东五校,华科大第10

Delete丨CC
2026-02-09 14:08:27
哈梅内伊发表全国电视讲话!美建议美商船远离伊朗领海!伊朗两大谈判核心“红线”更多细节公布

哈梅内伊发表全国电视讲话!美建议美商船远离伊朗领海!伊朗两大谈判核心“红线”更多细节公布

每日经济新闻
2026-02-10 07:45:06
马士基向中国船企订购8艘大型集装箱船

马士基向中国船企订购8艘大型集装箱船

财联社
2026-02-09 17:44:18
土媒:塔利斯卡降薪54.2%与费内巴切续约两年

土媒:塔利斯卡降薪54.2%与费内巴切续约两年

懂球帝
2026-02-09 16:00:11
1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

文史明鉴
2026-01-20 15:11:14
13人14分钟干翻王牌师,特等功臣回国11年却是副连长,主席指着戏台子问了一句,让在场将军都红了脸

13人14分钟干翻王牌师,特等功臣回国11年却是副连长,主席指着戏台子问了一句,让在场将军都红了脸

历史回忆室
2026-02-09 23:30:11
全体退休人员笑了!3亿退休人员,2026年养老金将调整,如何调整

全体退休人员笑了!3亿退休人员,2026年养老金将调整,如何调整

社保小达人
2026-02-09 10:00:28
女杀手暗杀俄中将后逃3700公里终暴露

女杀手暗杀俄中将后逃3700公里终暴露

岁暮的归南山
2026-02-09 11:53:58
东体:阿马杜在冬训后半段已被雪藏,有关方面曾问过归化意向

东体:阿马杜在冬训后半段已被雪藏,有关方面曾问过归化意向

懂球帝
2026-02-09 12:58:17
《华夏时报》记者王潇雨离世,2月7日仍有作品发表

《华夏时报》记者王潇雨离世,2月7日仍有作品发表

深蓝财经
2026-02-09 14:15:06
港台热议《太平年》“统一”隐喻

港台热议《太平年》“统一”隐喻

环球网资讯
2026-02-10 06:35:45
索尼官宣PS发布会!玩家热议:60分钟!索尼疯了?

索尼官宣PS发布会!玩家热议:60分钟!索尼疯了?

游民星空
2026-02-09 22:15:09
30岁老将重回女篮,宫鲁鸣向现实低头,或提前下课,新帅会是她?

30岁老将重回女篮,宫鲁鸣向现实低头,或提前下课,新帅会是她?

萌兰聊个球
2026-02-08 15:41:44
球员锦标赛对阵:赵心童vs斯莱瑟,吴宜泽vs艾伦,8强中国有望4席

球员锦标赛对阵:赵心童vs斯莱瑟,吴宜泽vs艾伦,8强中国有望4席

小火箭爱体育
2026-02-09 19:58:55
南博事件再升级!《江南春》调拨人是凌波,神秘顾客也浮出水面

南博事件再升级!《江南春》调拨人是凌波,神秘顾客也浮出水面

小娱乐悠悠
2025-12-22 09:35:17
张凌赫深夜悔悟?偏从白鹿身边过,女方白眼全网扒出3年爱恨纠葛

张凌赫深夜悔悟?偏从白鹿身边过,女方白眼全网扒出3年爱恨纠葛

可乐谈情感
2026-02-08 22:16:44
2026-02-10 09:07:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68515文章数 656070关注度
往期回顾 全部

科技要闻

Claude搅动硅谷,AI开始抢企业软件饭碗了?

头条要闻

牛弹琴:想营造有利于"拜鬼"的环境 高市早苗是在妄想

头条要闻

牛弹琴:想营造有利于"拜鬼"的环境 高市早苗是在妄想

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

退保黑灰产仍在“隐秘角落”顶风接单

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

健康
家居
手机
教育
公开课

转头就晕的耳石症,能开车上班吗?

家居要闻

山院焕新 雅聚悦亲朋

手机要闻

京东高端用户都在买啥手机 华为统治力拉满 Mate 80六连冠

教育要闻

全球高考影视化?别被假消息坑了!真相来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版