网易首页 > 网易号 > 正文 申请入驻

RoboChallenge发布年度报告,揭开具身智能真机实测“成绩单”

0
分享至

当大语言模型在各类榜单上激烈角逐时,具身智能领域VLA大模型的“打榜时刻”终于来了——但其比拼更严苛:不是刷题,而是真机评测。

2026 年 1 月 30 日,全球首个具身智能大规模真机评测平台 RoboChallenge 发布《RoboChallenge 年度报告(2025 Q4 – 2026 Q1)》,并同步上线官网每日实时更新的公开榜单。



RoboChallenge官网首页总榜(仅显示 Top 8) 截图日期:2026.2.2

RoboChallenge是由原力灵机Dexmal与Hugging Face于2025年10月联合推出,是一个基于 API 完成远程真机评测平台。它把模型直接放进真实机器人上反复“开卷考试”:同一任务、同一标准、同一硬件约束下,看看谁的分数更高。

上线三个多月,平台累计执行的真机测试(Rollouts)已突破 4 万次,单日模型提交评测最高达到 181 次(Runs)。在这里,Pi0 / Pi0.5、RDT-1B、CogACT 以及 OpenVLA-OFT 等开源模型已经完成测试并登上榜单。

重要的不是“谁第一”,而是一种过程可追溯,数据可复现,结果可对比的评测方式正在被行业认可。

同时,评测过程中的失败轨迹更像一份行业级“错题集”,更诚实地反映出具身智能当前的能力边界、共性痛点与下一阶段必须补齐的工程缺口。



报告核心洞察:基础任务与精细操作任务冰火两重天

RoboChallenge 平台是一个基于真机的评测平台,涵盖了包括 UR5、Franka、ARX5、ALOHA 等在内的 20 台主流机器人测试集群。平台还开源了 Table30 数据集,为全球开发者提供了丰富的标准化桌面操作任务,支持模型训练、离线评估与结果复现。


Table30任务缩略图


Table30 包含 30 个标准化的桌面操作任务,这些任务涵盖了从基本操作到复杂精细控制的各种技能。模型必须完成全部 30 个任务,才能有资格进入 RoboChallenge 的总榜。这个数据集已经在 Hugging Face 平台开源,至今已被下载超过 17K 次,其中近一个月内下载量为 7K 次,展现出其广泛的行业需求和高涨的活跃度。


按机型、构型、能力对Table30任务的分类


本次报告主要洞察如下:

1. 真机验证成行业刚需,需求增长显著

RoboChallenge 平台的评测热度在短短三个月内呈现出指数级增长,已经成为检验具身模型能力的重要入口之一。

至今,平台共核发了 209 个提测资格,其中有 82 位开发者完成了本地推理环境搭建并提交了评测,转化率达到 39.2%,这一比例显示了开发者对平台的高度认可和参与度。

同时,RoboChallenge 作为一个国际化的评测平台,吸引了来自美国、新加坡、日本、阿联酋等多个国家的开发者参与其中,体现了其全球性影响力。


活跃用户地域分布


2. 基础任务成功率较高,上榜模型能力维度大致趋同

RoboChallenge 首页总榜是按照成功率 (Success Rate) 从高到低排序,同时采用成功率与过程分的双重评价体系。为减小单次运行的偶然性误差,每个模型需针对 Table30 中的每一个任务执行 10 次真机测试(Rollouts)。总榜会对全部 30 个任务的成功率和过程分取平均值。


参测 Top 9 模型在不同任务上的表现


上表完整展示了Top 9 模型对全部 30 个任务的完成得分,可以看出,“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率,成为多数模型首选的验证性任务。

例如,堆碗任务(stack_bowls)中,Spirit-v1.5、pi0.5、pi1.0几个模型的成功率(SR)均达到 100%。

从下图可以看出,TOP模型在能力维度方面大致趋同。simple-pick是目前上榜模型掌握得最好的领域,Manipulation类任务也比较领先。相比之下,Softbody是难点,模型成功率普遍低于 10%;涉及长程记忆的Temporal任务,模型表现普遍低迷。


TOP9模型的九大能力维度表现


3. 精细操作任务挑战巨大

随着任务的复杂度提升,尤其是涉及精细操作和长程任务时,成功率迅速下降。

我们也看到,榜首模型在 Table30 上的平均成功率只有 51%。一方面证明了考题(Table30 任务集)设计的挑战性,也表明具身智能在通用能力上仍有巨大提升空间。

同时实测数据显示,参测模型虽具备较强的指令语义理解能力,但在精细操作任务中成功率不足 15%。



从“错题集”,看当前具身智能的真实难点

RoboChallenge 这次年度报告最有价值的部分,在于详细分析了失败率很高的任务背后的共性痛点。

这些失败并非偶然,而是展现了具身智能当前普遍技术瓶颈。数据显示,涉及多步骤操作和精细操控的任务,成功率长期处于低位,部分任务甚至接近 0。通过分析失败率最高的几个任务,报告指出了具身智能当前面临的几大挑战:

1. 初始步骤失败导致“一步错步步错“

做素三明治(make_vegetarian_sandwich)任务,所有上榜的模型成功率均为 0%。

该任务要求严格的操作顺序:首先放置面包,接着加蔬菜、番茄,再放上面包。分析结果显示,大多数模型在第一步(左臂夹取物品)就出现了数量错误或操作失败。一旦初始步骤失败,后续的每个步骤都会因为前面的失误而导致任务彻底失败。



2. 长程任务的“记忆缺失”与时序崩坏

“给盆栽浇水”(water_potted_plant)任务是另一个常见失败任务,所有上榜模型在这一任务中的成功率也为 0%。

失败的原因归结为时序依赖缺失,即长程任务需要模型维持对历史状态的记忆和对任务流程的连续性把握。然而,模型在执行过程中一旦失去对状态的追踪,就会出现逻辑混乱,产生如“幻觉”般的随机动作,最终导致任务失败。



3. 视觉精度不足+误差累积

“整理书籍”(sort_books)任务的成功率最高也仅为 10%。失败的原因主要是视觉感知精度不足和误差累积。

该任务要求极高的视觉分割能力,模型必须精准区分紧挨着的书本。然而,在实际操作中,即便是微小的视觉偏差或前一步操作的失败,都可能被放大并影响后续步骤。误差积累使得任务的完成变得更加困难,最终拉低了整体成功率。

这在商业应用中尤为关键:商业交付需要的是连续且高效的操作,而非偶尔的成功或惊艳。在视觉精度和稳定性上的提升,将直接影响具身智能的实际应用前景。



4. 柔性物体操作难题

在“叠抹布”(fold_dishcloth)任务中,上榜模型的最高成功率仅为 30%。这类任务的主要问题在于物理形变预测难。

柔性物体操作的难题不仅仅是控制问题,它涉及到对物体形变的预判与力学模拟。随着行业发展,柔性物体的操作将成为具身智能应用中亟需突破的瓶颈。



RoboChallenge 平台将这些问题归纳为两大类瓶颈:

感知理解瓶颈:主要发生在任务的初期阶段,涉及对物体的抓取、识别和操作的准确性。

决策与控制瓶颈:主要发生在任务的中后期,涉及到长程决策、精准控制等。

以上挑战也提醒着我们,具身智能的实际应用需要更稳定、可靠的工程实现,而非单纯依赖于算法的突破。

产业观察:RoboChallenge对行业的影响


RoboChallenge 通过大规模、标准化、可复现的真机评测,不仅客观揭示了当前具身智能的技术水位,更对行业生态与发展逻辑产生积极影响:

一、评测机制成为行业基础设施,推动合作范式标准化

随着原力灵机与 Hugging Face 联合智源研究院、智元机器人、Qwen 、星海图、自变量、清华大学、西安交通大学、GOSIM 等多家国内外机构成立 RoboChallenge 组委会,该平台正从技术评测工具升级为行业级公共基础设施。其倡导的“开放共同体”模式,旨在建立一套公认的评测标准与流程。

未来,评测成绩将成为技术选型、项目对接与投资评估中的重要客观依据,推动全行业从“演示驱动”转向“真机评测驱动”。



二、技术发展路径从“炫技”转向“系统工程能力”

RoboChallenge 的“错题集”本质上是为行业指明了未来半年到一年必须补齐的系统能力短板。

行业竞争焦点将逐渐从追求个别任务高分,转向构建可恢复、可维护、可交付的工程体系。谁能系统性地解决长程任务记忆缺失、误差累积与柔性物体操作等“工程硬伤”,谁就更可能实现规模化部署。

三、软硬一体与高质量数据采集依然是战略核心

面对柔性操作、多机型适配、长时序任务等真实场景挑战,单纯依靠模型架构优化已显不足。末端执行器、高精度传感器、仿真‑真机闭环工具链以及规模化高质量行为数据的价值将进一步凸显。

社区已向RoboChallenge平台提出增加机型与适配接口、拓展更多场景维度、建立更严苛的泛化与“盲测”体系等建议,这预示着下一阶段竞争将围绕软硬一体与数据生态展开。

结语

通过可复现可追溯的真机评测和全球开发者的参与,RoboChallenge 为具身智能的发展提供了一个标准化、可复现的测试平台。其不仅展示了当前具身智能模型的能力边界,也为未来的技术进步提供了宝贵的数据和反馈。

随着更多技术和硬件的接入,以及更严格的评测标准的推进,RoboChallenge 有望成为行业不可或缺的基础设施,推动具身智能技术从实验室走向商业化和真实世界应用。

本文为「智能进化论」原创作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

钱再多有什么用?52岁刘强东身家上千亿,儿子却成为他一生的遗憾

青橘罐头
2026-01-31 21:39:14
我升任市长后,参加初恋婚礼被嘲讽,临走时司机一句话全场静寂

我升任市长后,参加初恋婚礼被嘲讽,临走时司机一句话全场静寂

墨染尘香
2025-11-21 19:43:57
一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

每日经济新闻
2026-02-01 16:10:05
“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

洲洲影视娱评
2025-12-08 19:52:00
重返广东队?CBA全明星内线打服胡金秋,曾是杜锋的冠军拼图!

重返广东队?CBA全明星内线打服胡金秋,曾是杜锋的冠军拼图!

绯雨儿
2026-02-03 11:28:14
你家领导说过最炸裂的话是啥?网友:这个社会德不配位的人太多了

你家领导说过最炸裂的话是啥?网友:这个社会德不配位的人太多了

带你感受人间冷暖
2026-02-01 06:11:49
人不会无缘无故患带状疱疹!调查发现:得带状疱疹,离不开这4点

人不会无缘无故患带状疱疹!调查发现:得带状疱疹,离不开这4点

周哥一影视
2026-02-03 19:26:24
广东84-94被双杀!大白边28分13板3帽,谁注意杜锋表情,数据出炉

广东84-94被双杀!大白边28分13板3帽,谁注意杜锋表情,数据出炉

老吴说体育
2026-02-03 21:40:11
谷爱凌脑出血险丧命!休克5分钟伴癫痫,母亲哭诉:差点醒不来

谷爱凌脑出血险丧命!休克5分钟伴癫痫,母亲哭诉:差点醒不来

哄动一时啊
2026-02-02 22:26:42
就在刚刚!官宣中国女篮14人名单!王思雨回归,4后卫7锋线3中锋

就在刚刚!官宣中国女篮14人名单!王思雨回归,4后卫7锋线3中锋

老吴说体育
2026-02-03 13:08:31
1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

1950 年胡兰成获北京任职邀,北上上海想通后偷渡日本保命

唠叨说历史
2026-01-30 14:29:18
春节仅剩14天,社会突现5大“反常现象”,2026年过年彻底变了!

春节仅剩14天,社会突现5大“反常现象”,2026年过年彻底变了!

健身狂人
2026-02-03 08:13:10
整容成瘾,抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

整容成瘾,抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

生命中最美的奇迹
2026-02-02 17:06:14
美国没想到郑丽文会来这一招,反对统一?洪秀柱:应该谋求统一

美国没想到郑丽文会来这一招,反对统一?洪秀柱:应该谋求统一

boss外传
2026-02-02 20:00:03
金钱并非万能:美国为何曝光爱泼斯坦档案?战争将至。

金钱并非万能:美国为何曝光爱泼斯坦档案?战争将至。

飘逸的云朵
2026-02-01 23:45:45
立春大如年,明日4时立春,记得:2不动,吃3样,4人穿红躲5事

立春大如年,明日4时立春,记得:2不动,吃3样,4人穿红躲5事

神牛
2026-02-03 08:37:17
补偿N+4! 德国巨头博世在华启动人员优化,燃油汽车项目成“重灾区”

补偿N+4! 德国巨头博世在华启动人员优化,燃油汽车项目成“重灾区”

新浪财经
2026-02-03 08:19:50
一万人中,能有多少人晚年还能健全走路?少坐多站的人,告诉实话

一万人中,能有多少人晚年还能健全走路?少坐多站的人,告诉实话

健康科普365
2026-01-18 16:35:03
北京知青退休后孤苦一人,去陕西看望昔日恋人,才知已有一大家子

北京知青退休后孤苦一人,去陕西看望昔日恋人,才知已有一大家子

小哥很OK
2024-09-06 14:22:17
孩子私卖长辈金镯被金店1.7万元回收,家长半年后发现要求退还遭拒绝,市监局和警方介入调查

孩子私卖长辈金镯被金店1.7万元回收,家长半年后发现要求退还遭拒绝,市监局和警方介入调查

极目新闻
2026-02-02 13:58:31
2026-02-03 22:31:00
智能进化论 incentive-icons
智能进化论
关注AI产业趋势、场景应用
422文章数 80关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

周生生回应"足金挂坠检出铁银钯":完全符合国家标准

头条要闻

周生生回应"足金挂坠检出铁银钯":完全符合国家标准

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

张柏芝带大儿子澳洲度假,18岁Lucas又高又帅

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

数码
手机
本地
健康
公开课

数码要闻

罗技G正式公布G325 LIGHTSPEED无线耳机,定价79.99美元

手机要闻

华为鸿蒙再次发力:多款机型获推鸿蒙6.0.130 SP15,你收到了吗?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版