具身智能算法哪家强？RoboChallenge见真章！全球首个大规模真机算法评测平台来了|机器人|大模型

分享至

新智元报道

编辑：艾伦

【新智元导读】全球具身智能的玩家们的算法究竟谁更厉害？为了避免「关公战秦琼」，一个LMArena式的统一的全球具身智能算法评测标准亟待出现。专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face，推出了RoboChallenge项目，成为全球首个大规模、多任务的真实物理机器人基准评测平台。

RoboChallenge项目

在机器人智能领域，一个长期存在的问题是「模拟到现实的落差」，即算法在模拟环境中表现优异，却难以在真实世界复现。

这种现实鸿沟制约了具身智能算法的真正落地。

没有一个权威、统一、客观的评测标准，也是具身智能算法在比较中发现并突破短板的一大障碍。

针对这些痛点，专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face共同发起了RoboChallenge项目——全球首个大规模、多任务的真实物理机器人基准评测平台。

RoboChallenge通过让真实机器人执行许多种截然不同的任务，考验了包括但不限于软体物体处理、双臂协同以及多阶段连续操作等难点，充分考验算法对现实世界的理解与泛化能力，为研究者提供了一个严谨、公正的现实环境测评方式，旨在弥合模拟测试与现实部署之间的差距。

研发者即使没有实体机器人，也可以通过远程接入平台，在真实机械上验证算法，为具身智能的研究和应用提供坚实的试金石。

「远程机器人」方法

本地模型远程操控真机

传统的机器人竞赛或评测通常要求参赛者提交模型代码，在主办方环境中运行，这往往导致环境兼容性问题、推理时延以及安全控制隐患。

RoboChallenge创新采用了「远程机器人」架构：用户无需提交模型或Docker镜像，模型始终在用户本地运行，通过开放API远程控制平台上的真实机器人。

这种设计克服了跨环境部署的种种难题——不同计算架构和软件栈的兼容性不再是障碍，用户可在本地熟悉的环境实时推理，同时平台通过HTTP异步队列接收动作指令，保证机器人操作的安全可控。

研发者通过API请求远程获取传感器观测（RGB-D相机、机器人状态等），再将本地模型计算得到的动作序列发送到云端动作队列，由真实机器人依序执行。整个过程无需公开用户模型或提供公网服务接口，适配各种网络环境。

这一远程评测方法有效解决了模型部署难题，保障了评测过程的灵活性与安全性，让更多研究者可以零门槛参与真机测试。

30项真实任务基准集Table30

丰富多样，远超业界

就已公开的真机评测而言，评测任务的数量通常为3-5个，且多为基础性操作，例如某国际比赛中只要求机器人推动或抬起一个立方体。

相比之下，RoboChallenge推出了首个涵盖30项真实任务的基准测试集——Table30，规模和丰富度全球领先。

这30个桌面任务经过精心设计，场景多样，难度梯度分明，涵盖了软体物体处理、双臂协同以及多阶段连续操作等挑战。

例如，任务中机器人可能需要处理毛巾、纸张等柔性物品；执行装配、开关操作时必须双臂同时配合；还有许多任务需要按顺序完成多个步骤，属于长程多阶段流程。

这些任务远超以往基准的复杂度和覆盖面，充分考验算法对现实世界的理解与泛化能力。

据RoboChallenge技术论文介绍，Table30围绕固定桌面场景，但强调多种问题类型，对视觉、语言理解、运动规划等各方面能力都提出考验。

如此大规模且丰富的真实任务集合，使RoboChallenge真正成为全面检验具身智能算法的「试炼场」。

多机型机器人支持

UR5、Franka等广泛硬件接入

为了测试算法的泛化能力，RoboChallenge并非局限于单一机器人硬件，而是通过接入四类主流机器人平台来帮助开发者验证算法能力。包括常见的6自由度工业机械臂UR5（配备Robotiq手爪）和7自由度Franka Emika Panda机械臂（更换了Robotiq抓手），以及双臂移动平台「Cobot Magic Aloha」（安装在移动底盘上的两个6自由度机械臂，模拟Google ALOHA系统），还有国产的新型6自由度机械臂ARX-5。

这些硬件覆盖了从单臂到双臂、固定基座到移动平台的多种形态，都是学术界和工业界常用的机器人型号。

同时，平台为每台机器人配置了多个RealSense深度摄像头等传感器，提供丰富的感知信息。

通过同时支持多机器人环境，RoboChallenge使算法可以在不同机型和场景下反复测试，观察模型在跨硬件、跨场景条件下的表现。

这种广泛的硬件覆盖为验证算法的通用性和鲁棒性奠定了基础，也方便研究者针对不同机器人定制和评估其算法。

科学严谨的评测机制

成功率+进度评分双指标

在评测指标上，RoboChallenge设计了科学且严谨的双重量化标准，确保结果的稳定性与可比性。

首先是任务成功率（Success Rate, SR）：每项任务平台会重复进行多次测试（如10次），统计模型完整完成任务的比例作为成功率。

然而，仅有成功/失败无法细致区分模型优劣，为此平台引入了任务进度评分（Progress Score）机制。

每个任务被划分为若干关键阶段，每完成一阶段即累加对应的进度分值，总分满分为10。

如果模型在最后一步失败，即使成功率为0，也能通过先前阶段的得分反映其部分能力；

反之即使任务成功，若多次反复尝试（比如抓取多次失败后才成功），进度分会因多次重试扣分而降低，从而惩罚不稳定的策略。

例如在「开抽屉」任务中，机器人臂移动到抽屉附近、抓稳把手、拉开抽屉、返回原位等各阶段都有分值，某阶段多次尝试则扣分，确保评分细粒度且客观公正。

最终每个任务同时给出成功率和进度得分两项指标，用以全面衡量算法的表现。

双指标评测不仅能刻画算法在不同难度任务上的局部表现，还通过多次重复试验保证结果具有统计稳定性，不同算法的排名对比也更加公平可信。

开放数据与代码

千余演示助力公平可复现

开放性是RoboChallenge平台的重要原则。

为了降低入门门槛、提升评测的公平性，平台为每项任务提供了丰富的示范数据和基准代码支持。

一方面，官方公开了每个任务的示范轨迹数据，总计超过千条（每个任务最多提供1000个示范记录）。

研究者可以利用这些真实机器人示范数据对模型进行微调学习，然后再提交评测，确保模型在同等信息基础上进行对比。

这种做法类似于计算机视觉领域公布训练数据集以供算法微调，有助于公平比较各算法效果。

另一方面，平台还开放了评测所需的接口和参考代码，包括如何调用远程API、获取传感器信息、格式化动作指令等，使参赛者能够方便地接入自己的算法。

所有测试过程中的机器人执行轨迹和录像也会公布在平台网站上，进一步增强结果的透明度和可复现性。

通过开放数据与代码，RoboChallenge希望构建一个开放协作的研究生态，促使不同团队的算法在相同起点上竞争，推动具身智能算法的快速进步。

初期成果

验证热门算法表现

RoboChallenge平台自启动以来，已有参与者加入测试，为平台的权威性和价值提供了有力验证。

根据官方披露的信息，目前已有多种不同的算法模型在Table30基准上完成了测评。

其中2种是由官方团队基于当下热门的「π系列」模型（Physical Intelligence系列）实现，包括开源算法π0及其增强版π0.5。

通过对主流开源VLA模型算法进行测试，结果显示最新发布的π0.5相较其他模型取得显著优势，但也无法在所有任务上都取得较高的成功率。

由此可见，RoboChallenge基准测试可以作为迈向通用机器人技术的必要性检验。

此外，评测还涵盖了微软开源的CogACT（一种将认知与动作结合的VLA模型）和OpenVLA等其他模型。

这些算法代表了当前具身智能领域的前沿探索，在RoboChallenge统一真实环境下同台竞技，取得了明显差异化的结果。

π0.5模型在大部分任务上取得了领先的成功率和进度评分，显示出更强的综合实力。

参与者不仅为平台积累了初步基准数据，也证明了RoboChallenge评测体系的可用性和公正性。

随着平台的推广，预计将有更多产学研团队提交他们的最新算法，在RoboChallenge上验证效果、发现不足，形成良性的研究循环。

共促具身智能的现实落地

作为全球首创的大规模真机评测平台，RoboChallenge为具身智能研究搭建了一个开放、严谨的现实试验场。

它打破了硬件壁垒和环境限制，让全球的研究人员和企业都能便捷地在真实机器人上验证算法，共享标准化的评测基准。

这种开放协作的模式，有望加速具身智能算法从实验室走向现实世界：

一方面，通过持续的公开评测和数据共享，促使算法不断迭代进步；

另一方面，产业界也可以参考评测结果挑选成熟方案，加快技术落地应用。

全球对机器人与AI感兴趣的研究者和从业者皆可加入RoboChallenge，共同挑战这些真实世界的复杂任务。

在这一开创性的评测平台上所有人集思广益、同台竞逐，推动具身智能迈向新的高度，早日让智能机器人真正走入现实生活。

据悉，后续RoboChallenge将通过举办挑战赛、研讨会及数据共享，积极推动社区共建，鼓励研究者参与任务设计与优化，平台还提供多维度细分排行榜，支持算法性能的深度分析，共同推进具身智能核心问题的解决。

Join RoboChallenge. This Is Your Opportunity To Shine！

参考资料：

官网：https://robochallenge.ai

论文：https://robochallenge.ai/robochallenge_techreport.pdf

GitHub：https://github.com/RoboChallenge/RoboChallengeInference

Hugging Face：https://huggingface.co/RoboChallengeAI

RoboChallenge全球首发同时还有两场相关主题的重磅直播，欢迎预约观看！

附录：真机评测回放界面详解

这是RoboChallenge的一次真机评测回放界面（基于app.rerun.io的Rerun Viewer）。

同一时间轴上同步显示了多路视频与机器人传感/控制数据：关节角、夹爪开合度等。

它让研究者可以像「示波器+监控录像」那样，逐帧回看模型在真实机器人上的行为与决策。

界面结构与含义

① 左栏：数据树（Recordings/Streams）

Recordings（Local）：当前打开的录制文件（一次评测/回放）。
分组如videos_1/videos_2/videos_3：多路相机视频流（例如俯视、腕部、侧视）。
arm/cur_joint/joint_1…joint_6：六个关节的时间序列数据。
arm_gripper：夹爪张开程度随时间变化的曲线。
作用：像文件夹一样勾选/隐藏某个数据流，或快速跳转定位。

② 中上：视频与多窗口画布（Blueprint/Containers）

你看到三张小缩略图，代表三个视频流的当前帧（对应videos_1/2/3）。
作用：对照观察同一时刻，不同视角下的操作细节（例如抓取前的姿态、碰撞、遮挡等）。

③ 中右：数据曲线面板（arm/arm_gripper）

上图「arm」：六条曲线分别对应joint_1 … joint_6，纵轴为角度（弧度），横轴为时间。

下图「arm_gripper」：紫色曲线表示夹爪开合度，变化阶梯清晰可见（开、合、再次开合……）。

作用：将动作策略可视化——比如判断是否因为夹爪未充分张开导致抓取失败、或某个关节出现异常振荡。

④ 右栏：所选实体的元信息（Selection/Data）

当前选择的是videos_1：
- 编码解码器：H.264
- 分辨率：640×480
- 比特深度：8，下采样：4:2:0
- 帧数：1109
- 正在查看的解码帧编号：
作用：核对数据质量与一致性（帧率、分辨率、编码），排查回放/同步问题。

⑤ 底部：统一时间轴（Timeline）

时间戳（UTC）示例：2025-09-20 05:11:02…
每条「灰条」代表一个数据流的时间覆盖区间；黑色竖线为当前播放指针。
作用：逐帧对齐视频与传感曲线；支持回放/暂停/慢放，定位到关键事件（抓取、放置、开关等）。

如何用它做严谨分析

定位失败原因：在视频里看到抓取滑脱，同时在「arm_gripper」曲线发现夹爪开度未达阈值；再看关节曲线是否出现抖动/超调，判断是策略问题还是控制/摩擦导致。
验证「进度评分」阶段：对照任务脚本（如「到位→对准→抓取→撤回」），在时间轴上标注关键帧，确认每一步是否完成及重试次数，为评分提供证据。
多视角数据交叉印证：当俯视图被遮挡（例如手臂自遮挡），可切到腕部/侧视视频，避免单视角误判。
模型对时与延迟测量：通过观察「感知帧到动作曲线变化」的时间差，估算推理/通信延迟，优化远程推理的节奏（比如动作分块下发）。

这套UI的价值

可复盘、可追责、可量化：同一时间线上联动「看得见」（视频）与「量得出」（曲线）的证据链，支撑公平评测与问题诊断。
跨团队共享语境：所有参与者能基于同一回放界面讨论模型行为，减少「口述不一致」。
工程与学术双友好：既能做工程调参（时序、编码、传感质量），也能做学术分析（策略稳定性、阶段完成度、重试惩罚等）。

上手小Tips

在左栏切换/勾选数据流，避免信息过载。
用时间轴放大窗口对准某一次抓取瞬间，配合右侧元数据核对帧号。
发生异常时，先看夹爪曲线与末端关节是否同步异常；再回看多视角视频确认是否有遮挡/打滑。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.