网易首页 > 网易号 > 正文 申请入驻

具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了

0
分享至


新智元报道

编辑:艾伦

【新智元导读】全球具身智能的玩家们的算法究竟谁更厉害?为了避免「关公战秦琼」,一个LMArena式的统一的全球具身智能算法评测标准亟待出现。专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face,推出了RoboChallenge项目,成为全球首个大规模、多任务的真实物理机器人基准评测平台。

RoboChallenge项目

在机器人智能领域,一个长期存在的问题是「模拟到现实的落差」,即算法在模拟环境中表现优异,却难以在真实世界复现。

这种现实鸿沟制约了具身智能算法的真正落地。

没有一个权威、统一、客观的评测标准,也是具身智能算法在比较中发现并突破短板的一大障碍。

针对这些痛点,专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face共同发起了RoboChallenge项目——全球首个大规模、多任务的真实物理机器人基准评测平台。


RoboChallenge通过让真实机器人执行许多种截然不同的任务,考验了包括但不限于软体物体处理、双臂协同以及多阶段连续操作等难点,充分考验算法对现实世界的理解与泛化能力,为研究者提供了一个严谨、公正的现实环境测评方式,旨在弥合模拟测试与现实部署之间的差距。

研发者即使没有实体机器人,也可以通过远程接入平台,在真实机械上验证算法,为具身智能的研究和应用提供坚实的试金石。

「远程机器人」方法

本地模型远程操控真机

传统的机器人竞赛或评测通常要求参赛者提交模型代码,在主办方环境中运行,这往往导致环境兼容性问题、推理时延以及安全控制隐患。

RoboChallenge创新采用了「远程机器人」架构:用户无需提交模型或Docker镜像,模型始终在用户本地运行,通过开放API远程控制平台上的真实机器人。


这种设计克服了跨环境部署的种种难题——不同计算架构和软件栈的兼容性不再是障碍,用户可在本地熟悉的环境实时推理,同时平台通过HTTP异步队列接收动作指令,保证机器人操作的安全可控。

研发者通过API请求远程获取传感器观测(RGB-D相机、机器人状态等),再将本地模型计算得到的动作序列发送到云端动作队列,由真实机器人依序执行。整个过程无需公开用户模型或提供公网服务接口,适配各种网络环境。

这一远程评测方法有效解决了模型部署难题,保障了评测过程的灵活性与安全性,让更多研究者可以零门槛参与真机测试。

30项真实任务基准集Table30

丰富多样,远超业界

就已公开的真机评测而言,评测任务的数量通常为3-5个,且多为基础性操作,例如某国际比赛中只要求机器人推动或抬起一个立方体。

相比之下,RoboChallenge推出了首个涵盖30项真实任务的基准测试集——Table30,规模和丰富度全球领先。

这30个桌面任务经过精心设计,场景多样,难度梯度分明,涵盖了软体物体处理、双臂协同以及多阶段连续操作等挑战。


例如,任务中机器人可能需要处理毛巾、纸张等柔性物品;执行装配、开关操作时必须双臂同时配合;还有许多任务需要按顺序完成多个步骤,属于长程多阶段流程。

这些任务远超以往基准的复杂度和覆盖面,充分考验算法对现实世界的理解与泛化能力。

据RoboChallenge技术论文介绍,Table30围绕固定桌面场景,但强调多种问题类型,对视觉、语言理解、运动规划等各方面能力都提出考验。


如此大规模且丰富的真实任务集合,使RoboChallenge真正成为全面检验具身智能算法的「试炼场」。

多机型机器人支持

UR5、Franka等广泛硬件接入

为了测试算法的泛化能力,RoboChallenge并非局限于单一机器人硬件,而是通过接入四类主流机器人平台来帮助开发者验证算法能力。包括常见的6自由度工业机械臂UR5(配备Robotiq手爪)和7自由度Franka Emika Panda机械臂(更换了Robotiq抓手),以及双臂移动平台「Cobot Magic Aloha」(安装在移动底盘上的两个6自由度机械臂,模拟Google ALOHA系统),还有国产的新型6自由度机械臂ARX-5。

这些硬件覆盖了从单臂到双臂、固定基座到移动平台的多种形态,都是学术界和工业界常用的机器人型号。

同时,平台为每台机器人配置了多个RealSense深度摄像头等传感器,提供丰富的感知信息。

通过同时支持多机器人环境,RoboChallenge使算法可以在不同机型和场景下反复测试,观察模型在跨硬件、跨场景条件下的表现。


这种广泛的硬件覆盖为验证算法的通用性和鲁棒性奠定了基础,也方便研究者针对不同机器人定制和评估其算法。

科学严谨的评测机制

成功率+进度评分双指标

在评测指标上,RoboChallenge设计了科学且严谨的双重量化标准,确保结果的稳定性与可比性。

首先是任务成功率(Success Rate, SR):每项任务平台会重复进行多次测试(如10次),统计模型完整完成任务的比例作为成功率。

然而,仅有成功/失败无法细致区分模型优劣,为此平台引入了任务进度评分(Progress Score)机制。

每个任务被划分为若干关键阶段,每完成一阶段即累加对应的进度分值,总分满分为10。

如果模型在最后一步失败,即使成功率为0,也能通过先前阶段的得分反映其部分能力;

反之即使任务成功,若多次反复尝试(比如抓取多次失败后才成功),进度分会因多次重试扣分而降低,从而惩罚不稳定的策略。

例如在「开抽屉」任务中,机器人臂移动到抽屉附近、抓稳把手、拉开抽屉、返回原位等各阶段都有分值,某阶段多次尝试则扣分,确保评分细粒度且客观公正。


最终每个任务同时给出成功率和进度得分两项指标,用以全面衡量算法的表现。


双指标评测不仅能刻画算法在不同难度任务上的局部表现,还通过多次重复试验保证结果具有统计稳定性,不同算法的排名对比也更加公平可信。

开放数据与代码

千余演示助力公平可复现

开放性是RoboChallenge平台的重要原则。

为了降低入门门槛、提升评测的公平性,平台为每项任务提供了丰富的示范数据和基准代码支持。

一方面,官方公开了每个任务的示范轨迹数据,总计超过千条(每个任务最多提供1000个示范记录)。


研究者可以利用这些真实机器人示范数据对模型进行微调学习,然后再提交评测,确保模型在同等信息基础上进行对比。


这种做法类似于计算机视觉领域公布训练数据集以供算法微调,有助于公平比较各算法效果。

另一方面,平台还开放了评测所需的接口和参考代码,包括如何调用远程API、获取传感器信息、格式化动作指令等,使参赛者能够方便地接入自己的算法。

所有测试过程中的机器人执行轨迹和录像也会公布在平台网站上,进一步增强结果的透明度和可复现性。

通过开放数据与代码,RoboChallenge希望构建一个开放协作的研究生态,促使不同团队的算法在相同起点上竞争,推动具身智能算法的快速进步。

初期成果

验证热门算法表现

RoboChallenge平台自启动以来,已有参与者加入测试,为平台的权威性和价值提供了有力验证。

根据官方披露的信息,目前已有多种不同的算法模型在Table30基准上完成了测评。

其中2种是由官方团队基于当下热门的「π系列」模型(Physical Intelligence系列)实现,包括开源算法π0及其增强版π0.5。


通过对主流开源VLA模型算法进行测试,结果显示最新发布的π0.5相较其他模型取得显著优势,但也无法在所有任务上都取得较高的成功率。


由此可见,RoboChallenge基准测试可以作为迈向通用机器人技术的必要性检验。

此外,评测还涵盖了微软开源的CogACT(一种将认知与动作结合的VLA模型)和OpenVLA等其他模型。

这些算法代表了当前具身智能领域的前沿探索,在RoboChallenge统一真实环境下同台竞技,取得了明显差异化的结果。

π0.5模型在大部分任务上取得了领先的成功率和进度评分,显示出更强的综合实力。

参与者不仅为平台积累了初步基准数据,也证明了RoboChallenge评测体系的可用性和公正性。

随着平台的推广,预计将有更多产学研团队提交他们的最新算法,在RoboChallenge上验证效果、发现不足,形成良性的研究循环。

共促具身智能的现实落地

作为全球首创的大规模真机评测平台,RoboChallenge为具身智能研究搭建了一个开放、严谨的现实试验场。

它打破了硬件壁垒和环境限制,让全球的研究人员和企业都能便捷地在真实机器人上验证算法,共享标准化的评测基准。

这种开放协作的模式,有望加速具身智能算法从实验室走向现实世界:

一方面,通过持续的公开评测和数据共享,促使算法不断迭代进步;

另一方面,产业界也可以参考评测结果挑选成熟方案,加快技术落地应用。

全球对机器人与AI感兴趣的研究者和从业者皆可加入RoboChallenge,共同挑战这些真实世界的复杂任务。

在这一开创性的评测平台上所有人集思广益、同台竞逐,推动具身智能迈向新的高度,早日让智能机器人真正走入现实生活。

据悉,后续RoboChallenge将通过举办挑战赛、研讨会及数据共享,积极推动社区共建,鼓励研究者参与任务设计与优化,平台还提供多维度细分排行榜,支持算法性能的深度分析,共同推进具身智能核心问题的解决。


Join RoboChallenge. This Is Your Opportunity To Shine!

参考资料:

官网:https://robochallenge.ai

论文:https://robochallenge.ai/robochallenge_techreport.pdf

GitHub:https://github.com/RoboChallenge/RoboChallengeInference

Hugging Face:https://huggingface.co/RoboChallengeAI

RoboChallenge全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!



附录:真机评测回放界面详解


这是RoboChallenge的一次真机评测回放界面(基于app.rerun.io的Rerun Viewer)。

同一时间轴上同步显示了多路视频与机器人传感/控制数据:关节角、夹爪开合度等。

它让研究者可以像「示波器+监控录像」那样,逐帧回看模型在真实机器人上的行为与决策。

界面结构与含义

① 左栏:数据树(Recordings/Streams)


  • Recordings(Local):当前打开的录制文件(一次评测/回放)。

  • 分组如videos_1/videos_2/videos_3:多路相机视频流(例如俯视、腕部、侧视)。

  • arm/cur_joint/joint_1…joint_6:六个关节的时间序列数据。

  • arm_gripper:夹爪张开程度随时间变化的曲线。

  • 作用:像文件夹一样勾选/隐藏某个数据流,或快速跳转定位。

② 中上:视频与多窗口画布(Blueprint/Containers)


  • 你看到三张小缩略图,代表三个视频流的当前帧(对应videos_1/2/3)。

  • 作用:对照观察同一时刻,不同视角下的操作细节(例如抓取前的姿态、碰撞、遮挡等)。

③ 中右:数据曲线面板(arm/arm_gripper)

  • 上图「arm」:六条曲线分别对应joint_1 … joint_6,纵轴为角度(弧度),横轴为时间。


  • 下图「arm_gripper」:紫色曲线表示夹爪开合度,变化阶梯清晰可见(开、合、再次开合……)。


  • 作用:将动作策略可视化——比如判断是否因为夹爪未充分张开导致抓取失败、或某个关节出现异常振荡。

④ 右栏:所选实体的元信息(Selection/Data)


  • 当前选择的是videos_1

    • 编码解码器:H.264

    • 分辨率:640×480

    • 比特深度:8,下采样:4:2:0

    • 帧数:1109

    • 正在查看的解码帧编号:

  • 作用:核对数据质量与一致性(帧率、分辨率、编码),排查回放/同步问题。

⑤ 底部:统一时间轴(Timeline)


  • 时间戳(UTC)示例:2025-09-20 05:11:02…

  • 每条「灰条」代表一个数据流的时间覆盖区间;黑色竖线为当前播放指针。

  • 作用:逐帧对齐视频与传感曲线;支持回放/暂停/慢放,定位到关键事件(抓取、放置、开关等)。


如何用它做严谨分析

  • 定位失败原因:在视频里看到抓取滑脱,同时在「arm_gripper」曲线发现夹爪开度未达阈值;再看关节曲线是否出现抖动/超调,判断是策略问题还是控制/摩擦导致。

  • 验证「进度评分」阶段:对照任务脚本(如「到位→对准→抓取→撤回」),在时间轴上标注关键帧,确认每一步是否完成及重试次数,为评分提供证据。

  • 多视角数据交叉印证:当俯视图被遮挡(例如手臂自遮挡),可切到腕部/侧视视频,避免单视角误判。

  • 模型对时与延迟测量:通过观察「感知帧到动作曲线变化」的时间差,估算推理/通信延迟,优化远程推理的节奏(比如动作分块下发)。


这套UI的价值

  • 复盘、可追责、可量化:同一时间线上联动「看得见」(视频)与「量得出」(曲线)的证据链,支撑公平评测与问题诊断。

  • 跨团队共享语境:所有参与者能基于同一回放界面讨论模型行为,减少「口述不一致」。

  • 工程与学术双友好:既能做工程调参(时序、编码、传感质量),也能做学术分析(策略稳定性、阶段完成度、重试惩罚等)。


上手小Tips

  • 在左栏切换/勾选数据流,避免信息过载。

  • 用时间轴放大窗口对准某一次抓取瞬间,配合右侧元数据核对帧号。

  • 发生异常时,先看夹爪曲线与末端关节是否同步异常;再回看多视角视频确认是否有遮挡/打滑。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李嘉诚时代真的结束了!全运会四大家族去了三家,唯独缺了李家!

李嘉诚时代真的结束了!全运会四大家族去了三家,唯独缺了李家!

青青子衿
2025-11-05 21:02:56
100%的责任!中国对荷兰下达“最后通牒”,外媒:这次真的麻烦了

100%的责任!中国对荷兰下达“最后通牒”,外媒:这次真的麻烦了

大卫聊科技
2025-11-05 13:47:37
澳门知名娱乐场英皇宫殿宣布停运,老板为英皇集团掌门人杨受成;曾以大堂铺满78公斤千足黄金闻名,开业时成龙、刘德华等艺人捧场

澳门知名娱乐场英皇宫殿宣布停运,老板为英皇集团掌门人杨受成;曾以大堂铺满78公斤千足黄金闻名,开业时成龙、刘德华等艺人捧场

极目新闻
2025-11-05 16:19:29
安世半导体风波仍在持续,闻泰科技重要股东突然宣布减持:最高价值超16亿元!公司第三季度净利大增279%

安世半导体风波仍在持续,闻泰科技重要股东突然宣布减持:最高价值超16亿元!公司第三季度净利大增279%

每日经济新闻
2025-11-05 22:59:09
雷军回应造车争议,一切都结束了

雷军回应造车争议,一切都结束了

新浪财经
2025-11-05 20:36:42
阿里高管空降山姆引爆退卡潮,网友一片抵制,山姆员工天塌了?

阿里高管空降山姆引爆退卡潮,网友一片抵制,山姆员工天塌了?

眼光很亮
2025-11-05 11:43:46
潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

亚哥谈古论今
2025-11-03 20:27:36
民主党横扫多州选举,共和党失利背后的政治极化趋势

民主党横扫多州选举,共和党失利背后的政治极化趋势

第一财经资讯
2025-11-05 19:04:11
连爆大冷!世界第1第3出局,墨菲6-2胜卫冕冠军,8强对阵具体如下

连爆大冷!世界第1第3出局,墨菲6-2胜卫冕冠军,8强对阵具体如下

小火箭爱体育
2025-11-05 22:45:41
你敢违约,我就用最大杠杆,特朗普政府开始掀桌,中美迟迟不签约

你敢违约,我就用最大杠杆,特朗普政府开始掀桌,中美迟迟不签约

云鹏叙事
2025-11-05 16:22:46
网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

网友好奇,国外全球反诈论坛我们为什么不参加?评论区一言难尽

眼光很亮
2025-11-05 10:40:13
目瞪口呆,德国又炸发电厂!核电煤电统统炸掉,准备靠中国发电?

目瞪口呆,德国又炸发电厂!核电煤电统统炸掉,准备靠中国发电?

boss外传
2025-11-05 02:00:03
玩偶真的不能乱买!一件来自 Shein 的“娃娃”,让整个法国炸了锅

玩偶真的不能乱买!一件来自 Shein 的“娃娃”,让整个法国炸了锅

新欧洲
2025-11-05 20:27:13
柬埔寨“太子集团”资产又遭冻结:涉26辆豪车、11处豪华公寓等,总值超35亿元

柬埔寨“太子集团”资产又遭冻结:涉26辆豪车、11处豪华公寓等,总值超35亿元

极目新闻
2025-11-05 15:06:20
张强(句容人,1995年生),被执行

张强(句容人,1995年生),被执行

句容日报
2025-11-05 16:59:09
西贝迎来“闭店潮”,一切都结束了

西贝迎来“闭店潮”,一切都结束了

首席品牌观察
2025-11-05 15:58:18
全运会神剧情!王钰栋传射助浙江2-1山东 将与新疆抽签决定谁出线

全运会神剧情!王钰栋传射助浙江2-1山东 将与新疆抽签决定谁出线

我爱英超
2025-11-05 21:57:31
女子申请改名多次被拒,“我的名字”谁说了算?

女子申请改名多次被拒,“我的名字”谁说了算?

环球网资讯
2025-11-05 10:51:03
“天河机场飞机冲上街头”?官方回应来了

“天河机场飞机冲上街头”?官方回应来了

鲁中晨报
2025-11-04 18:11:04
京剧大师周信芳不听夫人劝告坚决留大陆,卷入政治洪流成为牺牲品

京剧大师周信芳不听夫人劝告坚决留大陆,卷入政治洪流成为牺牲品

南极狼人
2025-11-05 17:44:34
2025-11-06 04:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13794文章数 66238关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

房产
亲子
本地
游戏
公开课

房产要闻

最新!海南楼市10月热销榜单出炉!

亲子要闻

孩子夹腿触摸自己不一定都是坏事,但这种情况除外!

本地新闻

这届干饭人,已经把博物馆吃成了食堂

一份游戏双平台玩!PS5/PC跨平台购买标志新发现

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版