网易首页 > 网易号 > 正文 申请入驻

具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了

0
分享至


新智元报道

编辑:艾伦

【新智元导读】全球具身智能的玩家们的算法究竟谁更厉害?为了避免「关公战秦琼」,一个LMArena式的统一的全球具身智能算法评测标准亟待出现。专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face,推出了RoboChallenge项目,成为全球首个大规模、多任务的真实物理机器人基准评测平台。

RoboChallenge项目

在机器人智能领域,一个长期存在的问题是「模拟到现实的落差」,即算法在模拟环境中表现优异,却难以在真实世界复现。

这种现实鸿沟制约了具身智能算法的真正落地。

没有一个权威、统一、客观的评测标准,也是具身智能算法在比较中发现并突破短板的一大障碍。

针对这些痛点,专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face共同发起了RoboChallenge项目——全球首个大规模、多任务的真实物理机器人基准评测平台。


RoboChallenge通过让真实机器人执行许多种截然不同的任务,考验了包括但不限于软体物体处理、双臂协同以及多阶段连续操作等难点,充分考验算法对现实世界的理解与泛化能力,为研究者提供了一个严谨、公正的现实环境测评方式,旨在弥合模拟测试与现实部署之间的差距。

研发者即使没有实体机器人,也可以通过远程接入平台,在真实机械上验证算法,为具身智能的研究和应用提供坚实的试金石。

「远程机器人」方法

本地模型远程操控真机

传统的机器人竞赛或评测通常要求参赛者提交模型代码,在主办方环境中运行,这往往导致环境兼容性问题、推理时延以及安全控制隐患。

RoboChallenge创新采用了「远程机器人」架构:用户无需提交模型或Docker镜像,模型始终在用户本地运行,通过开放API远程控制平台上的真实机器人。


这种设计克服了跨环境部署的种种难题——不同计算架构和软件栈的兼容性不再是障碍,用户可在本地熟悉的环境实时推理,同时平台通过HTTP异步队列接收动作指令,保证机器人操作的安全可控。

研发者通过API请求远程获取传感器观测(RGB-D相机、机器人状态等),再将本地模型计算得到的动作序列发送到云端动作队列,由真实机器人依序执行。整个过程无需公开用户模型或提供公网服务接口,适配各种网络环境。

这一远程评测方法有效解决了模型部署难题,保障了评测过程的灵活性与安全性,让更多研究者可以零门槛参与真机测试。

30项真实任务基准集Table30

丰富多样,远超业界

就已公开的真机评测而言,评测任务的数量通常为3-5个,且多为基础性操作,例如某国际比赛中只要求机器人推动或抬起一个立方体。

相比之下,RoboChallenge推出了首个涵盖30项真实任务的基准测试集——Table30,规模和丰富度全球领先。

这30个桌面任务经过精心设计,场景多样,难度梯度分明,涵盖了软体物体处理、双臂协同以及多阶段连续操作等挑战。


例如,任务中机器人可能需要处理毛巾、纸张等柔性物品;执行装配、开关操作时必须双臂同时配合;还有许多任务需要按顺序完成多个步骤,属于长程多阶段流程。

这些任务远超以往基准的复杂度和覆盖面,充分考验算法对现实世界的理解与泛化能力。

据RoboChallenge技术论文介绍,Table30围绕固定桌面场景,但强调多种问题类型,对视觉、语言理解、运动规划等各方面能力都提出考验。


如此大规模且丰富的真实任务集合,使RoboChallenge真正成为全面检验具身智能算法的「试炼场」。

多机型机器人支持

UR5、Franka等广泛硬件接入

为了测试算法的泛化能力,RoboChallenge并非局限于单一机器人硬件,而是通过接入四类主流机器人平台来帮助开发者验证算法能力。包括常见的6自由度工业机械臂UR5(配备Robotiq手爪)和7自由度Franka Emika Panda机械臂(更换了Robotiq抓手),以及双臂移动平台「Cobot Magic Aloha」(安装在移动底盘上的两个6自由度机械臂,模拟Google ALOHA系统),还有国产的新型6自由度机械臂ARX-5。

这些硬件覆盖了从单臂到双臂、固定基座到移动平台的多种形态,都是学术界和工业界常用的机器人型号。

同时,平台为每台机器人配置了多个RealSense深度摄像头等传感器,提供丰富的感知信息。

通过同时支持多机器人环境,RoboChallenge使算法可以在不同机型和场景下反复测试,观察模型在跨硬件、跨场景条件下的表现。


这种广泛的硬件覆盖为验证算法的通用性和鲁棒性奠定了基础,也方便研究者针对不同机器人定制和评估其算法。

科学严谨的评测机制

成功率+进度评分双指标

在评测指标上,RoboChallenge设计了科学且严谨的双重量化标准,确保结果的稳定性与可比性。

首先是任务成功率(Success Rate, SR):每项任务平台会重复进行多次测试(如10次),统计模型完整完成任务的比例作为成功率。

然而,仅有成功/失败无法细致区分模型优劣,为此平台引入了任务进度评分(Progress Score)机制。

每个任务被划分为若干关键阶段,每完成一阶段即累加对应的进度分值,总分满分为10。

如果模型在最后一步失败,即使成功率为0,也能通过先前阶段的得分反映其部分能力;

反之即使任务成功,若多次反复尝试(比如抓取多次失败后才成功),进度分会因多次重试扣分而降低,从而惩罚不稳定的策略。

例如在「开抽屉」任务中,机器人臂移动到抽屉附近、抓稳把手、拉开抽屉、返回原位等各阶段都有分值,某阶段多次尝试则扣分,确保评分细粒度且客观公正。


最终每个任务同时给出成功率和进度得分两项指标,用以全面衡量算法的表现。


双指标评测不仅能刻画算法在不同难度任务上的局部表现,还通过多次重复试验保证结果具有统计稳定性,不同算法的排名对比也更加公平可信。

开放数据与代码

千余演示助力公平可复现

开放性是RoboChallenge平台的重要原则。

为了降低入门门槛、提升评测的公平性,平台为每项任务提供了丰富的示范数据和基准代码支持。

一方面,官方公开了每个任务的示范轨迹数据,总计超过千条(每个任务最多提供1000个示范记录)。


研究者可以利用这些真实机器人示范数据对模型进行微调学习,然后再提交评测,确保模型在同等信息基础上进行对比。


这种做法类似于计算机视觉领域公布训练数据集以供算法微调,有助于公平比较各算法效果。

另一方面,平台还开放了评测所需的接口和参考代码,包括如何调用远程API、获取传感器信息、格式化动作指令等,使参赛者能够方便地接入自己的算法。

所有测试过程中的机器人执行轨迹和录像也会公布在平台网站上,进一步增强结果的透明度和可复现性。

通过开放数据与代码,RoboChallenge希望构建一个开放协作的研究生态,促使不同团队的算法在相同起点上竞争,推动具身智能算法的快速进步。

初期成果

验证热门算法表现

RoboChallenge平台自启动以来,已有参与者加入测试,为平台的权威性和价值提供了有力验证。

根据官方披露的信息,目前已有多种不同的算法模型在Table30基准上完成了测评。

其中2种是由官方团队基于当下热门的「π系列」模型(Physical Intelligence系列)实现,包括开源算法π0及其增强版π0.5。


通过对主流开源VLA模型算法进行测试,结果显示最新发布的π0.5相较其他模型取得显著优势,但也无法在所有任务上都取得较高的成功率。


由此可见,RoboChallenge基准测试可以作为迈向通用机器人技术的必要性检验。

此外,评测还涵盖了微软开源的CogACT(一种将认知与动作结合的VLA模型)和OpenVLA等其他模型。

这些算法代表了当前具身智能领域的前沿探索,在RoboChallenge统一真实环境下同台竞技,取得了明显差异化的结果。

π0.5模型在大部分任务上取得了领先的成功率和进度评分,显示出更强的综合实力。

参与者不仅为平台积累了初步基准数据,也证明了RoboChallenge评测体系的可用性和公正性。

随着平台的推广,预计将有更多产学研团队提交他们的最新算法,在RoboChallenge上验证效果、发现不足,形成良性的研究循环。

共促具身智能的现实落地

作为全球首创的大规模真机评测平台,RoboChallenge为具身智能研究搭建了一个开放、严谨的现实试验场。

它打破了硬件壁垒和环境限制,让全球的研究人员和企业都能便捷地在真实机器人上验证算法,共享标准化的评测基准。

这种开放协作的模式,有望加速具身智能算法从实验室走向现实世界:

一方面,通过持续的公开评测和数据共享,促使算法不断迭代进步;

另一方面,产业界也可以参考评测结果挑选成熟方案,加快技术落地应用。

全球对机器人与AI感兴趣的研究者和从业者皆可加入RoboChallenge,共同挑战这些真实世界的复杂任务。

在这一开创性的评测平台上所有人集思广益、同台竞逐,推动具身智能迈向新的高度,早日让智能机器人真正走入现实生活。

据悉,后续RoboChallenge将通过举办挑战赛、研讨会及数据共享,积极推动社区共建,鼓励研究者参与任务设计与优化,平台还提供多维度细分排行榜,支持算法性能的深度分析,共同推进具身智能核心问题的解决。


Join RoboChallenge. This Is Your Opportunity To Shine!

参考资料:

官网:https://robochallenge.ai

论文:https://robochallenge.ai/robochallenge_techreport.pdf

GitHub:https://github.com/RoboChallenge/RoboChallengeInference

Hugging Face:https://huggingface.co/RoboChallengeAI

RoboChallenge全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!



附录:真机评测回放界面详解


这是RoboChallenge的一次真机评测回放界面(基于app.rerun.io的Rerun Viewer)。

同一时间轴上同步显示了多路视频与机器人传感/控制数据:关节角、夹爪开合度等。

它让研究者可以像「示波器+监控录像」那样,逐帧回看模型在真实机器人上的行为与决策。

界面结构与含义

① 左栏:数据树(Recordings/Streams)


  • Recordings(Local):当前打开的录制文件(一次评测/回放)。

  • 分组如videos_1/videos_2/videos_3:多路相机视频流(例如俯视、腕部、侧视)。

  • arm/cur_joint/joint_1…joint_6:六个关节的时间序列数据。

  • arm_gripper:夹爪张开程度随时间变化的曲线。

  • 作用:像文件夹一样勾选/隐藏某个数据流,或快速跳转定位。

② 中上:视频与多窗口画布(Blueprint/Containers)


  • 你看到三张小缩略图,代表三个视频流的当前帧(对应videos_1/2/3)。

  • 作用:对照观察同一时刻,不同视角下的操作细节(例如抓取前的姿态、碰撞、遮挡等)。

③ 中右:数据曲线面板(arm/arm_gripper)

  • 上图「arm」:六条曲线分别对应joint_1 … joint_6,纵轴为角度(弧度),横轴为时间。


  • 下图「arm_gripper」:紫色曲线表示夹爪开合度,变化阶梯清晰可见(开、合、再次开合……)。


  • 作用:将动作策略可视化——比如判断是否因为夹爪未充分张开导致抓取失败、或某个关节出现异常振荡。

④ 右栏:所选实体的元信息(Selection/Data)


  • 当前选择的是videos_1

    • 编码解码器:H.264

    • 分辨率:640×480

    • 比特深度:8,下采样:4:2:0

    • 帧数:1109

    • 正在查看的解码帧编号:

  • 作用:核对数据质量与一致性(帧率、分辨率、编码),排查回放/同步问题。

⑤ 底部:统一时间轴(Timeline)


  • 时间戳(UTC)示例:2025-09-20 05:11:02…

  • 每条「灰条」代表一个数据流的时间覆盖区间;黑色竖线为当前播放指针。

  • 作用:逐帧对齐视频与传感曲线;支持回放/暂停/慢放,定位到关键事件(抓取、放置、开关等)。


如何用它做严谨分析

  • 定位失败原因:在视频里看到抓取滑脱,同时在「arm_gripper」曲线发现夹爪开度未达阈值;再看关节曲线是否出现抖动/超调,判断是策略问题还是控制/摩擦导致。

  • 验证「进度评分」阶段:对照任务脚本(如「到位→对准→抓取→撤回」),在时间轴上标注关键帧,确认每一步是否完成及重试次数,为评分提供证据。

  • 多视角数据交叉印证:当俯视图被遮挡(例如手臂自遮挡),可切到腕部/侧视视频,避免单视角误判。

  • 模型对时与延迟测量:通过观察「感知帧到动作曲线变化」的时间差,估算推理/通信延迟,优化远程推理的节奏(比如动作分块下发)。


这套UI的价值

  • 复盘、可追责、可量化:同一时间线上联动「看得见」(视频)与「量得出」(曲线)的证据链,支撑公平评测与问题诊断。

  • 跨团队共享语境:所有参与者能基于同一回放界面讨论模型行为,减少「口述不一致」。

  • 工程与学术双友好:既能做工程调参(时序、编码、传感质量),也能做学术分析(策略稳定性、阶段完成度、重试惩罚等)。


上手小Tips

  • 在左栏切换/勾选数据流,避免信息过载。

  • 用时间轴放大窗口对准某一次抓取瞬间,配合右侧元数据核对帧号。

  • 发生异常时,先看夹爪曲线与末端关节是否同步异常;再回看多视角视频确认是否有遮挡/打滑。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20岁华裔选手夺金!美国网友网暴谷爱凌:叛徒 贪婪的机会主义者

20岁华裔选手夺金!美国网友网暴谷爱凌:叛徒 贪婪的机会主义者

念洲
2026-02-20 08:20:53
2月19日俄乌最新:小泽公开谴责川普

2月19日俄乌最新:小泽公开谴责川普

西楼饮月
2026-02-19 19:48:41
休媒纷纷发声为KD点赞:决胜10分挑大梁 火箭又啃老 斯通换他赢麻

休媒纷纷发声为KD点赞:决胜10分挑大梁 火箭又啃老 斯通换他赢麻

颜小白的篮球梦
2026-02-20 11:07:08
英国国王的弟弟安德鲁被捕,特朗普发声

英国国王的弟弟安德鲁被捕,特朗普发声

环球网资讯
2026-02-20 09:14:53
宁忠岩击败美国速滑之神,美媒沮丧:史上最出色的运动员被重创了

宁忠岩击败美国速滑之神,美媒沮丧:史上最出色的运动员被重创了

杨华评论
2026-02-20 02:11:06
“不是在排队,就是在排队”!多地紧急提醒→

“不是在排队,就是在排队”!多地紧急提醒→

中国网
2026-02-20 10:19:58
日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

阿諢体育
2026-02-20 05:48:08
2天夺3金!冬奥会奖牌榜大乱:中国队升7位冲亚洲第1 剩3个夺金点

2天夺3金!冬奥会奖牌榜大乱:中国队升7位冲亚洲第1 剩3个夺金点

侃球熊弟
2026-02-20 06:30:41
“这很难,但我相信你们”!黄仁勋上周宴请SK海力士工程师,亲自敬酒,敦促“无延迟交付HBM4”

“这很难,但我相信你们”!黄仁勋上周宴请SK海力士工程师,亲自敬酒,敦促“无延迟交付HBM4”

华尔街见闻官方
2026-02-19 12:04:56
每天7点起床画眉贴胡子,驱车1小时赶到临安衣锦城!山西00后小伙过年不回家,留在杭州当“吴越钱王”

每天7点起床画眉贴胡子,驱车1小时赶到临安衣锦城!山西00后小伙过年不回家,留在杭州当“吴越钱王”

都市快报橙柿互动
2026-02-20 00:37:22
加盟4连胜!哈登三节打卡16+9米切尔露齿大笑 骑士15战13胜真北伐

加盟4连胜!哈登三节打卡16+9米切尔露齿大笑 骑士15战13胜真北伐

颜小白的篮球梦
2026-02-20 10:47:29
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

芭比衣橱
2026-02-19 21:00:42
杜兰特35+8+4+1+3完爆超级新秀,申京打铁阿门9分,火箭复仇黄蜂

杜兰特35+8+4+1+3完爆超级新秀,申京打铁阿门9分,火箭复仇黄蜂

钉钉陌上花开
2026-02-20 10:24:48
涉重大刑案!刘述期大年初二落网,此前被悬赏3万元抓捕,逃跑时手持管铩,背带柴刀

涉重大刑案!刘述期大年初二落网,此前被悬赏3万元抓捕,逃跑时手持管铩,背带柴刀

封面新闻
2026-02-19 21:47:07
王毅重磅发声!高市强硬反击,日会长紧急取消访华,东盟态度大变

王毅重磅发声!高市强硬反击,日会长紧急取消访华,东盟态度大变

拾破烂的天真
2026-02-20 01:46:05
特朗普回应奥巴马涉外星人言论:我不知道是否真实存在,但奥巴马肯定泄密了

特朗普回应奥巴马涉外星人言论:我不知道是否真实存在,但奥巴马肯定泄密了

环球网资讯
2026-02-20 09:26:07
妈祖被替后续:现场混乱不堪,知情人爆更多猛料,女孩全家被威胁

妈祖被替后续:现场混乱不堪,知情人爆更多猛料,女孩全家被威胁

离离言几许
2026-02-19 16:27:03
50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

一盅情怀
2026-02-19 18:38:36
2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

米果说识
2026-02-19 09:32:34
没选错!哈登三节16分9助3断!加盟骑士4战全胜,东部格局大变

没选错!哈登三节16分9助3断!加盟骑士4战全胜,东部格局大变

体坛小李
2026-02-20 11:04:41
2026-02-20 11:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14557文章数 66632关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

法国:欧委会派员参加所谓"和平委员会"会议未获授权

头条要闻

法国:欧委会派员参加所谓"和平委员会"会议未获授权

体育要闻

宁忠岩4年从第7到摘金,刷新奥运纪录

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
艺术
房产
公开课
军事航空

旅游要闻

河北唐山:灯火璀璨耀老街 民俗欢腾迎八方客

艺术要闻

李白若在世,诺贝尔文学奖会是他的囊中物吗?

房产要闻

春节三亚楼市再放大招!千亿巨头,重磅推出超性价比海景现房

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版