网易首页 > 网易号 > 正文 申请入驻

真机实测时代开启!RoboChallenge为具身智能打造“公平竞技场”

0
分享至



【导读】如何客观衡量具身智能算法的真实水平,一直是困扰学术界与产业界的难题。没有真机测试,就没有真正的具身智能。

作者 | 小葳


一台机械臂在桌面上灵巧地抓起积木,精准地放入对应颜色的区域,系统对机器臂的表现实时精准评分,这一幕正在北京的一个具身智能实验室内发生,但控制它的算法可能来自千里之外的硅谷或苏黎世。

在具身智能浪潮席卷全球的今天,如何客观衡量具身智能算法的真实水平,一直是困扰学术界与产业界的难题。

在人工智能波澜壮阔的发展史上,从ImageNet之于计算机视觉,到GLUE之于自然语言处理,基准测试(Benchmark)始终扮演着技术进步的灯塔与标尺。然而,在具身智能领域,真实物理环境下始终缺乏统一、开放且可复现的基准测试方法。

2025年10月15日,Dexmal 原力灵机联合 Huggingface共同发起全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试RoboChallenge。其为具身智能模型在机器人的实际应用提供更加开放和透明的评估标准,并创新推出远程测试模式,推动具身智能正式迈入大规模、标准化的真机评测时代。



没有真机测试,就没有真正的具身智能

长期以来,具身智能的发展陷入一个看似矛盾的局面:算法在仿真环境中表现卓越,一旦落地真实场景,却屡屡受挫。其根源在于仿真与现实之间存在一道难以跨越的“鸿沟”。

过去数十年来,仿真环境虽为算法迭代提供了便利,却无法完全复刻真实世界的复杂性。物理参数的微妙偏差、环境的不确定性、物体材质的多样变化,以及传感器噪声等现实变量,共同构成了仿真器难以逾越的瓶颈。

这导致了一个严峻的现实:仿真高分不等于现实可用。随着具身智能技术走进越来越多工业、家居场景,这种“纸上谈兵”的测试模式,已成为制约具身智能从实验室走向产业化应用的核心障碍。

在RoboChallenge出现之前,各个研究团队或企业通常在自建的、非标准化的封闭环境中测试自己的模型。这导致了几个严重问题:

首先,研究成果之间难以进行公平、透明的横向比较;其次,实验结果难以被第三方复现,阻碍了学术交流与技术迭代;最后,对于产业界,缺乏客观的评估标准使得技术选型和投资决策变得异常困难。

具身智能的下一程,必须建立在真实机器人在真实环境中的执行能力之上。真正的智能不应停留在仿真得分,而应体现在物理世界中每一次抓取、每一次移动的精准与鲁棒。只有建立起经得起现实检验的评测体系,具身智能才能走出虚拟高分的光环,在真实的物理场景中扎根生长。



如何实现公平、可复现、高精度的真机评测?

在具身智能迈向真实世界应用的过程中,一个核心挑战始终悬而未决:如何建立一套既公平又可复现、同时兼顾泛在性的真机评测体系?

RoboChallenge正是在这一背景下应运而生,它由具身智能企业Dexmal原力灵机与全球最大开源AI社区Hugging Face共同发起,以“开放、中立、第三方”为原则,致力于打造全球公认的机器人算法“统一考场”。



为实现真正意义上的“同台竞技”,RoboChallenge构建了业界领先的标准化机器人测试环境。平台集成了一支由10台真实机器人组成的测试队伍,涵盖UR5、Franka Panda、COBOT Magic Aloha与ARX-5四种主流机型,每台均配备多台RealSense RGBD摄像头作为标准传感方案。

研究者无需自行部署硬件,只需通过一组精心设计的在线API,即可获取带精确时间戳的观测数据并执行控制命令,从根本上消除了因硬件差异导致的评测偏差。



  • Table30:小桌面大考验,重新定义机器人能力标尺

作为RoboChallenge推出的首套基准测试集,Table30在看似简单的桌面环境中,系统性地构建了30项日常情境任务,其规模远超行业常见的3–5个任务。这些任务围绕四大维度科学构建:VLA解决方案难点、机器人类型、任务场景与物体属性。


Table30任务列表


Table30的深层价值在于它对机器人核心能力的全面考察:

精确的3D定位:考验模型对空间的细粒度理解;

遮挡与多视角协同:要求算法综合利用多摄像头信息;

时间依赖与多阶段记忆:挑战模型对任务进度的记忆与规划;

双臂协作与软体操作:检验其在复杂交互中的泛化能力。


Pi0.5-30tasks


测试表明,在主流开源VLA模型中,Pi0.5表现最优,但仍无法胜任所有任务。这印证了RoboChallenge基准是迈向通用机器人技术的必要检验。

此外,各模型的SR累积分布(下图)呈现出相似的斜率,表明任务难度分布均匀。未来,性能更强的模型预计将推动曲线向右上方移动。



值得一提的是,Table30彻底突破了传统“成功/失败”的二元评价,创新性地引入多阶段进度评分系统。该系统将任务划分为多个阶段,根据完成情况授予进度点,并对不必要的重试行为进行扣分。即使最终未完全成功,其过程中的有效进展也能被客观衡量。

  • “远程测试”:没有机器人,一样做真机实验

RoboChallenge另一大创新,就是“远程机器人”测试方法。它通过云端化服务和标准化的API接口,彻底打破了机器人测试的硬件资源限制。

研究者无需购买和维护昂贵的机器人设备,只需通过网络提交自己的算法模型,即可在平台进行在线真机测试和验证。这一模式,极大地降低了全球研究者的参与门槛,使高精度的真机实验变得前所未有的便捷和普惠。



远程测试

  • 全面开放与透明:构建可信赖的评测生态

为确保评测的公平与可复现,RoboChallenge采用了视觉输入匹配方法,通过实时比对参考图像来精确重置任务初始状态,保证每次测试的起点完全一致。

平台坚持全面开放原则,不仅免费提供评测服务,更公开所有任务的演示数据(每个任务提供高达1000条轨迹)、测试中间结果与执行日志,真正实现了研究的可复现、可验证与可追溯。

RoboChallenge将如何重塑具身智能未来格局?

作为一项关键的基础设施突破,RoboChallenge的推出预计将从学术研究、产业落地与生态共建三个层面,深刻影响具身智能领域的发展路径与竞争逻辑。

对学术界:降低硬件门槛,加速科研创新

研究人员无需自行搭建和维护昂贵的实体机器人系统,即可在真实物理环境中验证算法性能。这一模式将显著降低科研门槛,尤其有利于资源有限的高校与初创团队,推动研究重心从“硬件集成”回归“算法创新”。更重要的是,其标准化测试环境与公开数据集为领域内建立科学、统一的评估标准奠定基础。

对产业界:建立可信基准,加速技术商业化

对企业和投资机构而言,RoboChallenge能够量化评估不同算法在真实场景下的鲁棒性、泛化能力与完成效率,为技术选型、产品迭代与投资决策提供跨模型可比的数据支撑。这将有助于减少因评测标准不一导致的“技术夸大”或“评估盲区”,推动产业资源向经过真实验证的高价值技术集中,加速具身智能产品走向市场。

对生态圈:共建行业标准,繁荣开发者生态

RoboChallenge有望成为连接全球具身智能研究力量的枢纽。其公开的排行榜、任务数据与评估方法,将吸引全球顶尖的开发者参与其中,共同解决具身智能的核心难题,最终构建一个繁荣、协同创新的全球开发者生态。

结语:一个时代的开始

RoboChallenge的推出,不仅仅是一项Benchmark的发布,更是具身智能发展中的一个重要分水岭。

它标志着具身智能从依赖仿真环境的“实验室阶段”,正式迈入了基于真实物理世界、具备统一标尺的“规模化真机评测时代”。

未来,随着移动操作平台、灵巧手等更多硬件的引入,以及动态环境适应、长期规划等更复杂测试任务的推出,RoboChallenge将持续拓宽评测维度的边界,推动技术向更高阶的通用智能迈进。

本文为「智能进化论」原创作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
教师大势已定:如无意外的话,2026年中国教师队伍将迎来3大变化

教师大势已定:如无意外的话,2026年中国教师队伍将迎来3大变化

哄动一时啊
2026-04-03 17:23:50
4-1逆转!法国人内讧撕出血路 日乒仅剩独苗 大头遭遇最难缠硬茬

4-1逆转!法国人内讧撕出血路 日乒仅剩独苗 大头遭遇最难缠硬茬

星Xin辰大海
2026-04-03 19:44:58
家里有多少钱,才算有钱人?银行行长:3个条件,达到一个就是!

家里有多少钱,才算有钱人?银行行长:3个条件,达到一个就是!

巢客HOME
2026-04-03 08:40:07
从430亿美元跌到3.5亿!印度终于扛不住了,向中国投资打开一道缝

从430亿美元跌到3.5亿!印度终于扛不住了,向中国投资打开一道缝

寻墨阁
2026-03-31 22:08:04
600850,突遭立案!

600850,突遭立案!

中国基金报
2026-04-03 21:27:26
王楚钦上演六局大战!4-2淘汰法国小布!

王楚钦上演六局大战!4-2淘汰法国小布!

眼界纵横
2026-04-03 21:18:12
已介入调查!北冰洋果汁NFC“一盒只加一滴”引争议

已介入调查!北冰洋果汁NFC“一盒只加一滴”引争议

齐鲁壹点
2026-04-03 10:51:30
董宇辉“踩坑”优思益:道歉后,网友问为何不启动“退一赔三”?

董宇辉“踩坑”优思益:道歉后,网友问为何不启动“退一赔三”?

穿透
2026-04-03 21:23:41
随着高桥1-4,乒乓球女子世界杯8强全部出炉:中国军团占半壁江山

随着高桥1-4,乒乓球女子世界杯8强全部出炉:中国军团占半壁江山

侧身凌空斩
2026-04-03 21:13:59
公安部“点名”张雪,释放三个强烈信号,字字说到中年人心坎里

公安部“点名”张雪,释放三个强烈信号,字字说到中年人心坎里

趣味八卦
2026-04-03 07:40:18
森林狼宣布!你好,加内特!等了整整8年时间

森林狼宣布!你好,加内特!等了整整8年时间

篮球实战宝典
2026-04-03 22:04:29
过去一小时北京局地风力达11级,风沙何时结束?

过去一小时北京局地风力达11级,风沙何时结束?

新京报
2026-04-03 18:34:06
96-137!为何惨败?詹姆斯采访给出解释:一针见血!

96-137!为何惨败?詹姆斯采访给出解释:一针见血!

运筹帷幄的篮球
2026-04-03 13:04:44
日本热议美和无缘8强!疲劳成要因 中国仍乒坛高墙 王艺迪太强

日本热议美和无缘8强!疲劳成要因 中国仍乒坛高墙 王艺迪太强

颜小白的篮球梦
2026-04-03 10:26:30
中超夺冠热门诞生:4场不败领跑,把上海海港北京国安远远甩开

中超夺冠热门诞生:4场不败领跑,把上海海港北京国安远远甩开

足球狗说
2026-04-03 21:42:15
1985年王景清探监江青,江青淡淡地说了句:李银桥夫妇办了件好事

1985年王景清探监江青,江青淡淡地说了句:李银桥夫妇办了件好事

鉴史录
2026-04-02 01:50:03
悬赏活捉美军飞行员,伊朗这次玩得有点花!

悬赏活捉美军飞行员,伊朗这次玩得有点花!

识局Insight
2026-04-03 21:40:25
贵州省卫生健康委员会党组成员石永忠被查

贵州省卫生健康委员会党组成员石永忠被查

新京报
2026-04-03 09:35:09
周薪30万镑 31岁曼城队长确定自由身离队 9年随队夺19冠 去向曝光

周薪30万镑 31岁曼城队长确定自由身离队 9年随队夺19冠 去向曝光

我爱英超
2026-04-03 05:55:59
张雪退出凯越机车同年参保人数骤降98%

张雪退出凯越机车同年参保人数骤降98%

雷达财经
2026-04-03 02:00:30
2026-04-03 22:16:49
智能进化论 incentive-icons
智能进化论
关注AI产业趋势、场景应用
442文章数 80关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

医生成区民政局建设项目负责人 自称投资搞建设被坑了

头条要闻

医生成区民政局建设项目负责人 自称投资搞建设被坑了

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

房产
数码
手机
本地
军事航空

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

数码要闻

苹果亏钱买断移动内存为哪般?

手机要闻

内存涨价全面突破安卓阵营,曝苹果要出奇招

本地新闻

跟着歌声游安徽,听古村回响

军事要闻

俄国防部:一架苏-30战机在克里米亚坠毁

无障碍浏览 进入关怀版