RoboChallenge发布年度报告：评测标尺够权威吗？|算法|机器人|多任务|大模型|robochallenge

RoboChallenge发布年度报告：评测标尺够权威吗？

2026-02-09 12:23:16　来源: 雷峰网

北京举报

分享至

当下的具身智能行业可谓陷入了“Demo”的怪圈，大家惊呼于视频内机器人的流畅操作，但视频中的机器人却又在现实世界中频繁失误。

这种虚假繁荣的背后，其实是行业长期缺乏真实场景验证、评测标准模糊等问题。机器人从实验室走到现实世界，始终被仿真到现实世界等难题所制约。

模拟器的评估无法完美复现真实世界中的物理扰动、环境变异等关键因素，在此背景下，2025年10月原力灵机Dexmal与Hugging Face联合推出了全球首个具身智能大规模评测平台——RoboChallenge。

紧随其后，原力灵机又与Hugging Face联合智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及GOSIM等机构，于2025年11月20日正式成立RoboChallenge组委会。

2026年1月11日，RoboChallenge榜单更新，前三名依次为Spirit v1.5、pi0.5、WALL-OSS。其中，Spirit v1.5是出自中国千寻智能自研的模型，而WALL-OSS则是自变量机器人的全自研开源操作大模型。

这个榜单释放出了一个重磅信号：中国自主研发的具身智能模型，已具备与国外顶级模型同台对打的实力，甚至还打赢了。

不过，作为推出还没多久的新兴评测平台，尚处发展完善阶段，网络上的态度也充满争议，所以AI科技评论打算从技术和核心设计的角度，对RoboChallenge进行深度拆解与解读。

01RoboChallenge系统核心设计

在具身智能领域，真机评测的标准化与公平性⻓期以来一直是制约技术横向对比的关键瓶颈。而缺乏统一的评测标尺，更让不同团队的技术成果难以形成有效对比，严重影响了行业迭代效率。

但提供机器人在线服务并非表面看上去那么简单，首要问题是如何向提交算法的用户开放机器人访问权限。

RoboChallenge最开始考虑了三种主要的模式，分别是模型级提交、系统级提交、模型API调用，但这三种模式最后都没有采用，原因在于：

▪计算兼容性：提交模型并使其在其他环境中正确运行极为复杂。软件栈和硬件配置难以匹配，除非提供完全访问权限，否则几乎无法调试。

▪灵活性：RoboChallenge不希望将用户限制在以往系统中默认的 “观测 - 动作” 映射所隐含的 “暂停 - 推理” 控制模式中。

▪可访问性：并非所有人都拥有公网IP，尤其是在网络地址转换（NAT）主导的现代互联网环境中。

于是，RoboChallenge采用 “远程机器人” 交互范式，摒弃传统模型提交、Docker镜像部署等方案，让用户无需上传模型文件或推理代码，通过标准化低层级API即可实现全异步交互。

不同于仿真测试，RoboChallenge拥有UR5、Franka、ARX5、ALOHA等主流机型在内的20台真机测试集群，对这些机器人的选择上，还有几条准则：耐用性、普及性、安全性以及性能良好。

所有机器人均搭载Intel RealSense深度相机，包含俯视工作区域的主相机、机械臂末端的腕部相机及单臂设备专用的侧面相机，为VLA模型提供多视角观测数据。

前期的准备完善后，RoboChallenge又发现测试中的各种因素会导致最后的结果巨大，难以成为客观、公正的测评体系。因此，需要一套规范的方法来控制测试中的各种因素。

首先，对于测试人员导致的差异，RoboChallenge对有经验、无经验、适应性的测试人员进行了测试，发现了一种 “最佳区域效应”（Sweet-spot Effect），如下图所示，存在特定的物体位置组合，在这些位置上任务更有可能成功。根据这些经验，RoboChallenge设计出了更完善的评估协议，特别是更稳定的物体重置方法。

RoboChallenge还对环境中的各种因素进行了研究，比如光照条件，但进行的概念验证实验发现，背景或环境的变化不会对测试结果产生太大影响。

02 Table30基准测试集

Table30基准测试集包含30项围绕固定工作台执行的任务，涵盖家庭、厨房、办公、校园等多元场景，任务类型包括物体整理、机械操作、分类分拣、软体处理等，全面覆盖了VLA模型的核心技术挑战。

这些任务衡量了通用机器人控制算法应具备的多种能力，乍看下来很简单，但即使是最先进的基础模型也无法达到较高的总体成功率。

任务的选择也不是毫无根据的，主要遵循难度覆盖全面、算法挑战覆盖全面、贴近现实生活以及简洁性这四个原则。

RoboChallenge认为，基准测试集是衡量通用机器人技术方法的必要测试。并且，随着评估数据的积累可以发现更多趋势：

首先是，模型的单任务与多任务模型的能力差距显著。

RoboChallenge的评测区分了单任务模型和多任务模型，单任务模型是对特定任务进行优化，多任务模型能够使适配不同类型的任务，泛化能力较好。

对比同一基座模型在单任务与多任务设定下的表现，pi0.5的多任务模型成功率相较于单任务模型下滑了25%。这一数据变相印证了模型需要提高多任务泛化能力。

至于如何平衡“单项精准度”与“多任务适配性”，这或许将会成为通往通用具身智能的关键课题。

其次，任务难度梯队清晰，部分任务成行业共性难题。

Table30的每一个任务都是赋予了机型、构型、能力类型这三个维度，共15个标签。

通过对头部模型成功率的分布，可以将30个标准化任务分为三个不同能力梯队。

第一梯队是hello world级任务，这类人任务对于头部模型而言没有任何难度。第二梯队是简单的任务，对于头部模型比较友好，难度较低。而第三梯队则是特定模型的特长，此类任务呈现极端的两级分化。

更值得关注的是，有部分任务呈现“零突破”的困境——所有参测模型成功率均为0%，典型案例包括“做素三明治”“给盆栽浇水”等任务：

复盘任务后发现，“做素三明治”任务的核心难点在于时序性，做三明治需要按照严格的顺序来做，模型往往在第一步就容易出现数量错误和失败，所以容错率极低，一步错步步错。

“给盆栽浇水”任务则暴露了模型的时序依赖缺失问题，长程任务要求模型维持对历史状态的记忆。一旦中间阶段出现状态丢失，模型就会陷入逻辑混乱，产生类似“幻觉”的随机动作。

此外，整理书籍、叠抹布、排列纸杯等任务，也成为参测模型的高频失败场景。

除了Table30测试集中的30项任务，RoboChallenge指出，当前具身智能领域典型的“卡脖子”任务可以从灵巧性、泛化性、智能以及性能这四个维度梳理。灵巧性是指输出不同的动作、驾驭不同的身体；泛化性是指即使测评对象不同也能成功；智能是面对没做过的任务也能尝试做成功；性能是指机器人的效率。

总的来说，这些失败案例共同指向一个核心结论：当前VLA模型仍未突破“感知-理解-决策-执行”的全闭环协同难题，距离真实场景的规模化应用仍有较大差距。

可见，当下的VLA参测模型仍然存在一些本质上难以解决的因素，现有模型还有巨大的提升空间。

03 落地效果良好

RoboChallenge的报告中指出，平台用户注册数与评测提交量在过去三个月呈指数级增长。并且活跃用户区域也不仅限于中国开发者，美国、新加坡等地的开发者正在逐渐涌入。

平台累计执行的真机测试总数甚至超过了4万次，单日真机测试峰值达到834次，Table30测试集在Hugging Face平台上的累计下载量已达17k次。

从上述前期的准备和后期的效果上来看，RoboChallenge的确精准衡量了VLA模型在真实场景中的综合能力，为市场提供了一个较为客观的评测标尺。

同时，也让业内人士发现，VLA模型仍在攻克人类的本能级操作，参测模型虽具备较强的指令语义理解能力，但在精细操作任务中成功率不高。

而这些尚未解决的技术难题，也正是模型未来的核心发展方向。而当当前的技术难题被模型完美解决后，平台未来将设计出更有区分度的Benchmark，持续引领模型技术迭代。

基于良好的发展基础，RoboChallenge进一步释放开放协作的信号，明确表示希望能吸引更多研究机构、科技企业、初创团队及高校力量加入。

RoboChallenge的早期发起人之一范浩强在回忆建立RoboChallenge的心路历程时，也迫切地表示想弄出下一个Benchmark，涵盖更多更难的任务，更长程的、更广泛的任务，而打造有价值的真实任务、向真实场景靠拢，也是RoboChallenge 2026年的核心发展方向。他还真诚地向全社会喊话，希望大家加入他们的社区一起讨论、一起分享。

未来，随着更多新鲜任务场景的注入、创新评估方法的融合及基准测试集的持续迭代，或许能揭示具身智能模型更多的特性和不足，推动具身智能模型向更通用、更实用的方向稳步发展。

雷峰网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.