网易首页 > 网易号 > 正文 申请入驻

RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

0
分享至

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。



π0测试结果



π0.5测试结果

相比之下,自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。



wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

免责声明:该文章系我网转载,旨在为读者提供更多资讯。所涉内容不构成投资、消费建议,仅供读者参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马中场楚阿梅尼打破沉默,回应更衣室冲突传闻

皇马中场楚阿梅尼打破沉默,回应更衣室冲突传闻

热血体育社
2026-05-09 14:31:52
长期不感冒的人,不仅免疫力差,还更容易患癌?告诉你真相

长期不感冒的人,不仅免疫力差,还更容易患癌?告诉你真相

芹姐说生活
2026-05-10 13:52:33
上海男篮,“恐怖”如斯

上海男篮,“恐怖”如斯

新民晚报
2026-05-10 10:27:45
闪评|油价飙升 通胀加剧 美国消费者信心指数连续下滑

闪评|油价飙升 通胀加剧 美国消费者信心指数连续下滑

国际在线
2026-05-09 20:30:14
重磅!无锡或将诞生全新主城,这个板块成最大赢家!

重磅!无锡或将诞生全新主城,这个板块成最大赢家!

靓仔情感
2026-05-10 15:23:58
未来可期!季后赛8位证明自己的年轻人:马刺三少上榜,雷霆捡宝

未来可期!季后赛8位证明自己的年轻人:马刺三少上榜,雷霆捡宝

你的篮球频道
2026-05-10 14:42:56
受俄罗斯邀请,朝鲜人民军方队参加红场阅兵式,俄罗斯赤塔阅兵现女性方阵,前线军人的母亲和妻子披军装列队行进

受俄罗斯邀请,朝鲜人民军方队参加红场阅兵式,俄罗斯赤塔阅兵现女性方阵,前线军人的母亲和妻子披军装列队行进

每日经济新闻
2026-05-10 17:08:42
06|取消非市场化行为

06|取消非市场化行为

生命可以承受之轻
2026-05-08 11:23:48
中俄通婚越来越严重,若不了解俄美女生理缺陷呢,婚后会苦不堪言

中俄通婚越来越严重,若不了解俄美女生理缺陷呢,婚后会苦不堪言

抽象派大师
2026-05-10 18:37:46
越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

芹姐说生活
2026-05-08 19:03:26
怒怼MVP,与名嘴互撕,布朗100%不服!

怒怼MVP,与名嘴互撕,布朗100%不服!

体育新角度
2026-05-10 17:33:59
1965年,见到杨尚昆时,彭德怀落泪:我只是对主席的思想跟不上

1965年,见到杨尚昆时,彭德怀落泪:我只是对主席的思想跟不上

凉州辞
2026-05-10 10:55:03
60岁才发现:很多有儿子的家庭,只要儿子和儿媳另外买了房,没跟父母住在一起,那儿子和父母之间,慢慢就变成了亲戚

60岁才发现:很多有儿子的家庭,只要儿子和儿媳另外买了房,没跟父母住在一起,那儿子和父母之间,慢慢就变成了亲戚

心理观察局
2026-05-01 17:36:26
长期吸烟的人,不妨自测一下烟瘾,如果小于3分,提示戒烟容易

长期吸烟的人,不妨自测一下烟瘾,如果小于3分,提示戒烟容易

垚垚分享健康
2026-05-09 15:59:17
绝了!孙兴慜被勒索3亿!梁某获刑4年!网友:贪得无厌终翻车!

绝了!孙兴慜被勒索3亿!梁某获刑4年!网友:贪得无厌终翻车!

罗氏八卦
2026-05-08 18:00:03
难怪马筱梅心寒,不提继子女,玥儿开通账号,关注的都是徐家人

难怪马筱梅心寒,不提继子女,玥儿开通账号,关注的都是徐家人

萧鑟科普解说
2026-05-10 16:59:27
60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

喜文多见01
2026-05-10 07:00:29
麦克丹尼尔斯与卡斯尔冲突引热议,球迷:正在变成狄龙

麦克丹尼尔斯与卡斯尔冲突引热议,球迷:正在变成狄龙

体育硬核说
2026-05-09 22:43:38
我跟女同事开玩笑:嫁给我年终奖归你,下班被总裁叫住:女婿站住

我跟女同事开玩笑:嫁给我年终奖归你,下班被总裁叫住:女婿站住

千秋文化
2026-05-08 19:43:24
真的存在:黑洞的禁区!科学家重磅研究:发现黑洞禁区存在证据

真的存在:黑洞的禁区!科学家重磅研究:发现黑洞禁区存在证据

窥探宇宙1
2026-05-09 17:00:06
2026-05-10 19:11:00
人民在线
人民在线
融合全球传媒理念
35817文章数 11623关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
本地
手机
艺术
公开课

家居要闻

菁英人居 全能豪宅

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

W18周:苹果第五,OPPO第二,vivo第三

艺术要闻

中国民生银行总行新大楼挂牌!北京CBD“竹楼”成地标

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版