网易首页 > 网易号 > 正文 申请入驻

RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

0
分享至

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。



π0测试结果



π0.5测试结果

相比之下,自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。



wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

免责声明:该文章系我网转载,旨在为读者提供更多资讯。所涉内容不构成投资、消费建议,仅供读者参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗武装部队:若遭侵略 将立即以强大力量打击预定目标

伊朗武装部队:若遭侵略 将立即以强大力量打击预定目标

财联社
2026-04-22 06:01:04
三代表团求访华,中国四箭齐发,日方强烈抗议

三代表团求访华,中国四箭齐发,日方强烈抗议

无情有思可
2026-04-22 16:50:33
41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

林雁飞
2026-03-13 12:53:50
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
腾讯与字节的AI时差:1200天

腾讯与字节的AI时差:1200天

表外表里
2026-04-22 21:38:57
云南一幼童十余天反复咳痰带血,气管内取出8厘米活体蠕动蚂蟥

云南一幼童十余天反复咳痰带血,气管内取出8厘米活体蠕动蚂蟥

澎湃新闻
2026-04-22 11:02:28
樊振东发文谈美国之行:有幸身处一个不断打开边界的时代,才得以抵达更远的现场;下一程,仍在路上

樊振东发文谈美国之行:有幸身处一个不断打开边界的时代,才得以抵达更远的现场;下一程,仍在路上

极目新闻
2026-04-23 08:25:01
35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了3个错

35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了3个错

健康科普365
2026-04-22 15:25:03
美国开始威逼盟国:多花钱,也不能从中国买

美国开始威逼盟国:多花钱,也不能从中国买

观察者网
2026-04-22 18:06:03
又秀翻了,越秀地产集团来了一位“真大佬”

又秀翻了,越秀地产集团来了一位“真大佬”

地产一品塘
2026-04-22 19:04:31
骗违约金的?罗塞尼尔与切尔西签约6年半,结果仅执教3个半月

骗违约金的?罗塞尼尔与切尔西签约6年半,结果仅执教3个半月

懂球帝
2026-04-23 00:38:24
4轮0进球向下俯冲!连续两年没请正经教练,浙江队的困境因管理层

4轮0进球向下俯冲!连续两年没请正经教练,浙江队的困境因管理层

中国足球的那些事儿
2026-04-22 20:20:05
全球最毒的10大垃圾食物榜单,泡面没上榜,“真凶”很多人每天吃

全球最毒的10大垃圾食物榜单,泡面没上榜,“真凶”很多人每天吃

小谈食刻美食
2026-04-23 07:54:50
“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

蝴蝶花雨话教育
2026-04-10 13:01:09
保价2000元机盖运输中损坏,德邦理赔只肯赔1300元;车主:我不要钱了,你赔我一个机盖总可以吧

保价2000元机盖运输中损坏,德邦理赔只肯赔1300元;车主:我不要钱了,你赔我一个机盖总可以吧

大风新闻
2026-04-20 19:12:04
伟伟道来 | 备战

伟伟道来 | 备战

经济观察报
2026-04-22 14:26:02
慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

新一说史
2026-04-22 02:00:41
在上海生活的毛剑卿,银行负责人妻子很漂亮,如今已是助理教练

在上海生活的毛剑卿,银行负责人妻子很漂亮,如今已是助理教练

米果说识
2026-04-13 14:33:48
一路狂奔!日本,更大劫难要来了!

一路狂奔!日本,更大劫难要来了!

大嘴说天下
2026-04-22 19:36:59
苹果 iOS 26.4.2 正式版系统初步使用感受分享:信号、续航、发热

苹果 iOS 26.4.2 正式版系统初步使用感受分享:信号、续航、发热

小柱解说游戏
2026-04-23 07:48:43
2026-04-23 10:19:00
人民在线
人民在线
融合全球传媒理念
35865文章数 11623关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

女子出差被老板性侵后向公司索赔250万 此前年薪120万

头条要闻

女子出差被老板性侵后向公司索赔250万 此前年薪120万

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

全球第一个国家宣布:储备6月耗尽

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

教育
家居
手机
本地
数码

教育要闻

相似三角形与抛物线,一个视频学会!

家居要闻

极简绘梦 克制和谐

手机要闻

概览苹果iPhone/iPad全球供应链,主力组装线迁回美国仍不现实

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

数码要闻

2026年Q1中国监控摄像头市场小幅降温 小米线上销量蝉联第一

无障碍浏览 进入关怀版