网易首页 > 网易号 > 正文 申请入驻

RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

0
分享至

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。



π0测试结果



π0.5测试结果

相比之下,自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。



wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

免责声明:该文章系我网转载,旨在为读者提供更多资讯。所涉内容不构成投资、消费建议,仅供读者参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一高管花25万欧元,在希腊办理买房移民,半年后懵了

一高管花25万欧元,在希腊办理买房移民,半年后懵了

老黄有话
2024-09-24 08:00:03
广东最好高校最新排名公布暨大44,广工接近深大,莞工138

广东最好高校最新排名公布暨大44,广工接近深大,莞工138

户外小阿隋
2026-01-07 00:52:13
李在明离华前,中方宣布“1号出口管制”,啥原因?

李在明离华前,中方宣布“1号出口管制”,啥原因?

新民周刊
2026-01-07 09:20:21
七连胜联盟第一!CBA土豪队终于崛起,有冠军相了

七连胜联盟第一!CBA土豪队终于崛起,有冠军相了

篮球看比赛
2026-01-06 13:02:06
韩国提议:建设首尔至北京高铁,有一个条件,中方先答应

韩国提议:建设首尔至北京高铁,有一个条件,中方先答应

说历史的老牢
2026-01-05 15:03:39
俄罗斯最可怕敌人出现!卡德罗夫完成车臣家天下,普京也无力削藩

俄罗斯最可怕敌人出现!卡德罗夫完成车臣家天下,普京也无力削藩

阿器谈史
2026-01-05 18:25:17
毛主席入睡后,发现封耀松用手指扣他的嘴巴,质问:你想干什么?

毛主席入睡后,发现封耀松用手指扣他的嘴巴,质问:你想干什么?

云霄纪史观
2025-12-19 23:22:48
10分大逆转豪取13连胜!女篮新霸主杀红眼:这下冲击第三冠稳了?

10分大逆转豪取13连胜!女篮新霸主杀红眼:这下冲击第三冠稳了?

篮球快餐车
2026-01-07 00:14:07
放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

梦史
2025-12-16 11:07:49
小米正式回应团队与争议KOL接触事件:辞退涉事员工

小米正式回应团队与争议KOL接触事件:辞退涉事员工

手机中国
2026-01-06 23:26:10
清朝穷书生娶地主女儿,却被地主用丫头掉包,多年后丫头成一品夫人

清朝穷书生娶地主女儿,却被地主用丫头掉包,多年后丫头成一品夫人

犀利辣椒
2026-01-06 06:39:26
三星长公主带儿子看NBA,18岁儿子肥嘟嘟,李富真保养的像30岁

三星长公主带儿子看NBA,18岁儿子肥嘟嘟,李富真保养的像30岁

小徐讲八卦
2026-01-06 07:31:20
随着1月7日的来临,火箭队传来多条信息非常值得关注!

随着1月7日的来临,火箭队传来多条信息非常值得关注!

田先生篮球
2026-01-07 07:06:48
台海和平新方案横空出世了:抛弃 “一国两制”的新模式行不行?

台海和平新方案横空出世了:抛弃 “一国两制”的新模式行不行?

文史旺旺旺
2026-01-05 22:04:15
郑丽文迎来两大好消息:老对头失势、新强援到位,但要警惕柯文哲

郑丽文迎来两大好消息:老对头失势、新强援到位,但要警惕柯文哲

博览历史
2026-01-06 18:16:24
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
莫妮卡·贝鲁奇参演的5部大尺度电影,每一部都具有收藏价值

莫妮卡·贝鲁奇参演的5部大尺度电影,每一部都具有收藏价值

小微看电影
2026-01-07 09:10:03
老了才领悟:男人长期与一个女人保持联系,无非是这2个原因

老了才领悟:男人长期与一个女人保持联系,无非是这2个原因

风起见你
2026-01-07 00:54:46
金庸去世7年后,小他29岁的林乐怡卖房套现2亿,低调享受富婆生活

金庸去世7年后,小他29岁的林乐怡卖房套现2亿,低调享受富婆生活

和平声浪
2026-01-04 15:32:08
要来了!阿苏埃疑似解约,上海申花腾出位置迎接神锋

要来了!阿苏埃疑似解约,上海申花腾出位置迎接神锋

夕落秋山
2026-01-07 06:55:37
2026-01-07 09:52:49
人民在线 incentive-icons
人民在线
融合全球传媒理念
35016文章数 11612关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

网友出游归来发现酒店正被拆迁:一堆空调放在走廊上

头条要闻

网友出游归来发现酒店正被拆迁:一堆空调放在走廊上

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

时尚
本地
房产
艺术
健康

冬天穿衣既要有温度又要有风度!看看这些穿搭,优雅又显瘦

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

艺术要闻

你也在学书法?先楷后行的秘密曝光!

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版