网易首页 > 网易号 > 正文 申请入驻

Benchmark,具身智能研究最缺乏的“基础设施”

0
分享至



作者:彭堃方

编辑:吕鑫燚

出品:具身研习社

具身智能模型的结构性矛盾在于,一面是飞速迭代的模型,另一面则是滞后的基准线。

换句话说,具身模型一直没有一个科学、可靠的评测标准去让它从发散地“野蛮生长”到牟足劲儿地“向上生长”。

“木受绳以直”,具身模型也需要一个科学的 Benchmark 去精细地评估、诊断甚至是指导未来研究方向。但现状是,由于长期缺乏统一、高标准的真机测评体系,模型的迭代与产业化进程正深受制约。

事实上,任何产业从技术探索走向规模化,都会经历一个从“百花齐放”到“标准收敛”的阶段。

这是从多个万亿级市场规模的产业中验证过的成功路径,互联网时代,协议标准让全球网络互联互通;深度学习的爆发也离不开评测体系。它们并不直接创造产品,却决定了技术进步的方向与速度。

具身智能正处在类似的早期阶段。过去两年,从 VLA(Vision-Language-Action)模型到世界模型,技术路径层出不穷,研究范式高度分散。但行业其实并不缺模型,也不缺演示视频,缺的是一个能够回答模型“在真实世界中究竟能做到什么程度”的统一标尺。

没有 Benchmark,模型提升还更多停留在叙事层面。有了 Benchmark,技术进步才具备可验证、可复现、可积累的产业价值。

在这样的背景下,CVPR 2026 官方竞赛 ManipArena 的启动,其意义就不再是又多了一场比赛,而在于它试图补齐具身智能领域最关键、却长期缺位的一块基础设施:面向真实世界的统一评测体系。



更重要的是,一个可持续运行的研发平台能够不断沉淀数据、验证结论并反哺模型迭代,形成“评测-改进-再评测”的正向循环,从而撬动整个领域从无序探索走向系统进化。



从表面看,ManipArena 是一项机器人操作竞赛,但其设计逻辑更接近一次系统化能力测量。

长期以来,机器人评测依赖于仿真环境或精心布置、高度简化的桌面抓取任务。这类基准虽然推动了算法进步,却难以反映真实世界的复杂性。而真正能还原物理世界的长时序决策、空间移动、多模态感知、不可预测的物理交互,往往被排除在评测之外。这便导致,研发人员只能蒙眼狂奔,无法精准迭代,模型也可能是在实验室表现亮眼,却难以迁移到现实场景。

ManipArena 的核心目标正是填补这一鸿沟。赛事共设置 20 个真实机器人任务,并在统一环境下进行真机评测,覆盖推理能力、泛化能力、长时序决策以及多模态感知等关键维度。相比过往那些“简单的抓取”测试,这更接近对完整操作能力的系统审视。



ManipArena 赛事花了很多时间进行科学设计。其中一个重要设计是“一个模型完成全部任务”(One Model for All Tasks)。参赛者不能针对不同任务分别训练模型,而必须依赖统一策略完成所有挑战。这一规则本质上是在筛选通用能力,而非单点技巧或任务过拟合。

另一项关键设计是分层 OOD(Out-of-Distribution)评估。每个任务通过物理属性、空间布局和语义组合等多维变化,构造不同难度等级,从域内变化到语义外推,系统测试模型在未知情况下的表现。这使评测不再只给出一个分数,而是呈现能力曲线,揭示模型究竟卡在感知、推理还是执行环节。

此外,ManipArena 将评测范围从桌面操作扩展到包含导航与全身控制的移动任务,例如整理衣物、挂画、收纳物品等,覆盖更接近真实生活的操作场景。这意味着它不再评估“机械臂技能”,而是评估“具身系统能力”。

换句话说,这项竞赛的目标并不是展示机器人已经能做什么,而是尽可能准确地界定它们暂时还做不到什么。

这正是产业决策最需要的信息。所以这次赛事,带来的不一定是榜单上的狂欢,但一定会帮助研究人员认清技术的真实状况。



ManipArena 更深远的意义,或许在于它并不只是一次竞赛,而是一个可持续运行的研究平台,它有着“常态化评测”“持续性运营”“大幅降低门槛”等特色。

首先,它具备常态化评测能力。参赛者可以基于公开数据训练模型,通过远程接口提交算法,由平台完成真机测试并返回结果。这种机制不仅适用于比赛,也适用于日常研究验证,使其成为一个持续可用的 Benchmark,而非一次性活动。

其次,平台提供了高质量真实世界数据与精细评测体系,包括 188 小时高质量真机数据,并承诺未来持续开源数据,为模型训练与分析提供直接支撑。在机器人领域,获取真实数据的成本极高,这种集中供给本身就是重要的科研基础设施。

更关键的是,它显著降低了参与门槛。研究团队无需购买昂贵机器人设备,仅依托一台 GPU 服务器即可参与全流程评测。

这是一个非常关键的转折点,具身智能研究长期受制于硬件成本,只有少数实验室拥有设备优势,而大多数团队难以开展真实世界实验。远程真机评测机制使更多研究者能够参与竞争,扩大创新来源。

额外多说一点,这种统一硬件的方式,避免了硬件差异对结果的影响。而且,由于自变量的“量子一号”等硬件设施是 AI 原生、为模型而生,其能够更好的发挥模型性能。倘若 ManipArena 真能够长续发展,也将有助于形成统一的硬件标准。



当性能差异主要由算法而非设备决定时,研究重点将更像模型聚焦,从而加速软件层面的竞争与收敛。

“要想富,先修路”,今天的具身智能研究,想要从粗狂的野蛮生长走向规范化发展,正缺少这样稳定、科学的基础设施建设。



外界可能会问,为什么是一家模型企业来推动这项工作?答案恰恰在于,只有真正开发过模型的人,才最清楚模型的能力边界与潜在漏洞。

首先要认识到,Benchmark 从来不是中性的。它隐含着对未来技术方向的假设:

- 比方说,ManipArena 将推理、长时序决策和多模态融合放在核心位置,实际上是在对具身智能的主流发展路径做出判断,是对过去简单任务评测的一次技术矫正; - 再者像,赛事中开源的多维数据里所特意强调的电机电流和关节速度,如官方所说“电机电流和关节速度可作为力和接触的代理信号,当前主流模型(VLA、World Model)均未有效利用电流和关节速度信号”,ManipArena 此举针对性开源将有助于推动力敏感策略研究;

- 此外,官方在表态中多次强调 VLA 与世界模型同台竞技,是否各有千秋,到底孰优孰劣在赛中见真章,某种程度上也昭示出技术的趋势。

其次,做过模型的人更了解模型如何“取巧”。在许多基准测试中,模型可以通过统计偏差、环境规律或特定技巧获得高分,而不具备真正的通用能力。ManipArena 的设计明显试图规避这些问题,例如统一环境、均匀分布变化、跨任务通用模型要求等,都旨在防止过拟合和投机行为。

再次,真正科学有效的 Benchmark 设计往往来自大量经验的积累。只有那些从零到一全链路自研,趟踩过足够多的坑,才知道模型会在哪里崩溃。从这个角度看,“做题做多了的人更会出题”并非调侃,而是一种技术现实。评测体系本质上是对过去研究经验的结构化沉淀,也是对未来技术路径的引导。

而作为长期坚持端到端具身大模型路线的企业,自变量深度参与了从 VLA 到世界模型融合范式的演进过程,对模型在真实物理世界中的能力边界与失效模式有着一手认知。

其自研的 WALL-A 模型首创将 VLA 与世界模型深度融合,在统一多模态输入输出架构下引入具身多模态思维链,通过时空状态预测、视觉因果推理与可学习记忆机制,使机器人能够在非结构化环境中实现更强的零样本泛化能力 。同时,依托大规模真机强化学习,模型在持续与物理世界交互中积累高质量经验,自主修复长尾问题,形成“基础模型—真实交互—能力进化”的技术闭环 。而在此基础上开源的 WALL-OSS 也表现出优异的长程操作能力、因果推理与空间理解能力。

正是这种从模型架构、训练方法到真实部署的全链路实践,使自变量不仅深谙模型训练坑坑洼洼、与模型技术发展同频脉动,也成为具身智能能力评测体系的积极塑造者。 对于一项技术革命来说,其福泽社会从来不论到底是哪家企业的技术强弱,反而是从行业逐渐沉淀出可靠的标尺开始。放在具身智能领域,也是如此。

模型的竞赛只是见证技术迅猛发展一方面,如果 ManipArena 能够持续运行,它记录的将不仅是排行榜,更可能是具身智能走向产业化的时间刻度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于熬出头!手机月租全面取消,联通带头,移动电信紧跟其后

终于熬出头!手机月租全面取消,联通带头,移动电信紧跟其后

林子说事
2026-05-05 14:11:38
邮报:切尔西每一场难堪的失利,都在让马雷斯卡显得像天才

邮报:切尔西每一场难堪的失利,都在让马雷斯卡显得像天才

懂球帝
2026-05-05 14:44:05
太突然!一家四口吃完西瓜后集体发病,不到24小时全部身亡

太突然!一家四口吃完西瓜后集体发病,不到24小时全部身亡

华人生活网
2026-05-05 04:33:05
问界M9把"蓝灯"玩成信号灯,智驾状态一眼看穿

问界M9把"蓝灯"玩成信号灯,智驾状态一眼看穿

Ping值焦虑
2026-04-13 16:38:59
骑士vs活塞东部半决赛前瞻:单核上限和多核容错率的顶级对决!

骑士vs活塞东部半决赛前瞻:单核上限和多核容错率的顶级对决!

篮球小布丁
2026-05-05 04:00:24
女性“巨阴症”可以生育吗?医生:主要看3种情况,不妨了解一下

女性“巨阴症”可以生育吗?医生:主要看3种情况,不妨了解一下

健康科普365
2026-05-03 09:30:28
杀疯了!iPhone 18 Pro Max这波直接把友商按在地上摩擦!

杀疯了!iPhone 18 Pro Max这波直接把友商按在地上摩擦!

时尚的弄潮
2026-05-04 23:27:02
这是文物刚出土的样子,“新鲜”到不像真品,难怪专家会被农民骗

这是文物刚出土的样子,“新鲜”到不像真品,难怪专家会被农民骗

收藏大视界
2026-04-10 23:37:01
天生一张娃娃脸都已经46了,你敢想?

天生一张娃娃脸都已经46了,你敢想?

原广工业
2026-05-03 11:52:51
【微特稿】白宫附近发生交火 万斯车队刚驶过事发区域

【微特稿】白宫附近发生交火 万斯车队刚驶过事发区域

新华社
2026-05-05 11:04:02
爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

张晓磊
2026-04-10 11:24:23
关于“阴道”,有4个正经冷知识,女人别羞于查看

关于“阴道”,有4个正经冷知识,女人别羞于查看

皓皓情感说
2026-04-18 11:19:16
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
乌克兰空军飞入俄罗斯领土摧毁机库!击落扎波罗热苏34轰炸机

乌克兰空军飞入俄罗斯领土摧毁机库!击落扎波罗热苏34轰炸机

项鹏飞
2026-05-03 21:59:37
自助者天助!阿森纳手握三大优势,英超夺冠在望!

自助者天助!阿森纳手握三大优势,英超夺冠在望!

田先生篮球
2026-05-05 11:36:25
蒯曼被打1-3后看莎莎暴打巴约,一个镜头让人直呼:她终于明白了

蒯曼被打1-3后看莎莎暴打巴约,一个镜头让人直呼:她终于明白了

刘哥谈体育
2026-05-05 12:02:04
国米21冠系列:蓝黑军团的遗憾——弗拉泰西

国米21冠系列:蓝黑军团的遗憾——弗拉泰西

狗哥是一名内拉
2026-05-05 14:02:40
十年前,阿尔瓦雷斯在课堂上偷偷用手机看马竞与拜仁的欧冠半决赛

十年前,阿尔瓦雷斯在课堂上偷偷用手机看马竞与拜仁的欧冠半决赛

懂球帝
2026-05-05 12:06:10
吴宜泽夺冠后发文,分享身披国旗、亲吻奖杯照片,兰州吴宜泽台球俱乐部回应:正筹备庆祝活动,后续还能线下见面

吴宜泽夺冠后发文,分享身披国旗、亲吻奖杯照片,兰州吴宜泽台球俱乐部回应:正筹备庆祝活动,后续还能线下见面

极目新闻
2026-05-05 13:09:19
2026-05-05 15:52:49
具身研习社
具身研习社
记录具身智能浪潮迭代。
151文章数 1关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

伊朗警告阿联酋:勿当以色列棋子 否则将得到难忘教训

头条要闻

伊朗警告阿联酋:勿当以色列棋子 否则将得到难忘教训

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
亲子
手机
本地
公开课

艺术要闻

有多少人知道,它曾是亚洲第一高楼?

亲子要闻

吃糖对孩子的危害不只是牙齿!家长一定要注意

手机要闻

“芯荒”制约iphone销量?苹果据称考虑让英特尔、三星代工设备处理器

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版