Benchmark，具身智能研究最缺乏的“基础设施”|算法|科学|模态|评测|大模型|benchmark

Benchmark，具身智能研究最缺乏的“基础设施”

2026-03-20 19:28:46　来源: 具身研习社

北京举报

分享至

作者：彭堃方

编辑：吕鑫燚

出品：具身研习社

具身智能模型的结构性矛盾在于，一面是飞速迭代的模型，另一面则是滞后的基准线。

换句话说，具身模型一直没有一个科学、可靠的评测标准去让它从发散地“野蛮生长”到牟足劲儿地“向上生长”。

“木受绳以直”，具身模型也需要一个科学的 Benchmark 去精细地评估、诊断甚至是指导未来研究方向。但现状是，由于长期缺乏统一、高标准的真机测评体系，模型的迭代与产业化进程正深受制约。

事实上，任何产业从技术探索走向规模化，都会经历一个从“百花齐放”到“标准收敛”的阶段。

这是从多个万亿级市场规模的产业中验证过的成功路径，互联网时代，协议标准让全球网络互联互通；深度学习的爆发也离不开评测体系。它们并不直接创造产品，却决定了技术进步的方向与速度。

具身智能正处在类似的早期阶段。过去两年，从 VLA（Vision-Language-Action）模型到世界模型，技术路径层出不穷，研究范式高度分散。但行业其实并不缺模型，也不缺演示视频，缺的是一个能够回答模型“在真实世界中究竟能做到什么程度”的统一标尺。

没有 Benchmark，模型提升还更多停留在叙事层面。有了 Benchmark，技术进步才具备可验证、可复现、可积累的产业价值。

在这样的背景下，CVPR 2026 官方竞赛 ManipArena 的启动，其意义就不再是又多了一场比赛，而在于它试图补齐具身智能领域最关键、却长期缺位的一块基础设施：面向真实世界的统一评测体系。

更重要的是，一个可持续运行的研发平台能够不断沉淀数据、验证结论并反哺模型迭代，形成“评测-改进-再评测”的正向循环，从而撬动整个领域从无序探索走向系统进化。

从表面看，ManipArena 是一项机器人操作竞赛，但其设计逻辑更接近一次系统化能力测量。

长期以来，机器人评测依赖于仿真环境或精心布置、高度简化的桌面抓取任务。这类基准虽然推动了算法进步，却难以反映真实世界的复杂性。而真正能还原物理世界的长时序决策、空间移动、多模态感知、不可预测的物理交互，往往被排除在评测之外。这便导致，研发人员只能蒙眼狂奔，无法精准迭代，模型也可能是在实验室表现亮眼，却难以迁移到现实场景。

ManipArena 的核心目标正是填补这一鸿沟。赛事共设置 20 个真实机器人任务，并在统一环境下进行真机评测，覆盖推理能力、泛化能力、长时序决策以及多模态感知等关键维度。相比过往那些“简单的抓取”测试，这更接近对完整操作能力的系统审视。

ManipArena 赛事花了很多时间进行科学设计。其中一个重要设计是“一个模型完成全部任务”（One Model for All Tasks）。参赛者不能针对不同任务分别训练模型，而必须依赖统一策略完成所有挑战。这一规则本质上是在筛选通用能力，而非单点技巧或任务过拟合。

另一项关键设计是分层 OOD（Out-of-Distribution）评估。每个任务通过物理属性、空间布局和语义组合等多维变化，构造不同难度等级，从域内变化到语义外推，系统测试模型在未知情况下的表现。这使评测不再只给出一个分数，而是呈现能力曲线，揭示模型究竟卡在感知、推理还是执行环节。

此外，ManipArena 将评测范围从桌面操作扩展到包含导航与全身控制的移动任务，例如整理衣物、挂画、收纳物品等，覆盖更接近真实生活的操作场景。这意味着它不再评估“机械臂技能”，而是评估“具身系统能力”。

换句话说，这项竞赛的目标并不是展示机器人已经能做什么，而是尽可能准确地界定它们暂时还做不到什么。

这正是产业决策最需要的信息。所以这次赛事，带来的不一定是榜单上的狂欢，但一定会帮助研究人员认清技术的真实状况。

ManipArena 更深远的意义，或许在于它并不只是一次竞赛，而是一个可持续运行的研究平台，它有着“常态化评测”“持续性运营”“大幅降低门槛”等特色。

首先，它具备常态化评测能力。参赛者可以基于公开数据训练模型，通过远程接口提交算法，由平台完成真机测试并返回结果。这种机制不仅适用于比赛，也适用于日常研究验证，使其成为一个持续可用的 Benchmark，而非一次性活动。

其次，平台提供了高质量真实世界数据与精细评测体系，包括 188 小时高质量真机数据，并承诺未来持续开源数据，为模型训练与分析提供直接支撑。在机器人领域，获取真实数据的成本极高，这种集中供给本身就是重要的科研基础设施。

更关键的是，它显著降低了参与门槛。研究团队无需购买昂贵机器人设备，仅依托一台 GPU 服务器即可参与全流程评测。

这是一个非常关键的转折点，具身智能研究长期受制于硬件成本，只有少数实验室拥有设备优势，而大多数团队难以开展真实世界实验。远程真机评测机制使更多研究者能够参与竞争，扩大创新来源。

额外多说一点，这种统一硬件的方式，避免了硬件差异对结果的影响。而且，由于自变量的“量子一号”等硬件设施是 AI 原生、为模型而生，其能够更好的发挥模型性能。倘若 ManipArena 真能够长续发展，也将有助于形成统一的硬件标准。

当性能差异主要由算法而非设备决定时，研究重点将更像模型聚焦，从而加速软件层面的竞争与收敛。

“要想富，先修路”，今天的具身智能研究，想要从粗狂的野蛮生长走向规范化发展，正缺少这样稳定、科学的基础设施建设。

外界可能会问，为什么是一家模型企业来推动这项工作？答案恰恰在于，只有真正开发过模型的人，才最清楚模型的能力边界与潜在漏洞。

首先要认识到，Benchmark 从来不是中性的。它隐含着对未来技术方向的假设：

- 比方说，ManipArena 将推理、长时序决策和多模态融合放在核心位置，实际上是在对具身智能的主流发展路径做出判断，是对过去简单任务评测的一次技术矫正； - 再者像，赛事中开源的多维数据里所特意强调的电机电流和关节速度，如官方所说“电机电流和关节速度可作为力和接触的代理信号，当前主流模型（VLA、World Model）均未有效利用电流和关节速度信号”，ManipArena 此举针对性开源将有助于推动力敏感策略研究；

- 此外，官方在表态中多次强调 VLA 与世界模型同台竞技，是否各有千秋，到底孰优孰劣在赛中见真章，某种程度上也昭示出技术的趋势。

其次，做过模型的人更了解模型如何“取巧”。在许多基准测试中，模型可以通过统计偏差、环境规律或特定技巧获得高分，而不具备真正的通用能力。ManipArena 的设计明显试图规避这些问题，例如统一环境、均匀分布变化、跨任务通用模型要求等，都旨在防止过拟合和投机行为。

再次，真正科学有效的 Benchmark 设计往往来自大量经验的积累。只有那些从零到一全链路自研，趟踩过足够多的坑，才知道模型会在哪里崩溃。从这个角度看，“做题做多了的人更会出题”并非调侃，而是一种技术现实。评测体系本质上是对过去研究经验的结构化沉淀，也是对未来技术路径的引导。

而作为长期坚持端到端具身大模型路线的企业，自变量深度参与了从 VLA 到世界模型融合范式的演进过程，对模型在真实物理世界中的能力边界与失效模式有着一手认知。

其自研的 WALL-A 模型首创将 VLA 与世界模型深度融合，在统一多模态输入输出架构下引入具身多模态思维链，通过时空状态预测、视觉因果推理与可学习记忆机制，使机器人能够在非结构化环境中实现更强的零样本泛化能力。同时，依托大规模真机强化学习，模型在持续与物理世界交互中积累高质量经验，自主修复长尾问题，形成“基础模型—真实交互—能力进化”的技术闭环。而在此基础上开源的 WALL-OSS 也表现出优异的长程操作能力、因果推理与空间理解能力。

正是这种从模型架构、训练方法到真实部署的全链路实践，使自变量不仅深谙模型训练坑坑洼洼、与模型技术发展同频脉动，也成为具身智能能力评测体系的积极塑造者。对于一项技术革命来说，其福泽社会从来不论到底是哪家企业的技术强弱，反而是从行业逐渐沉淀出可靠的标尺开始。放在具身智能领域，也是如此。

模型的竞赛只是见证技术迅猛发展一方面，如果 ManipArena 能够持续运行，它记录的将不仅是排行榜，更可能是具身智能走向产业化的时间刻度。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.