网易首页 > 网易号 > 正文 申请入驻

Benchmark,具身智能研究最缺乏的“基础设施”

0
分享至



作者:彭堃方

编辑:吕鑫燚

出品:具身研习社

具身智能模型的结构性矛盾在于,一面是飞速迭代的模型,另一面则是滞后的基准线。

换句话说,具身模型一直没有一个科学、可靠的评测标准去让它从发散地“野蛮生长”到牟足劲儿地“向上生长”。

“木受绳以直”,具身模型也需要一个科学的 Benchmark 去精细地评估、诊断甚至是指导未来研究方向。但现状是,由于长期缺乏统一、高标准的真机测评体系,模型的迭代与产业化进程正深受制约。

事实上,任何产业从技术探索走向规模化,都会经历一个从“百花齐放”到“标准收敛”的阶段。

这是从多个万亿级市场规模的产业中验证过的成功路径,互联网时代,协议标准让全球网络互联互通;深度学习的爆发也离不开评测体系。它们并不直接创造产品,却决定了技术进步的方向与速度。

具身智能正处在类似的早期阶段。过去两年,从 VLA(Vision-Language-Action)模型到世界模型,技术路径层出不穷,研究范式高度分散。但行业其实并不缺模型,也不缺演示视频,缺的是一个能够回答模型“在真实世界中究竟能做到什么程度”的统一标尺。

没有 Benchmark,模型提升还更多停留在叙事层面。有了 Benchmark,技术进步才具备可验证、可复现、可积累的产业价值。

在这样的背景下,CVPR 2026 官方竞赛 ManipArena 的启动,其意义就不再是又多了一场比赛,而在于它试图补齐具身智能领域最关键、却长期缺位的一块基础设施:面向真实世界的统一评测体系。



更重要的是,一个可持续运行的研发平台能够不断沉淀数据、验证结论并反哺模型迭代,形成“评测-改进-再评测”的正向循环,从而撬动整个领域从无序探索走向系统进化。



从表面看,ManipArena 是一项机器人操作竞赛,但其设计逻辑更接近一次系统化能力测量。

长期以来,机器人评测依赖于仿真环境或精心布置、高度简化的桌面抓取任务。这类基准虽然推动了算法进步,却难以反映真实世界的复杂性。而真正能还原物理世界的长时序决策、空间移动、多模态感知、不可预测的物理交互,往往被排除在评测之外。这便导致,研发人员只能蒙眼狂奔,无法精准迭代,模型也可能是在实验室表现亮眼,却难以迁移到现实场景。

ManipArena 的核心目标正是填补这一鸿沟。赛事共设置 20 个真实机器人任务,并在统一环境下进行真机评测,覆盖推理能力、泛化能力、长时序决策以及多模态感知等关键维度。相比过往那些“简单的抓取”测试,这更接近对完整操作能力的系统审视。



ManipArena 赛事花了很多时间进行科学设计。其中一个重要设计是“一个模型完成全部任务”(One Model for All Tasks)。参赛者不能针对不同任务分别训练模型,而必须依赖统一策略完成所有挑战。这一规则本质上是在筛选通用能力,而非单点技巧或任务过拟合。

另一项关键设计是分层 OOD(Out-of-Distribution)评估。每个任务通过物理属性、空间布局和语义组合等多维变化,构造不同难度等级,从域内变化到语义外推,系统测试模型在未知情况下的表现。这使评测不再只给出一个分数,而是呈现能力曲线,揭示模型究竟卡在感知、推理还是执行环节。

此外,ManipArena 将评测范围从桌面操作扩展到包含导航与全身控制的移动任务,例如整理衣物、挂画、收纳物品等,覆盖更接近真实生活的操作场景。这意味着它不再评估“机械臂技能”,而是评估“具身系统能力”。

换句话说,这项竞赛的目标并不是展示机器人已经能做什么,而是尽可能准确地界定它们暂时还做不到什么。

这正是产业决策最需要的信息。所以这次赛事,带来的不一定是榜单上的狂欢,但一定会帮助研究人员认清技术的真实状况。



ManipArena 更深远的意义,或许在于它并不只是一次竞赛,而是一个可持续运行的研究平台,它有着“常态化评测”“持续性运营”“大幅降低门槛”等特色。

首先,它具备常态化评测能力。参赛者可以基于公开数据训练模型,通过远程接口提交算法,由平台完成真机测试并返回结果。这种机制不仅适用于比赛,也适用于日常研究验证,使其成为一个持续可用的 Benchmark,而非一次性活动。

其次,平台提供了高质量真实世界数据与精细评测体系,包括 188 小时高质量真机数据,并承诺未来持续开源数据,为模型训练与分析提供直接支撑。在机器人领域,获取真实数据的成本极高,这种集中供给本身就是重要的科研基础设施。

更关键的是,它显著降低了参与门槛。研究团队无需购买昂贵机器人设备,仅依托一台 GPU 服务器即可参与全流程评测。

这是一个非常关键的转折点,具身智能研究长期受制于硬件成本,只有少数实验室拥有设备优势,而大多数团队难以开展真实世界实验。远程真机评测机制使更多研究者能够参与竞争,扩大创新来源。

额外多说一点,这种统一硬件的方式,避免了硬件差异对结果的影响。而且,由于自变量的“量子一号”等硬件设施是 AI 原生、为模型而生,其能够更好的发挥模型性能。倘若 ManipArena 真能够长续发展,也将有助于形成统一的硬件标准。



当性能差异主要由算法而非设备决定时,研究重点将更像模型聚焦,从而加速软件层面的竞争与收敛。

“要想富,先修路”,今天的具身智能研究,想要从粗狂的野蛮生长走向规范化发展,正缺少这样稳定、科学的基础设施建设。



外界可能会问,为什么是一家模型企业来推动这项工作?答案恰恰在于,只有真正开发过模型的人,才最清楚模型的能力边界与潜在漏洞。

首先要认识到,Benchmark 从来不是中性的。它隐含着对未来技术方向的假设:

- 比方说,ManipArena 将推理、长时序决策和多模态融合放在核心位置,实际上是在对具身智能的主流发展路径做出判断,是对过去简单任务评测的一次技术矫正; - 再者像,赛事中开源的多维数据里所特意强调的电机电流和关节速度,如官方所说“电机电流和关节速度可作为力和接触的代理信号,当前主流模型(VLA、World Model)均未有效利用电流和关节速度信号”,ManipArena 此举针对性开源将有助于推动力敏感策略研究;

- 此外,官方在表态中多次强调 VLA 与世界模型同台竞技,是否各有千秋,到底孰优孰劣在赛中见真章,某种程度上也昭示出技术的趋势。

其次,做过模型的人更了解模型如何“取巧”。在许多基准测试中,模型可以通过统计偏差、环境规律或特定技巧获得高分,而不具备真正的通用能力。ManipArena 的设计明显试图规避这些问题,例如统一环境、均匀分布变化、跨任务通用模型要求等,都旨在防止过拟合和投机行为。

再次,真正科学有效的 Benchmark 设计往往来自大量经验的积累。只有那些从零到一全链路自研,趟踩过足够多的坑,才知道模型会在哪里崩溃。从这个角度看,“做题做多了的人更会出题”并非调侃,而是一种技术现实。评测体系本质上是对过去研究经验的结构化沉淀,也是对未来技术路径的引导。

而作为长期坚持端到端具身大模型路线的企业,自变量深度参与了从 VLA 到世界模型融合范式的演进过程,对模型在真实物理世界中的能力边界与失效模式有着一手认知。

其自研的 WALL-A 模型首创将 VLA 与世界模型深度融合,在统一多模态输入输出架构下引入具身多模态思维链,通过时空状态预测、视觉因果推理与可学习记忆机制,使机器人能够在非结构化环境中实现更强的零样本泛化能力 。同时,依托大规模真机强化学习,模型在持续与物理世界交互中积累高质量经验,自主修复长尾问题,形成“基础模型—真实交互—能力进化”的技术闭环 。而在此基础上开源的 WALL-OSS 也表现出优异的长程操作能力、因果推理与空间理解能力。

正是这种从模型架构、训练方法到真实部署的全链路实践,使自变量不仅深谙模型训练坑坑洼洼、与模型技术发展同频脉动,也成为具身智能能力评测体系的积极塑造者。 对于一项技术革命来说,其福泽社会从来不论到底是哪家企业的技术强弱,反而是从行业逐渐沉淀出可靠的标尺开始。放在具身智能领域,也是如此。

模型的竞赛只是见证技术迅猛发展一方面,如果 ManipArena 能够持续运行,它记录的将不仅是排行榜,更可能是具身智能走向产业化的时间刻度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

探史
2026-03-19 17:38:09
晚上睡前刷牙、刷牙后漱口,原来都错了?医生:很多人都在“无效刷牙”

晚上睡前刷牙、刷牙后漱口,原来都错了?医生:很多人都在“无效刷牙”

人民日报健康客户端
2026-03-19 20:23:09
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
5换2!仅打5场+赛季报销,联盟倒数第一啊,总决赛球队彻底摆烂

5换2!仅打5场+赛季报销,联盟倒数第一啊,总决赛球队彻底摆烂

球童无忌
2026-03-21 01:03:00
33层“加盖”至35层?西安一小区楼顶违建多年,相关管理部门回应

33层“加盖”至35层?西安一小区楼顶违建多年,相关管理部门回应

大风新闻
2026-03-20 11:09:15
“最快女护士”张水华获评国际健将,丈夫:第一次入选名单,这是对她成绩的认可

“最快女护士”张水华获评国际健将,丈夫:第一次入选名单,这是对她成绩的认可

极目新闻
2026-03-20 19:25:18
比白发更可怕的是“中国式大爷发型”,自以为时髦,实际油腻土气

比白发更可怕的是“中国式大爷发型”,自以为时髦,实际油腻土气

淡淡稻花香s
2026-03-19 03:53:49
普京等到了!7艘油轮集体掉头,对华合同说撕就撕,中方为何不慌

普京等到了!7艘油轮集体掉头,对华合同说撕就撕,中方为何不慌

福建平子
2026-03-20 11:37:23
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
岳飞被杀的真相不是你想的那样,岳飞被杀害的真实原因曝光

岳飞被杀的真相不是你想的那样,岳飞被杀害的真实原因曝光

铭记历史呀
2026-03-19 17:05:02
又轰下36+9+7!抱歉库里:你要从历史第一变成历史第二了

又轰下36+9+7!抱歉库里:你要从历史第一变成历史第二了

篮球大视野
2026-03-20 13:03:21
伊朗新任最高领袖传出死讯:真没了,还是一场更大的烟雾弹

伊朗新任最高领袖传出死讯:真没了,还是一场更大的烟雾弹

桂系007
2026-03-20 23:50:32
江青作品惊艳!字写得灵动,秘诀竟在用笔!

江青作品惊艳!字写得灵动,秘诀竟在用笔!

书画相约
2026-03-19 09:15:49
一图看懂|为何美军害怕伊朗布设水雷?

一图看懂|为何美军害怕伊朗布设水雷?

澎湃新闻
2026-03-14 07:32:27
党媒再次重磅发声,房子是居民财富的重要来源,楼市彻底明牌了?

党媒再次重磅发声,房子是居民财富的重要来源,楼市彻底明牌了?

专业聊房君
2026-03-18 18:52:46
CBA名记痛批广东队一人:再说1遍,快点换掉!

CBA名记痛批广东队一人:再说1遍,快点换掉!

体育哲人
2026-03-21 00:24:40
伊朗军方威胁要毁灭性打击美以“邪恶官员”

伊朗军方威胁要毁灭性打击美以“邪恶官员”

新华社
2026-03-20 22:06:05
时隔7年锁定季后赛!马刺险胜太阳4连胜 文班34+12准绝杀

时隔7年锁定季后赛!马刺险胜太阳4连胜 文班34+12准绝杀

醉卧浮生
2026-03-20 10:31:22
为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

小撇说事
2026-03-20 12:48:40
宝马X5价格再下探!最高优惠5.7万,网友:终于等到了

宝马X5价格再下探!最高优惠5.7万,网友:终于等到了

汽车网评
2026-03-20 22:58:18
2026-03-21 01:15:00
具身研习社
具身研习社
记录具身智能浪潮迭代。
114文章数 1关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

向特朗普提问日记者遭疯狂网暴 被骂帮中国让高市难堪

头条要闻

向特朗普提问日记者遭疯狂网暴 被骂帮中国让高市难堪

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

家居
手机
教育
旅游
公开课

家居要闻

时空交织 空间绮梦

手机要闻

一加15T 再预热,满级防水大满贯

教育要闻

1979年高考题,x³=64,求x,简单却易错

旅游要闻

新民视频丨上海迪士尼度假区10周年庆典 夜间演出“奇梦之光幻影秀”升级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版