卢宗青团队新作：人类先验打底，统一动作对齐，通用机器人模型正在落地|实验|操控|真实世界

分享至

如果说过去几年大模型革命解决的是“机器会不会说话、会不会看图”，那么机器人行业真正的问题是另一层：机器能不能在真实世界里把理解变成行动，并且在长期、重复、带噪声的执行过程中始终稳定可控。

具身智能的难点从来不在于让机器人做出一次漂亮的demo，而在于让它在换环境、换物体、换硬件、换任务链之后仍然可靠工作。现实中，机器人策略的通用化被三道结构性门槛牢牢卡住。

第一道门槛是形态割裂。机械臂、夹爪、灵巧手、人形上肢的关节定义与动作空间完全不同，导致数据难以共享，一个模型往往只能绑定一种硬件，换平台就等于重训。

第二道门槛是数据成本与覆盖。真实机器人数据昂贵、稀缺、分布窄，既难覆盖长程任务，也难覆盖复杂交互，更难支撑跨形态泛化。

第三道门槛则来自部署系统本身。大量视觉语言动作模型在仿真或离线评估中表现不错，但一上真机就会暴露出控制频率不同步、动作抖动、误差累积、双臂互相干扰等问题，本质上不是模型不聪明，而是缺少面向真实闭环系统的稳定性机制。

因此，行业在表面上看是在追逐更高的benchmark成功率，但底层竞争其实正在转向另一种能力：谁能把通用策略训练出来，并把它稳定地部署到真实机器人上，谁就有可能率先跨过从研究走向产品的那道门槛。

在这样的背景下，智在无界创始人卢宗青团队提出论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》，并给出了一条更接近工程闭环的通用操控路线。

他们并不是单纯依靠更大的模型或更多的机器人数据堆叠性能，而是从根问题入手：通过以人类为中心的大规模操控数据建立跨形态动作先验，通过统一state-action空间解决不同硬件之间动作语言不一致的障碍，并结合更强的动作生成建模能力与面向真实系统的稳定部署机制，系统性回答通用机器人策略能否在多形态平台上稳定工作并真正实现部署这一核心问题。

通用接近专用

这项工作的实验结果并不是简单地说明成功率更高，而是围绕一个核心问题展开：一个模型能否同时学会操控不同形态的机器人，甚至包括人手的动作方式，并且在真实机器人上部署时依然保持稳定可靠。

因此，研究团队将实验结果主要分为三类进行呈现，分别是真实机器人结果、仿真基准结果和消融实验结果。

在真实机器人实验中，研究人员设计了两种模型设置。一种是Being-H0.5-specialist专用型，主要用于某一种机器人，进行了更强的对齐与适配，目标是追求最大性能。另一种是Being-H0.5-generalist通用型，同一个模型需要适应不同机器人形态，目标是提升泛化与迁移能力。

整体实验结论表明，专用型模型的整体表现最好，而通用型模型仅略低，二者在很多任务类别中的差距并不大，尤其是在共享技能强、动作模式类似的任务上表现非常接近。

进一步来看，研究团队按能力需求将真实机器人任务划分为空间类任务Spatial、长程任务Long-horizon、双臂任务Bimanual和泛化任务Generalization，并发现Being-H0.5相比π0.5的提升幅度最大出现在Long-horizon和Bimanual两类任务中。

这一点非常关键，因为长程任务往往包含多个步骤，微小的动作误差会不断累积，极容易导致后续任务失败，而双臂任务需要两只手之间保持实时协同，对动作时序与空间耦合要求更高，因此这两类任务最能检验策略是否真正具备可部署的稳定性。

此外，研究过程中还发现，在某些任务例如清桌子这一类容器整理和收纳交互场景中，通用型模型甚至可能接近或超过专用型模型的表现。直观来看，这类任务需要反复使用抓取、移动、放置等通用子技能，而通用型模型由于在更多机器人和更多任务中学习过类似动作结构，往往表现得更稳定，相比之下专用型模型虽然对单一机器人更强，但也更容易对某些特定动作习惯产生过拟合。

在关键消融实验中，研究团队重点分析了UniHand-2.0预训练是否必要。实验结论表明，对于专用型模型来说，即使没有UniHand-2.0预训练，也能够通过后续的机器人微调学习到不少能力，但对于通用型模型来说，如果缺少UniHand-2.0预训练则会出现明显性能崩塌，在多机器人混合学习中更容易表现出能力不足或不稳定。

这说明UniHand-2.0的作用并不仅仅是扩大数据规模，而是为训练过程提供了一种跨形态共享的操控先验，使模型能够理解操控动作的合理分布，从而更有效地吸收来自不同机器人形态的动作数据。为了支撑这种跨形态操控能力学习，研究团队构建的UniHand-2.0总规模超过35,000 hours，包含120B tokens与400M samples，并融合了人类第一视角手部操作数据16K hours、机器人操控数据14K hours覆盖30种机器人形态，以及视觉语言理解数据约5K equivalent hours，为模型提供了更丰富的动作先验与语义对齐基础。

在仿真基准实验中，Being-H0.5在LIBERO benchmark上取得了非常强的表现，平均成功率达到98.9%，在更困难的长程子集LIBERO-Long上也达到了97.4%，并且仅使用224×224的RGB图像输入。

考虑到LIBERO具有多任务、多场景以及明显的长程操作链特点，这样接近99%的成功率表明模型不仅能够执行动作，还具备很强的任务稳定性、闭环纠错能力以及对序列动作结构的学习能力。

此外，在RoboCasa厨房任务中，这一基准包含24个任务，更接近真实家庭场景，涉及多对象、多容器以及频繁接触交互过程，Being-H0.5在整体对比中同样领先多个基线方法，包括部分3D方法，这说明模型不仅在桌面任务上有效，也能够在更复杂的家庭操作场景中保持较强性能，并且在RoboCasa benchmark上给出了53.9%的成功率表现。

最后，在部署相关实验中，研究团队强调模型的真实可用性不仅取决于训练策略，也依赖部署系统的稳定性，因此引入了MPG和UAC两个关键机制。MPG的作用是抑制不合理动作输出，使动作保持在合理分布的流形附近，UAC的作用是解决感知帧率与控制频率不同步的问题。

消融结果显示，一旦去掉MPG和UAC，长程任务的性能下降最明显，双臂任务也会明显变差，更容易出现抖动、犹豫或修正过度等现象。这一结果说明，部署时的稳定性机制对长程和双臂任务的可靠执行至关重要，而这也体现了这项工作相比许多只关注离线评估或仿真成功率的研究，更重视真实部署系统中时序和稳定性问题的解决。

对齐与生成并重

为了达到以上效果，研究团队主要设计了五个阶段，包括训练数据体系构建、跨形态动作对齐、模型训练架构设计、下游评估验证以及消融实验分析。

首先在数据构建阶段，研究人员搭建了UniHand-2.0数据集，这套数据并不是传统意义上只收集机器人数据，而是融合了三类来源，包括人类第一视角手部操作数据16K hours、机器人操控数据14K hours覆盖30种机器人形态，以及视觉语言理解数据约5K equivalent hours。同时，UniHand-2.0的总规模超过35,000 hours，包含120B tokens与400M samples，为跨形态操控能力学习提供了更扎实的数据基础。雷峰网

这样设计的核心动机是缓解真实机器人数据昂贵、稀缺且覆盖范围有限的问题，同时利用人类手部动作数据的丰富性与自然性提供更大规模的操控先验，并通过VLM数据补齐语言理解与场景语义的能力缺口，从而形成面向操控任务的多模态预训练材料库。

其次在跨形态对齐阶段，这项工作引入Unified State-Action Space解决不同形态动作空间不一致带来的训练困难，例如人手关节空间与机器人关节空间不相同，不同机器人之间action维度也存在差异，若直接拼接action进行训练会导致模型混乱。

为此，研究人员将不同形态的状态与动作映射到统一state-action空间，使模型学习通用操控语义而非某一种硬件的关节角度，从而实现跨机器人知识共享与迁移。

在模型训练架构上，研究团队采用MoT与MoF的组合，使模型同时具备理解能力与动作生成能力，其中Understanding Expert负责图像与语言信息的理解并形成任务意图表示，Action Expert负责连续动作输出与长序列控制，并通过Mixture of Flow MoF提升动作生成的表达能力，最终形成Being-H0.5模型体系。

随后在下游评估阶段，研究人员采用真实机器人与仿真基准相结合的方式进行验证，仿真部分在LIBERO和RoboCasa上评估以保证可复现性与横向对比性，真实机器人部分则用于检验闭环控制表现以及硬件噪声、时序不同步与误差累积条件下的部署稳定性，并通过specialist与generalist的对比进一步衡量通用模型带来的性能代价。

最后在消融实验中，研究团队从三方面验证关键设计的有效性，包括去掉UniHand-2.0预训练以检验human-centric pretrain对generalist的必要性，去掉MPG与UAC以评估部署稳定性机制是否关键，以及通过冻结不同层数探索全量更新与部分更新在性能与稳定性上的差异，从而更系统地分析模型能力来源与关键模块贡献。

从研究走向落地

从实验意义来看，这项工作的结果为通用机器人策略的发展提供了关键证据。首先，它证明跨形态统一动作学习是可行的。传统机器人学习往往一个模型只适配一种硬件，换机器人就要重训，数据也难以共享，导致训练成本高且复用效率低。雷峰网

而工实验结果表明，只要实现action space的统一并配合足够强的预训练，多机器人共享同一套策略是能够做到的，并且generalist的性能只比specialist略低，甚至在不少任务上接近，这直接提升了机器人基础模型路线的现实可行性。

其次，这项工作强调人类手部视频与动作数据并不是辅助，而是通用策略的底座。消融实验显示，UniHand-2.0的人类中心预训练是generalist模型保持稳定能力的关键因素，这意味着人类动作数据为策略提供了更合理、更自然的动作先验，从而增强其泛化能力与跨机器人迁移能力。

同时UniHand-2.0总规模超过35,000 hours，包含120B tokens与400M samples，也说明这种人类中心预训练具备足够的数据支撑。

第三，工作指出了机器人智能真正难点在于可部署的长程稳定性，而不仅是离线或仿真成功率。许多视觉语言动作模型在仿真中表现不错，但部署到真实机器人时容易出现抖动、动作发散、延迟累积失败，甚至双臂互相干扰。

研究通过MPG与UAC的实验结果说明，要让foundation policy真正可部署，必须显式解决动作分布约束与异步控制问题，使策略在真实系统中保持稳定可靠。

最后，研究也提供了一个较清晰的通用模型训练范式，即通过大规模人类中心数据建立操控先验，通过统一state-action空间实现跨形态对齐，通过更强动作生成建模能力提升控制表达，并结合稳定部署机制提高真实环境下的执行可靠性。

整体来看，它不是依靠某一个单点技巧，而是从数据、对齐、生成到部署稳定性进行了端到端的全链路构建，因此更具备可扩展性，也更接近通用机器人操控智能的发展方向。

研究背后的科研团队

卢宗青，北京大学计算机学院长聘副教授，国家青年人才，北京智源学者；主要研究强化学习、多模态大模型和具身智能，发表领域顶级论文100余篇，担任ICML、ICLR、NeurIPS等机器学习会议领域主席；获国家自然科学基金原创探索项目资助。

参考链接：https://z0ngqing.github.io/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.