网易首页 > 网易号 > 正文 申请入驻

卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地

0
分享至

如果说过去几年大模型革命解决的是“机器会不会说话、会不会看图”,那么机器人行业真正的问题是另一层:机器能不能在真实世界里把理解变成行动,并且在长期、重复、带噪声的执行过程中始终稳定可控。

具身智能的难点从来不在于让机器人做出一次漂亮的demo,而在于让它在换环境、换物体、换硬件、换任务链之后仍然可靠工作。现实中,机器人策略的通用化被三道结构性门槛牢牢卡住。

第一道门槛是形态割裂。机械臂、夹爪、灵巧手、人形上肢的关节定义与动作空间完全不同,导致数据难以共享,一个模型往往只能绑定一种硬件,换平台就等于重训。

第二道门槛是数据成本与覆盖。真实机器人数据昂贵、稀缺、分布窄,既难覆盖长程任务,也难覆盖复杂交互,更难支撑跨形态泛化。

第三道门槛则来自部署系统本身。大量视觉语言动作模型在仿真或离线评估中表现不错,但一上真机就会暴露出控制频率不同步、动作抖动、误差累积、双臂互相干扰等问题,本质上不是模型不聪明,而是缺少面向真实闭环系统的稳定性机制。

因此,行业在表面上看是在追逐更高的benchmark成功率,但底层竞争其实正在转向另一种能力:谁能把通用策略训练出来,并把它稳定地部署到真实机器人上,谁就有可能率先跨过从研究走向产品的那道门槛。

在这样的背景下,智在无界创始人卢宗青团队提出论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,并给出了一条更接近工程闭环的通用操控路线。

他们并不是单纯依靠更大的模型或更多的机器人数据堆叠性能,而是从根问题入手:通过以人类为中心的大规模操控数据建立跨形态动作先验,通过统一state-action空间解决不同硬件之间动作语言不一致的障碍,并结合更强的动作生成建模能力与面向真实系统的稳定部署机制,系统性回答通用机器人策略能否在多形态平台上稳定工作并真正实现部署这一核心问题。


通用接近专用

这项工作的实验结果并不是简单地说明成功率更高,而是围绕一个核心问题展开:一个模型能否同时学会操控不同形态的机器人,甚至包括人手的动作方式,并且在真实机器人上部署时依然保持稳定可靠。

因此,研究团队将实验结果主要分为三类进行呈现,分别是真实机器人结果、仿真基准结果和消融实验结果。

在真实机器人实验中,研究人员设计了两种模型设置。一种是Being-H0.5-specialist专用型,主要用于某一种机器人,进行了更强的对齐与适配,目标是追求最大性能。另一种是Being-H0.5-generalist通用型,同一个模型需要适应不同机器人形态,目标是提升泛化与迁移能力。


整体实验结论表明,专用型模型的整体表现最好,而通用型模型仅略低,二者在很多任务类别中的差距并不大,尤其是在共享技能强、动作模式类似的任务上表现非常接近。

进一步来看,研究团队按能力需求将真实机器人任务划分为空间类任务Spatial、长程任务Long-horizon、双臂任务Bimanual和泛化任务Generalization,并发现Being-H0.5相比π0.5的提升幅度最大出现在Long-horizon和Bimanual两类任务中。

这一点非常关键,因为长程任务往往包含多个步骤,微小的动作误差会不断累积,极容易导致后续任务失败,而双臂任务需要两只手之间保持实时协同,对动作时序与空间耦合要求更高,因此这两类任务最能检验策略是否真正具备可部署的稳定性。

此外,研究过程中还发现,在某些任务例如清桌子这一类容器整理和收纳交互场景中,通用型模型甚至可能接近或超过专用型模型的表现。直观来看,这类任务需要反复使用抓取、移动、放置等通用子技能,而通用型模型由于在更多机器人和更多任务中学习过类似动作结构,往往表现得更稳定,相比之下专用型模型虽然对单一机器人更强,但也更容易对某些特定动作习惯产生过拟合。


在关键消融实验中,研究团队重点分析了UniHand-2.0预训练是否必要。实验结论表明,对于专用型模型来说,即使没有UniHand-2.0预训练,也能够通过后续的机器人微调学习到不少能力,但对于通用型模型来说,如果缺少UniHand-2.0预训练则会出现明显性能崩塌,在多机器人混合学习中更容易表现出能力不足或不稳定。

这说明UniHand-2.0的作用并不仅仅是扩大数据规模,而是为训练过程提供了一种跨形态共享的操控先验,使模型能够理解操控动作的合理分布,从而更有效地吸收来自不同机器人形态的动作数据。为了支撑这种跨形态操控能力学习,研究团队构建的UniHand-2.0总规模超过35,000 hours,包含120B tokens与400M samples,并融合了人类第一视角手部操作数据16K hours、机器人操控数据14K hours覆盖30种机器人形态,以及视觉语言理解数据约5K equivalent hours,为模型提供了更丰富的动作先验与语义对齐基础。

在仿真基准实验中,Being-H0.5在LIBERO benchmark上取得了非常强的表现,平均成功率达到98.9%,在更困难的长程子集LIBERO-Long上也达到了97.4%,并且仅使用224×224的RGB图像输入。

考虑到LIBERO具有多任务、多场景以及明显的长程操作链特点,这样接近99%的成功率表明模型不仅能够执行动作,还具备很强的任务稳定性、闭环纠错能力以及对序列动作结构的学习能力。


此外,在RoboCasa厨房任务中,这一基准包含24个任务,更接近真实家庭场景,涉及多对象、多容器以及频繁接触交互过程,Being-H0.5在整体对比中同样领先多个基线方法,包括部分3D方法,这说明模型不仅在桌面任务上有效,也能够在更复杂的家庭操作场景中保持较强性能,并且在RoboCasa benchmark上给出了53.9%的成功率表现。


最后,在部署相关实验中,研究团队强调模型的真实可用性不仅取决于训练策略,也依赖部署系统的稳定性,因此引入了MPG和UAC两个关键机制。MPG的作用是抑制不合理动作输出,使动作保持在合理分布的流形附近,UAC的作用是解决感知帧率与控制频率不同步的问题。

消融结果显示,一旦去掉MPG和UAC,长程任务的性能下降最明显,双臂任务也会明显变差,更容易出现抖动、犹豫或修正过度等现象。这一结果说明,部署时的稳定性机制对长程和双臂任务的可靠执行至关重要,而这也体现了这项工作相比许多只关注离线评估或仿真成功率的研究,更重视真实部署系统中时序和稳定性问题的解决。


对齐与生成并重

为了达到以上效果,研究团队主要设计了五个阶段,包括训练数据体系构建、跨形态动作对齐、模型训练架构设计、下游评估验证以及消融实验分析。


首先在数据构建阶段,研究人员搭建了UniHand-2.0数据集,这套数据并不是传统意义上只收集机器人数据,而是融合了三类来源,包括人类第一视角手部操作数据16K hours、机器人操控数据14K hours覆盖30种机器人形态,以及视觉语言理解数据约5K equivalent hours。同时,UniHand-2.0的总规模超过35,000 hours,包含120B tokens与400M samples,为跨形态操控能力学习提供了更扎实的数据基础。雷峰网

这样设计的核心动机是缓解真实机器人数据昂贵、稀缺且覆盖范围有限的问题,同时利用人类手部动作数据的丰富性与自然性提供更大规模的操控先验,并通过VLM数据补齐语言理解与场景语义的能力缺口,从而形成面向操控任务的多模态预训练材料库。

其次在跨形态对齐阶段,这项工作引入Unified State-Action Space解决不同形态动作空间不一致带来的训练困难,例如人手关节空间与机器人关节空间不相同,不同机器人之间action维度也存在差异,若直接拼接action进行训练会导致模型混乱。

为此,研究人员将不同形态的状态与动作映射到统一state-action空间,使模型学习通用操控语义而非某一种硬件的关节角度,从而实现跨机器人知识共享与迁移。


在模型训练架构上,研究团队采用MoT与MoF的组合,使模型同时具备理解能力与动作生成能力,其中Understanding Expert负责图像与语言信息的理解并形成任务意图表示,Action Expert负责连续动作输出与长序列控制,并通过Mixture of Flow MoF提升动作生成的表达能力,最终形成Being-H0.5模型体系。

随后在下游评估阶段,研究人员采用真实机器人与仿真基准相结合的方式进行验证,仿真部分在LIBERO和RoboCasa上评估以保证可复现性与横向对比性,真实机器人部分则用于检验闭环控制表现以及硬件噪声、时序不同步与误差累积条件下的部署稳定性,并通过specialist与generalist的对比进一步衡量通用模型带来的性能代价。

最后在消融实验中,研究团队从三方面验证关键设计的有效性,包括去掉UniHand-2.0预训练以检验human-centric pretrain对generalist的必要性,去掉MPG与UAC以评估部署稳定性机制是否关键,以及通过冻结不同层数探索全量更新与部分更新在性能与稳定性上的差异,从而更系统地分析模型能力来源与关键模块贡献。


从研究走向落地

从实验意义来看,这项工作的结果为通用机器人策略的发展提供了关键证据。首先,它证明跨形态统一动作学习是可行的。传统机器人学习往往一个模型只适配一种硬件,换机器人就要重训,数据也难以共享,导致训练成本高且复用效率低。雷峰网

而工实验结果表明,只要实现action space的统一并配合足够强的预训练,多机器人共享同一套策略是能够做到的,并且generalist的性能只比specialist略低,甚至在不少任务上接近,这直接提升了机器人基础模型路线的现实可行性。

其次,这项工作强调人类手部视频与动作数据并不是辅助,而是通用策略的底座。消融实验显示,UniHand-2.0的人类中心预训练是generalist模型保持稳定能力的关键因素,这意味着人类动作数据为策略提供了更合理、更自然的动作先验,从而增强其泛化能力与跨机器人迁移能力。

同时UniHand-2.0总规模超过35,000 hours,包含120B tokens与400M samples,也说明这种人类中心预训练具备足够的数据支撑。

第三,工作指出了机器人智能真正难点在于可部署的长程稳定性,而不仅是离线或仿真成功率。许多视觉语言动作模型在仿真中表现不错,但部署到真实机器人时容易出现抖动、动作发散、延迟累积失败,甚至双臂互相干扰。

研究通过MPG与UAC的实验结果说明,要让foundation policy真正可部署,必须显式解决动作分布约束与异步控制问题,使策略在真实系统中保持稳定可靠。

最后,研究也提供了一个较清晰的通用模型训练范式,即通过大规模人类中心数据建立操控先验,通过统一state-action空间实现跨形态对齐,通过更强动作生成建模能力提升控制表达,并结合稳定部署机制提高真实环境下的执行可靠性。

整体来看,它不是依靠某一个单点技巧,而是从数据、对齐、生成到部署稳定性进行了端到端的全链路构建,因此更具备可扩展性,也更接近通用机器人操控智能的发展方向。

研究背后的科研团队

卢宗青,北京大学计算机学院长聘副教授,国家青年人才,北京智源学者;主要研究强化学习、多模态大模型和具身智能,发表领域顶级论文100余篇,担任ICML、ICLR、NeurIPS等机器学习会议领域主席;获国家自然科学基金原创探索项目资助。


参考链接:https://z0ngqing.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军营救飞行员一定会被拍成电影,加个女主角不就是《黄河绝恋》吗?

美军营救飞行员一定会被拍成电影,加个女主角不就是《黄河绝恋》吗?

蓬辉堂
2026-04-06 20:09:28
突发!陈丽华逝世,享年85岁,死因曝光,生前跟迟重瑞立三条规矩

突发!陈丽华逝世,享年85岁,死因曝光,生前跟迟重瑞立三条规矩

潮鹿逐梦
2026-04-07 11:19:31
醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

清沐执笔
2026-04-06 19:18:29
伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

魔都姐姐杂谈
2026-04-06 13:11:53
郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

刘襈说体坛
2026-04-03 15:23:26
相见于长城汽车,魏建军与于东来碰撞出什么样的火花?

相见于长城汽车,魏建军与于东来碰撞出什么样的火花?

新京报
2026-04-03 20:32:08
马克龙签完反华声明,法专机抵达韩国,不到48小时,他又算计中方

马克龙签完反华声明,法专机抵达韩国,不到48小时,他又算计中方

书纪文谭
2026-04-06 18:23:04
后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

潮鹿逐梦
2026-04-07 00:36:40
殡葬新规定公布:3月30日起实施,不买墓也合法,不用为墓地愁了

殡葬新规定公布:3月30日起实施,不买墓也合法,不用为墓地愁了

兴史兴谈
2026-04-06 11:10:10
易中天,获奖励20万元

易中天,获奖励20万元

极目新闻
2026-04-06 21:04:19
陈丽华逝世,享年85岁,曾以505亿元位居胡润女企业家榜第三

陈丽华逝世,享年85岁,曾以505亿元位居胡润女企业家榜第三

都市快报橙柿互动
2026-04-07 11:05:50
陈丽华逝世,富华国际集团官网已变黑白

陈丽华逝世,富华国际集团官网已变黑白

中新经纬
2026-04-07 11:07:21
陈丽华身价500亿坐拥北京一条街,婚后给丈夫定三条规矩

陈丽华身价500亿坐拥北京一条街,婚后给丈夫定三条规矩

老呶侃史
2026-01-05 18:56:38
娃哈哈百亿遗产纠纷迎转折!宗馥莉和弟妹被曝清明握手言和:共同去给宗庆后扫墓

娃哈哈百亿遗产纠纷迎转折!宗馥莉和弟妹被曝清明握手言和:共同去给宗庆后扫墓

快科技
2026-04-07 10:17:04
“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

环球网资讯
2026-04-07 06:56:19
84栋,价值14亿!深圳最惨别墅群,沦为月租250块当停车场

84栋,价值14亿!深圳最惨别墅群,沦为月租250块当停车场

GA环球建筑
2026-04-06 23:00:49
张雪的妈妈是作家何琼,毕业于厦门大学,曾贷款55万支持张雪创业

张雪的妈妈是作家何琼,毕业于厦门大学,曾贷款55万支持张雪创业

汉史趣闻
2026-04-07 08:45:15
张雪峰去世半个月,团队成员正式复播,武亮穿黑衣,超10万人支持

张雪峰去世半个月,团队成员正式复播,武亮穿黑衣,超10万人支持

180视角
2026-04-07 11:15:21
“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

妍妍教育日记
2026-04-06 09:15:12
安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

南城无双
2026-04-07 02:27:36
2026-04-07 12:36:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68933文章数 656106关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

亲子
房产
数码
手机
公开课

亲子要闻

为什么说养孩子等于“毁容”?看看前后对比照,宝妈们的辛酸泪

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

数码要闻

荣耀MagicBook数字系列新品发布会定档4月16日

手机要闻

雷军:Redmi K90 Max 是 “性能魔王”,内置主动散热风扇,165Hz 高刷

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版