大数据文摘受权转载自头部科技
文丨丁灵波
全身人形机器人遥操作技术允许人类远程控制人形机器人,既可作为实时作业工具,也可作为可扩展的示范数据采集引擎,对于机器人行业来说不可或缺。
在广泛的应用场景下,遥操作系统需要无缝融合几组往往相互制约的能力:鲁棒性、稳定性、动态灵活性与精确控制,目前仍是一项极具挑战性的工作。
近日,来自 北理工、北大、北京通用人工智能研究院、香港大学、清华大学等10大机构的研发人员合作推出了OmniClone:一款鲁棒全能的全身人形机器人遥操作系统。
![]()
据论文介绍,该系统在单块消费级GPU上即可实现高保真、多技能控制,平均关节位置误差(MPJPE)降低超过66%,计算资源消耗相较于同类方法低数个数量级。
此外,OmniClone与控制源无关,单一统一策略即可支持实时遥操作、生成运动回放以及视觉-语言-动作(VLA)模型,并能在体型差异极大的不同操作者间泛化。
通过将诊断式评估与实用工程相结合,OmniClone为可扩展的人形机器人遥操作与自主学习提供了更低成本、更易落地的基础。
现有遥操作的弊端
近年来业内许多方法显著拓展了人形机器人遥操作的能力范围,但这些系统仍无法满足实际部署所需的鲁棒性与任务无关的通用性。
研究人员认为主要有两方面因素:
在评估方面,现有方法往往只展示孤立、高复杂度的技能,且仅报告粗糙的总体指标,这些指标会混淆不同类型的运动模式。
这掩盖了关键的细节差异,例如,一个策略在标准直立姿态下可以保持较低的跟踪误差,但在深蹲时却可能出现明显的不稳定。现有评估通过平均化处理掩盖了这些失效模式,从而忽视了当前模型仅适用于窄域场景的问题,也忽视了实现实用化、泛化部署所必须解决的关键瓶颈。
![]()
在系统方面,当前遥操作系统的软硬件配置高度异构,且与特定方法紧密耦合,阻碍了真实场景下的复现。
以动作捕捉为例,VR头显 、VICON系统等平台采用的人体姿态估计算法是闭源专有的,对用户而言往往不透明。
姿态估计尺度上看似微小的差异,在实际中会导致巨大的性能差距,再加上控制频率、网络延迟等因素,这些系统针对每一位新操作者、每一种不同动捕环境都需要繁琐的标定,严重阻碍了可扩展部署。
经济实惠,综合性能SOTA水准
为了开发一套高效且低成本的解决方案,研究人员首先构建了OmniBench——首个面向人形机器人全身遥操作的综合性诊断评估基准。
OmniBench在不同工作空间与技能需求下(从高动态敏捷运动,到稳定、精确的准静态操作),按多个难度层级系统性评估策略性能,细粒度评估揭示了现有系统中普遍存在的技能失衡问题。
![]()
在基准诊断分析的指导下,该团队提出OmniClone——一套鲁棒且低成本的系统,可在各类实际场景中实现高保真人形机器人全身遥操作。
OmniClone采用基于Transformer的高容量全身跟踪策略,并使用精心设计、均衡覆盖多样技能(从高动态敏捷运动到稳定操作)的数据方案进行训练,从而解决了现有模型覆盖范围狭窄的问题。
除策略学习外,OmniClone还加入了系统级机制以应对现实环境中的扰动,包括与操作者无关的精细化运动重定向和鲁棒的数据通信,以缓解网络波动与延迟带来的影响。
![]()
更重要的一点是,整套系统门槛极低:仅需30小时运动数据和单块消费级GPU,计算资源需求远低于同类方法(低数个数量级)。
OmniClone可在身高1.47米至1.94米的不同操作者之间可靠泛化,并作为与控制源无关的平台,兼容实时遥操作、生成运动回放以及下游VLA模型。
研究人员开展了大量实验,结果表明,OmniClone在OmniBench所有维度及真实场景测试中均显著优于当前最优(SOTA)基线。
![]()
同时,研究人员基于OmniClone采集的数据训练了一个VLA策略,在拾取放置与下蹲拾取放置任务上分别达到85.71%和80.00%的成功率,在小数据场景下实现高效的自主策略学习能力。
开启具身智能“小数据高效学”模式
论文的一作Yixuan Li目前是北京理工大学计算机科学与技术学院的三年级博士生,隶属于北京理工大学感知、交互与具身实验室(PIE实验室),同时在北京通用人工智能研究院(BIGAI)担任研究实习生。
![]()
同等贡献作者Le Ma是北京通用人工智能研究院(BIGAI)的高级研究工程师,拥有香港科技大学硕士学位和东南大学学士学位 ,此前曾在百度担任算法工程师,研究方向包括具身人工智能、人形机器人和计算机视觉等。
![]()
另一名同等贡献作者Yutang Lin是北京大学元培学院的大三学生,最近在BIGAI实习,研究兴趣为机器人学、计算机视觉和强化学习的交叉领域。
![]()
展望未来,该团队认为仍有诸多颇具前景的研究方向。
例如,通过扩展数据方案,在保持整体均衡性的同时,弥补在极端动态场景(如高跳)中尚存的性能差距,此外,为OmniBench增设标准化现实任务协议,可进一步增强其诊断价值。
最后,OmniClone与控制源无关的特性,为在真实世界中闭合生成式运动模型与长程自主执行之间的闭环提供了可能,让具身智能从“靠大量数据硬训”变成“靠高质量小数据高效学”。
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
扫码了解详情☝
点「赞」的人都变好看了哦!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.