USC团队发布HumDex：攻克人形机器人数据瓶颈，低成本实现全身灵巧操控|算法|追踪|灵巧手|humdex

USC团队发布HumDex：攻克人形机器人数据瓶颈，低成本实现全身灵巧操控

2026-04-06 13:06:05　来源: 新浪财经

北京举报

分享至

来源：市场资讯

人形机器人全身灵巧操作是通向通用具身智能的核心目标之一。在这一愿景下，机器人不仅需要双臂与高自由度多指灵巧手的精细协调，还需要与全身位姿（如行走、弯腰）进行动态配合。

尽管近年来机器人的硬件设计与控制算法取得了显著进展，但高质量示范数据的获取，依然是制约该领域发展的一大核心瓶颈。

在传统的人形机器人遥操作系统中，研究人员往往面临着「便携性与精度」的权衡困境：基于光学动捕或外骨骼的系统虽然能提供高精度的姿态捕捉，但严重依赖固定的空间设施与庞大的设备，这使得数据采集被死死局限于单一的实验室环境中；相反，基于 VR 等设备的便携式方案虽然打破了空间限制，但在面对遮挡严重的复杂操作时，追踪精度会大幅下降，且往往无法对高自由度灵巧手提供足够细粒度的控制。

为应对上述挑战，来自南加州大学（USC）PSI 实验室与 WorldEngine AI 的研究团队提出了一套名为 HumDex 的全新遥操作与数据采集系统。该系统结合了高精度便携追踪、基于学习的手部控制算法以及人类数据预训练机制，专为打破人形机器人高质量数据采集瓶颈、提升全尺寸操作泛化能力而设计。

论文标题： HumDex: Humanoid Dexterous Manipulation Made Easy
论文主页：https://psi-lab.ai/humdex
Github 链接： https://github.com/physical-superintelligence-lab/humdex

HumDex 方法介绍

HumDex 框架框架涵盖了从高精度硬件追踪、基于学习的灵巧手重定向，到最终跨越具身鸿沟的两阶段训练范式。

全场景便携追踪方案

在实际的复杂操作任务中，由于物体和双手的相互遮挡，基于视觉或传统头显设备的追踪方案常常会丢失目标，导致操作被迫中断。这种视觉盲区严重限制了机器人能够学习的任务范围。

为了实现真正的全场景数据采集，HumDex 摒弃了对外部摄像头的依赖，采用了一套完全无线的惯性动作捕捉硬件。操作者只需穿戴轻量级的身体追踪节点以及惯性数据手套，即可在任何环境下自如地移动和操作。由于数据手套直接通过传感器获取物理姿态，即使在严重的视线遮挡下，系统依然能够高精度地捕捉多指的精细动作与全身位姿。

更值得一提的是，为了让高质量数据采集不再是少数顶尖实验室的专属，团队还验证了 HumDex 系统对低成本开源硬件的完美兼容。他们直接引入了基于 SlimeVR 开源生态的追踪方案。在这套现成的开源方案中，除手套外的全身节点总成本不到 200 美元，却能在数据采集成功率上达到与昂贵商业系统相媲美的高水准，极大地降低了人形机器人研究的硬件门槛。

基于学习的手部重定向算法

对于人形机器人而言，精准控制拥有 20 个自由度的灵巧手是遥操作过程中的另一大技术鸿沟。

传统系统通常依赖基于优化的逆运动学解算方法。这类方法不仅计算成本高昂，且需要针对不同操作者的手部尺寸进行繁琐的手动参数调节。更为致命的是，在处理复杂的精细动作时，传统方法经常会出现手指异常耦合、动作僵硬不连贯，甚至无法完成精确的捏合动作，极大地影响了接触密集型任务的成功率。

为解决这一痛点，HumDex 提出了一种基于学习的手部重定向算法。研究团队摒弃了复杂的逐帧优化过程，转而训练了一个轻量级的多层感知机网络。该网络能够将数据手套捕捉到的指尖三维位置坐标，直接端到端地映射为机器人灵巧手的 20 个关节角度。更为重要的是，这个网络仅需不到 20 分钟的成对运动数据即可完成训练。在真实部署中，这种基于学习的重定向方法实现了恒定时间的高效推理，免去了手动调参的烦恼。

跨越具身鸿沟的两阶段训练框架

除了用于遥操作机器人，HumDex 系统的极高灵活性还解锁了另一种高效的数据获取方式：直接采集人类执行任务的动作数据。人类数据的采集无需机器人参与，速度更快、规模更大。

然而，直接将人类动作映射到机器人身上往往会导致灾难性的失败。这是因为人体与机器人在动力学、关节结构和视觉视角上存在巨大的具身鸿沟。实验表明，如果将人类数据与机器人数据简单混合训练，机器人的任务成功率会直接跌至接近零。

为了充分获取人类数据中的价值，研究团队提出了一种创新的两阶段训练流程。首先，他们利用大规模、多样化的人类演示数据对 ACT 策略进行预训练，让模型学习到通用的视觉特征和运动先验；随后，再使用少量的机器人遥操作数据进行微调，将这些通用先验对齐到机器人上。

真实世界实验评估

1. 高难度长程任务与遥操作效率

为了验证 HumDex 的综合性能，团队在扫码打包、挂衣服、开门以及抓取篮子等多个极具挑战性的长序列任务上进行了评估。这些任务涵盖了精细捏合、双臂协调、柔性与铰接物体操作以及全身移动配合。

团队将 HumDex 与主流的基于 VR 的遥操作系统进行了对比。在整体数据采集效率上，HumDex 将数据收集时间缩短了 26%，并将遥操作成功率从 74.6% 大幅提升至 91.7%。更重要的是，使用 HumDex 采集的数据训练出的模仿学习策略，最终自主执行成功率达到了 80%，远超基线方案的 57.5%。

2. 灵巧手重定向对比

为了验证基于学习的手部重定向算法的有效性，团队将其与传统的基于优化的方法进行了定性和定量对比。

在定性评估中，结果直观地显示，在面对如精确捏合等代表性的复杂手部姿态时，传统优化方法往往会发生手指异常耦合甚至彻底失效；而 HumDex 的学习方法则能忠实、稳定地完成追踪，实现更平滑的接触过渡与可靠的单指独立控制。

在定量评估中，团队选取了三个极其依赖精细接触的子任务进行测试。实验数据表明，无论底层追踪硬件是基于惯性传感器还是基于 VR，HumDex 提出的基于学习的手部重定向算法都显著提升了遥操作的成功率。

3. 零样本泛化能力：人类数据带来的质变

在抓取面包的策略评估中，团队重点测试了两阶段训练框架在分布外场景下的零样本泛化能力。测试覆盖了机器人微调数据中从未见过，而人类数据包含的三种情况：未见过的位置（目标物体在桌面上的随机坐标）、未见过的物体（将面包替换为苹果、香蕉或树叶等形状）以及未见过的背景（铺上不同颜色的桌布）。

实验结果表明，仅用机器人单环境数据训练的策略在面对上述变化时性能急剧下降；而采用了两阶段训练（引入人类数据预训练）的策略，在所有分布外场景下的成功率均实现了近两倍的巨大提升。这充分证明了人类数据提供的通用视觉与运动先验能够被有效地迁移到机器人身上，极大地拓宽了策略的泛化边界。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.