不同灵巧手，终于可以共用「一套大脑」了|动作|机器人|运动学|参数化|大模型

分享至

本文的作者均来自北卡罗来纳大学教堂山分校。本文的第一作者为博士生卫振宇，主要研究方向为跨智能体的灵巧操作；第二作者为博士生姚云超；通讯作者为助理教授丁明宇。

在机器人操作领域，一个长期悬而未决的核心问题始终困扰着研究者：

面对形态各异的灵巧手，我们是否注定要为每一种手型单独设计表示方式与控制策略？

现实世界中的灵巧手在结构和形态上存在着极大的差异 —— 有的手指数量不同，有的关节拓扑各异，自由度分布并不统一，驱动方式和感知配置更是各不相同。几乎每一款新灵巧手的出现，都意味着要重新定义动作空间、重新采集交互数据，并针对该手型单独训练和反复调试控制模型。这种高度依赖 “具体手型” 的研究路径，不仅显著抬高了开发成本，也在很大程度上限制了灵巧操作算法在真实场景中的复用能力和规模化落地。

灵巧操作之所以长期被认为是机器人领域中最具挑战性的方向之一，原因并不只在于其本身具备高自由度，更深层的问题在于：“手” 始终缺乏一种统一、且具备良好泛化能力的描述方式。

不同灵巧手在关节数量、结构拓扑以及运动约束上的巨大差异，使得策略学习往往与具体手型紧密绑定，模型难以迁移，系统也难以扩展。如何在不牺牲操作精度和灵活性的前提下，抽象出一种能够覆盖多种灵巧手的通用表示，并在此基础上构建统一的动作空间，始终是该领域尚未彻底解决的关键问题。

近期，北卡罗来纳大学教堂山分校的研究团队提出了 One Hand to Rule Them All。与以往侧重于特定任务或单一灵巧手的研究不同，这项工作从更底层的表示层出发，尝试为不同灵巧手构建一个统一、规范且具备泛化能力的描述空间。在这一框架中，“手” 本身被作为模型的条件输入，不同手型可以共享同一套动作表达与策略结构。这一思路为灵巧操作系统的可扩展性和通用性提供了新的可能，也为未来实现跨手型、跨设计的机器人学习奠定了重要基础。

论文标题：One Hand to Rule Them All: Canonical Representations for Unified Dexterous Manipulation
项目主页：https://zhenyuwei2003.github.io/OHRA/
论文链接：https://arxiv.org/abs/2602.16712
代码链接：https://github.com/zhenyuwei2003/OHRA

一、引言

灵巧操作是机器人实现高水平抓取、在手操作以及工具使用等复杂任务的核心能力。然而，不同灵巧手在自由度数量、关节布局与运动学结构上存在显著差异，使得现有方法往往深度依赖特定的硬件设计，难以在不同手型之间泛化。这种结构依赖性严重制约了数据、模型与控制策略的复用，也成为灵巧操作规模化发展的关键瓶颈。

当前，大多数灵巧操作方法通常默认手部结构是固定不变的。即便在学习框架中引入了灵巧手的三维几何信息（例如点云表示），策略仍然强烈依赖具体的关节维度和运动学拓扑，使得模型在跨手迁移时性能明显下降。另一方面，虽然 URDF 可以完整刻画手部的几何与运动学属性，但其层级化、非统一的组织方式并不适合直接作为学习模型的输入，也难以支持在不同手型之间定义一致的动作空间。

为缓解跨手泛化难题，近期已有研究开始探索跨灵巧手的学习范式，例如以人手作为中介表示，或通过显式建模接触关系来实现抓取策略的迁移。然而，这类方法要么依赖人形假设，扩展性受到限制；要么仅适用于特定任务场景（如抓取），难以推广到更通用的灵巧操作问题。总体来看，当前仍缺乏一种统一、可扩展且动作定义一致的灵巧手表示框架。

针对上述挑战，我们提出了一种规范化（Canonical）的灵巧手表示方法，将具有不同自由度数量、不同手指配置以及不同运动学结构的灵巧手，统一映射到一个共享的参数空间和标准化的 URDF 形式中。该表示在保留原始手部运动学特性与功能能力的同时，引入了统一的动作维度，使得学习到的策略能够在不同手型之间自然地共享与迁移。

在这一规范化表示的基础上，我们进一步学习了一个结构化的手部形态潜空间，并据此训练了以手部形态为条件的跨灵巧手抓取策略。实验结果表明，该方法不仅能够在多种不同灵巧手之间实现有效的策略共享，还可以在未见过的手型上实现零样本泛化；无论是在仿真环境还是真实机器人实验中，均表现出稳定且鲁棒的抓取性能。

图 1 不同灵巧手的规范化 URDF 与原始 URDF 对比，展示其在初始姿态与抓取姿态下在形态与运动学上的一致性

二、规范化表征设计

如果想让不同灵巧手真正 “用同一套方法学会操作”，首先要解决的不是策略本身，而是手该如何被描述。

现实中，灵巧手通常通过 URDF 来定义其几何和运动学结构，但这种描述方式更多服务于仿真与控制，而非学习本身。不同手型在坐标系约定、关节组织方式上的差异，往往会引入额外的运动学歧义，使得模型即便面对相似的动作意图，也会得到完全不同的输入与控制接口。如图 2 所示，这类不一致在跨手学习时尤为明显。

图 2 URDF 的坐标系不一致问题。左：不同来源的 URDF 采用不同的全局坐标方向；右：局部关节坐标轴定义不统一，导致运动学歧义。

为此，我们设计了一种参数化的规范化 URDF 表征方式。通过固定运动学拓扑并统一坐标定义，不同灵巧手的结构差异被映射到同一规范框架之下，从而消除由建模习惯带来的表示不一致问题。这一规范结构以人手为启发，支持最多五指、22 个自由度，能够覆盖现有主流灵巧手的设计形式。在保证表达能力的同时，我们系统性地去除了与具体硬件实现强相关的冗余差异，使不同手型在该表示下具备良好的可比性。

图 3 规范化 URDF 结构示意（以右手为例）。左：网格与坐标系可视化；右：运动学骨架图。

在几何层面，手掌与手指均采用胶囊体进行抽象，以降低不必要的几何复杂度，同时保留关键的运动学关系，为后续的学习过程提供更加稳定的输入基础。

在规范化 URDF 之上，我们进一步引入了一组紧凑且可解释的参数，用于描述灵巧手的整体形态与运动学特征。这些参数涵盖手掌尺寸、手指长度、指根分布位置以及关节活动范围等关键信息，使手部结构可以被表示为固定维度的向量，从而自然地作为条件输入引入学习模型。

为了将现有灵巧手模型高效映射到这一规范表示中，我们实现了一套自动化的 URDF 解析与生成流程。该流程能够从原始 URDF 中提取规范参数，并据此生成对应的规范化模型，实现原始表示与规范表示之间的双向转换，为跨手型的策略复用提供了可靠的工程支撑。

最后，基于规范化 URDF 所定义的固定拓扑结构，我们构建了统一的动作空间。所有灵巧手均在同一 22 维关节空间中进行控制，对于不存在的关节则采用失活方式处理。通过这一设计，不同自由度配置的灵巧手可以共享同一套动作语义，使单一策略能够在多种手型之间直接迁移。

三、实验

为系统评估所提出规范化表示在表达能力、物理一致性以及跨手泛化能力方面的有效性，我们从多个互补角度对其进行了验证。整体实验设计围绕以下四个核心问题展开：

1）该表示是否能够形成连续且具有物理意义的形态空间；

2）是否能够忠实保留原始手部的运动学与控制特性；

3）是否支持不同灵巧手之间的策略共享；

4）是否能够在未见过的手型上实现零样本泛化。

规范化参数的隐空间学习

为评估规范化参数化表示在刻画不同灵巧手形态方面的能力，我们首先学习了一个手部形态的隐空间表示。具体而言，我们以规范化参数向量为输入，训练一个变分自编码器（VAE），将高维的手部形态参数映射至低维潜变量空间，并通过解码器重构对应的规范化 URDF 参数。

在实验过程中，我们在潜空间中对不同灵巧手的表示进行线性插值，并将解码后的结果可视化为对应的手部模型。实验结果表明，随着潜变量的连续变化，手指数、手指长度以及关节配置均呈现出平滑且一致的过渡趋势。这一现象说明，所提出的规范化参数表示能够学习到一个连续、结构化且具有明确物理语义的形态流形，从而为后续以手部形态为条件的策略学习奠定了良好基础。

图 4 两种灵巧手在隐空间中的插值结果，展示自由度、手指布局与整体几何结构的平滑变化。

规范化 URDF 的物理一致性

为验证规范化 URDF 在动态操作任务中的物理一致性与保真性，我们在两类具有代表性的操作任务中，对规范化模型与原始 URDF 进行了系统对比评估，分别包括在手内物体旋转与抓取策略重放。

在手内物体旋转任务中，我们分别基于原始 URDF 与规范化 URDF 训练控制策略，并比较其在物体姿态变化幅度与控制稳定性方面的表现。实验结果如表 1 所示，两种模型在重定向成功率以及最终姿态误差等关键指标上表现高度接近，表明规范化过程并未显著削弱原始模型的操作能力。

表 1 规范化 URDF 和原始 URDF 训练手内旋转策略结果对比

在抓取策略重放实验中，我们进一步评估规范化 URDF 与原始 URDF 之间的双向映射一致性。具体而言，我们在两种表示之间进行抓取策略的双向迁移：一方面，将基于规范化 URDF 生成的抓取预测映射至原始 URDF 上执行；另一方面，将基于原始 URDF（使用 D(R, O) Grasp 模型）生成的抓取预测映射至规范化 URDF 上执行，并分别评估其抓取稳定性与接触行为的一致性。

表 2 抓取策略在规范化 URDF 与原始 URDF 之间迁移时的成功率对比

综合上述实验结果可以看出，在两种映射方向下，抓取成功率与接触行为均保持高度一致。这表明规范化 URDF 在统一结构与动作空间的同时，能够在运动学与动力学层面忠实保留原始灵巧手模型的关键物理特性，为后续跨灵巧手的学习与迁移提供了可靠的表示基础。

跨灵巧手抓取策略学习

在统一的规范化表示与动作空间下，我们进一步评估抓取策略在不同灵巧手之间共享与迁移的能力。得益于规范化 URDF 所带来的统一关节拓扑、关节索引顺序以及动作维度，不同结构的灵巧手可以在同一动作空间中进行控制，从而使单一抓取模型能够在多种手型上进行联合训练。

具体而言，抓取策略以物体的几何观测与手部形态条件作为输入，并在规范化动作空间中直接预测抓取配置。其中，手部形态条件由规范化参数的隐空间表示提供，使模型在生成抓取时能够显式感知当前灵巧手的结构约束，而无需针对不同手型设计专用的网络结构或动作映射模块。

图 5 基于规范化表示的跨灵巧手抓取策略流程

在实验中，我们选取了 Allegro、Barrett 与 Shadow Hand 三种在手指数、自由度数量及结构设计上差异显著的灵巧手进行统一训练，并分别在各手型上评估抓取成功率。需要强调的是，该实验的目的并非提出新的抓取算法，而是验证规范化 URDF 作为统一下游动作空间的表达能力。实验结果表明，即使采用结构相对简单的抓取模型，借助规范化表示，仍能够在不引入手型特定网络结构或复杂工程设计的前提下，在多种灵巧手上生成高质量抓取。

表 3 抓取表现对比

进一步地，我们比较了所有灵巧手统一训练与针对每种灵巧手独立训练两种策略学习方式在抓取任务中的表现。对比结果如表 4 所示，统一训练模型在所有手型上的抓取成功率均优于对应的独立训练模型。这一结果表明，规范化 URDF 所定义的共享动作空间能够有效促进不同手型之间的经验共享，使结构差异显著的灵巧手能够相互受益于彼此的数据，从而显著提升跨具身学习的泛化能力。

表 4 统一训练（Unified）和独立训练（Specific）的抓取成功率对比

LEAP Hand 的零样本抓取泛化

为评估手部形态条件化在零样本场景下的泛化能力，我们选用了模块化的 LEAP Hand 构造大规模灵巧手变体，并在未见过的手部结构上系统性地测试抓取性能。通过改变各手指的连杆数量，我们生成了一组在手指数、自由度配置以及运动学结构上差异显著的 LEAP Hand 变体。其中，原始设计记为 leap_3333，数字分别表示拇指、食指、中指和小指的连杆数量。

在规范化表示框架下，不同 LEAP Hand 变体仅需修改对应的形态参数即可完成建模，使得大规模手型实例化与统一抓取评估成为可能。抓取策略仅在部分 LEAP Hand 变体上进行训练，并在训练过程中从未出现的新手型上直接测试，以评估其零样本泛化能力。

表 5 不同 LEAP Hand 变体的抓取成功率对比（下划线表示零样本泛化结果）

实验结果如表 5 所示，引入手部形态条件的抓取模型在未见手型上的零样本抓取成功率与已见手型相当，表明基于规范化表示作为条件输入，策略能够在无需额外微调的情况下直接适配新的手部结构。进一步地，在形态差异更为显著的简化手型上，零样本模型在多数变体上的抓取成功率甚至优于对应的手型特定模型，展现出良好的跨形态泛化能力。

表 6 零样本泛化模型与单独训练模型的抓取成功率对比

为了验证形态条件在抓取中的关键作用，我们在推理阶段人为施加错误的手部形态条件，并评估其对抓取性能的影响。实验结果如表 7 所示，错误的形态条件会显著降低抓取成功率，且这一影响在零样本设置下尤为明显。进一步的梯度可视化结果表明，模型能够根据手部结构差异，自动关注对抓取成功起关键作用的手指，说明形态条件在策略决策过程中被显式利用。

表 7 不同手部形态条件下在 leap_3303 上的抓取成功率

图 5 规范化参数梯度可视化结果

综合以上结果，LEAP Hand 实验表明，规范化表示与手部形态条件能够有效支撑抓取策略在结构差异显著的灵巧手之间实现稳健的零样本泛化。

真机灵巧手抓取实验

为进一步验证所提出方法在真实系统中的可行性及其 sim-to-real 迁移能力，我们将基于规范化表示训练得到的抓取策略部署至真实机器人平台。实验系统由 Franka Research 3 机械臂、LEAP Hand 灵巧手以及 RealSense L515 深度相机构成，测试对象为一组形态各异的日常物体，并在多种 LEAP Hand 变体上进行评估。

图 6 测试物体集合及不同 LEAP Hand 变体的真实抓取示例

在实验中，我们分别评估了两类模型：一类是在规范化灵巧手数据集上训练得到的模型；另一类是在训练过程中从未见过目标手型的零样本泛化模型。实验结果如表 8 所示，训练模型在真实环境中取得了较高的抓取成功率，表明规范化表示在真实系统中能够有效保留原始手部模型的关键动力学特性，并支持可靠的 sim-to-real 迁移。

表 8 真机实验的抓取成功率

更为重要的是，零样本泛化模型在真实系统中的抓取成功率与训练模型接近，显示出稳定而一致的跨形态泛化能力。这一结果进一步表明，手部形态条件能够在面对未见手型时有效引导抓取策略的生成，从而使统一训练的策略具备面向真实世界部署的潜力。

四、总结

本文提出了一种灵巧手的规范化表示框架，将结构异构的灵巧手统一映射到共享的参数空间与动作空间中，为跨具身学习提供了一种可扩展、可复用的表示基础。通过连续的形态参数化，该表示能够显式刻画不同灵巧手之间的结构差异，并支持以手部形态为条件的策略学习；与此同时，统一的动作空间使得数据与策略得以在不同手型之间高效共享，显著降低了对手型定制化设计的依赖。

基于该规范化表示，我们实现了与具体手部结构解耦的抓取策略，并在多种灵巧手以及未见过的手型上系统验证了其零样本泛化能力。实验结果表明，规范化 URDF 在保持原始手部模型运动学与动力学一致性的同时，能够有效支撑跨形态的策略迁移，使统一训练的模型在无需额外微调的情况下适配新的手部结构，避免了对手型特定网络结构或复杂工程设计的依赖。

更进一步地，该规范化表示框架及其背后的设计原则并不局限于灵巧手抓取任务，也有望推广至更广泛的机器人具身形式与操作场景，例如类人机器人、多形态末端执行器以及更复杂的操作任务。我们希望这一工作能够为可扩展的跨具身操作学习提供通用基础，并推动具身智能与机器人操作研究向更通用、更可迁移的方向发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.