通过行为模型实现零样本全身人形机器人控制|算法|智能体|正则化|多模态

分享至

Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models

通过行为模型实现零样本全身人形机器人控制

https://arxiv.org/pdf/2504.11054v1

无监督强化学习（RL）旨在预训练能够在复杂环境中解决多种下游任务的智能体。尽管近期取得了进展，现有方法仍存在若干局限：可能需要在每个下游任务上运行RL过程才能达到满意性能，可能需要具备良好覆盖范围的数据集或精心策划的特定任务样本，或可能使用与目标下游任务关联性较差的无监督损失来预训练策略。本文提出一种新算法，通过让智能体模仿无标签行为数据集中的轨迹来正则化无监督RL。该方法名为“前向-后向表示与条件策略正则化”（Forward-Backward Representations with Conditional-Policy Regularization），其关键技术新颖之处在于：训练前向-后向表示，将无标签轨迹嵌入到与状态、奖励和策略相同的潜在空间中，并利用潜在条件判别器鼓励策略“覆盖”无标签行为数据集中的状态。由此，我们能够学习到与数据集中行为高度一致的策略，同时保留对基于奖励和模仿任务的零样本泛化能力。我们在一个具有挑战性的人形控制问题上验证了该新方法的有效性：利用仅含观测的运动捕捉数据集，我们训练出了METAMOTIVO——首个可提示化（promptable）的人形行为基础模型，能够解决包括运动追踪、目标到达和奖励优化在内的多种全身控制任务。该模型能够表现出类人行为，在性能上与特定任务方法相当，且优于当前最先进的无监督RL和基于模型的基线方法。
代码：https://github.com/facebookresearch/metamotivo
网站： https://metamotivo.metademolab.com

1 引言

在大量无标注数据上预训练的基础模型已成为开发人工智能系统的前沿方法，这类系统能够通过响应特定提示来应用于广泛的应用场景并解决复杂任务（例如，Anil 等人，2023；OpenAI 等人，2024；Dubey 等人，2024）。一个自然的下一步是将这一方法从语言和视觉领域扩展到行为基础模型（Behavioral Foundation Models, BFMs），用于通过动作与动态环境交互的智能体。本文旨在为类人智能体开发BFMs，并聚焦于从本体感知观测（proprioceptive observations）实现全身控制——由于系统的高维度和内在不稳定性，这是一个长期存在的挑战（Peng 等人，2021；Won 等人，2022；Luo 等人，2024a）。我们的目标是学习能够根据各种提示（如需模仿的行为、需达成的目标或需优化的奖励）表达多样化行为的BFMs。通过实现这一目标，我们可以显著简化通用类人智能体在机器人学（Cheng 等人，2024）、虚拟化身和非玩家角色（Kwiatkowski 等人，2022）中的创建。

尽管无监督强化学习（RL）的最新进展已展示了BFMs的潜力，但仍存在若干局限。预训练的策略或表示（例如，Eysenbach 等人，2019；Schwarzer 等人，2021）仍需在每个下游任务上训练一个RL智能体。无监督零样本RL（例如，Touati 等人，2023；Frans 等人，2024）通过预训练可提示化（例如，通过奖励或目标）的策略解决了这一问题，无需额外学习或规划。然而，该方法依赖于：1）通过某种无监督探索策略收集的大规模、多样化状态转移数据集；2）优化旨在学习尽可能多且多样化策略的无监督损失，但对优先学习哪些策略提供的归纳偏置有限。因此，零样本RL在简单环境（如低维连续控制）中表现良好，但在具有高维控制和不稳定动力学的复杂场景中表现不佳，因为无监督探索难以产生有用样本，且无监督学习可能导致策略与目标任务不一致。

另一种方法是利用大规模演示数据集训练序列模型（例如，基于Transformer或扩散模型），以克隆或模仿现有行为，并依赖其泛化能力和提示条件化来生成不同行为（例如，Schmidhuber，2019；Chen 等人，2021；Wu 等人，2023）。当高质量的任务导向数据可用时，该方法特别有效，但它往往生成的模型局限于复现训练数据集中的策略，在泛化到未见任务时表现不佳（Brandfonbrener 等人，2022）。

最近，一些方法（例如，Peng 等人，2022；Gehring 等人，2023；Luo 等人，2024b）将演示数据整合到RL流程中，以学习“正则化”策略，在保留RL泛化能力的同时避免完全无监督学习带来的问题。尽管由此产生的策略可作为行为先验，但解决任何特定下游任务通常仍需完整的分层RL过程。详见附录A对其他相关工作的全面回顾。

本文旨在利用无标注轨迹数据集，将零样本RL算法引导至BFMs，使其不仅能表达有用的行为，还能以零样本方式解决广泛的任务。我们在这一方向上的主要贡献包括：

• 我们提出了FB-CPR（前向-后向表示与条件策略正则化，Forward-Backward representations with Conditional Policy Regularization），一种新颖的在线无监督RL算法，将前向-后向（FB）表示（Touati 和 Ollivier，2021）的无监督策略学习引导至模仿仅含观测的无标注行为。FB-CPR的关键技术新颖之处在于：利用FB表示将无标注轨迹嵌入与策略相同的潜在空间，并使用潜在条件判别器鼓励策略“覆盖”数据集中的状态。

• 我们通过训练一个用于类人智能体全身控制的BFM，验证了FB-CPR的有效性，该BFM能够以零样本方式解决广泛的任务（即，运动追踪、目标到达、奖励优化）。我们考虑基于SMPL骨架（Loper 等人，2015）构建的类人智能体，该骨架因其类人结构而在虚拟角色动画社区中被广泛使用，并使用AMASS数据集（Mahmood 等人，2019）——一个大规模的非策划动作捕捉数据集——进行正则化。通过广泛的定量和定性评估，我们表明我们的模型表现出“类人”行为，在性能上与针对特定任务训练的专用方法相当，同时优于无监督RL以及基于模型的基线方法。此外，我们在双足行走者（附录F）和蚂蚁迷宫（附录G）领域进行了额外的消融实验，验证了我们正则化方案的有效性。最后，为确保可复现性，我们公开了环境1、代码2和预训练模型。

2 预备知识

上述表达式巧妙地将值函数分解为两个部分：1）建模策略在环境中演化的后继测度，以及2）捕捉任务相关信息的奖励函数。这种分解方式表明，只要学习了策略π的后继测度，就可以在无需进一步训练的情况下，对任意奖励函数评估Qπr，即实现零样本策略评估。值得注意的是，通过对后继测度进行低秩分解，可以得到前向-后向（Forward-Backward, FB）表示（Blier 等人，2021；Touati 和 Ollivier，2021），这不仅能够实现零样本策略评估，还具备进行零样本策略优化的能力。

3 FB与条件策略正则化

4 人形机器人实验

我们提出了一套基于SMPL人形模型（Loper等人，2015年）的全身人形控制任务，该模型在虚拟角色动画中被广泛采用（例如，Luo等人，2021年，2024a）。SMPL骨架包含24个刚体，其中23个是可驱动的。身体比例可以根据身体形状参数变化，但在这项工作中我们使用中性身体形状。状态由包含身体姿态（70D）、身体旋转（144D）以及线性和角速度（144D）的本体感受观察组成，结果是一个状态空间。状态的所有组成部分都根据当前的面对方向和根位置进行归一化（例如，Won等人，2022年；Luo等人，2023年）。

我们使用比例导数（PD）控制器，动作空间因此指定了“归一化”的PD目标。与之前考虑欠驱动骨架和过驱动控制器的工作不同，我们定义了关节范围和扭矩限制，以创建“物理上可信”的动作。模拟使用MuJoCo（Todorov等人，2012年）以450 Hz进行，而控制频率为30 Hz。更多细节见附录C.1。

动作数据集。对于行为数据集，我们使用了流行的AMASS动作捕捉数据集的一个子集（Mahmood等人，2019年），其中包含短时、任务特定动作（例如，几秒钟的跑步或步行）、长时间混合行为（例如，超过3分钟的跳舞或日常家务活动）以及几乎静态的动作（例如，问候、投掷）。按照之前的方法（例如，Luo等人，2021年，2023年，2024b），我们移除了涉及与物体互动的动作（例如，踩在箱子上）。经过10%的训练-测试分割后，我们获得了一个包含8902个动作的训练数据集 M 和一个包含990个动作的测试数据集，总时长分别约为29小时和3小时（见附录C.2中的表2）。动作是无动作的，仅包含身体位置和方向信息，我们通过有限差分方法补充了估计的速度。一些动作可能表现出频率变化、关节闪烁等不连续性或身体穿透等伪影，使得在模拟中无法精确再现，从而增加了我们实验设置的真实性和复杂性。

下游任务和指标。评估套件包括三个类别（见附录C.3了解详细信息）：1）奖励优化，涉及45个奖励设计，以引发一系列行为，包括需要控制不同身体部位和在不同高度运动的静态/慢速和动态/快速动作。性能基于300步一集的平均回报进行评估，一些奖励函数产生的策略类似于数据集中的动作，而其他则导致不同的行为。2）目标达成，评估模型从任意初始条件达到目标的能力，使用50个手动选择的“稳定”姿势。采用两个指标：成功率，指示是否在任何时候达到目标位置；接近度，计算为归一化到目标位置的距离，随时间平均。3）跟踪，评估模型从其初始姿势开始时再现目标动作的能力。如果代理在整个长度内（在关节位置和旋转方面）保持在指定距离内，则认为动作成功跟踪（Luo等人，2021年）。此外，使用地球移动者距离（Rubner等人，2000年，EMD）作为不太严格的指标，不需要代理轨迹和目标动作之间的完美时间对齐。

协议和基线。我们首先为每个类别定义单任务基线。我们使用TD3（Fujimoto等人，2018年）从零开始训练每个奖励最大化和目标达成任务。我们还训练Goal-GAIL（Ding等人，2019年）和PHC（Luo等人，2023年）在每个单独的动作上，以获得动作跟踪的强大基线。所有算法都是在线训练的。然后我们考虑“多任务”无监督RL算法。Goal-GAIL和Goal-TD3是最先进的目标条件RL算法。PHC是专门用于动作跟踪的目标条件算法，CALM（Tessler等人，2023年）是用于行为条件模仿学习算法。所有这些基线都是在线训练的，并在过程中利用 M。ASE（Peng等人，2022年）是最接近我们的BFM方法，因为它允许零样本学习并利用动作进行正则化。我们使用非策略程序在线训练ASE与 M。与其他无监督技能发现方法的广泛比较在附录中报告。

我们还测试了基于规划的方法，如MPPI（Williams等人，2017年）、DIFFUSER（Janner等人，2022年）和H-GAP（Jiang等人，2024年）。所有这些方法都是离线的，并且需要带动作标签的数据集。为此，我们首先通过重放单动作Goal-GAIL的策略创建AMASS数据集的动作标签版本，然后将其与FB-CPR生成的重放缓冲区结合起来，以获得一个具有良好覆盖的多样化数据集，该数据集可用于离线训练（更多细节见附录C.1）。

我们为所有模型使用可比较的架构和超参数搜索。在线算法训练了300万次梯度步骤，相当于3000万次交互步骤。评估是通过在100个情节上平均奖励和目标的结果进行的，而对于跟踪，则使用单个情节，因为初始状态是固定的。由于计算成本高，我们只能为MPPI和DIFFUSER计算20个情节的指标。我们在附录C.5中提供了进一步的实现细节。

4.1 主要结果

表1展示了每种算法在各个评估类别中的综合性能。基于学习模型的MPPI和H-GAP在所有任务中表现不佳，因此其结果未包含在表中（详见附录D.1）；取而代之的是，一个“oracle”版本的MPPI作为基于规划的性能上限。平均而言，FB-CPR在所有类别上的性能达到了上限算法的73.4%，考虑到它并未针对下游任务进行显式训练，且无需额外学习或规划即可实现零样本推理，这一结果非常显著。此外，FB-CPR在每一项任务类别上的表现均超过ASE 1.4倍以上，并达到或超过了专门设计的无监督RL算法。

接下来，我们将对每个类别进行深入分析，更详细的结果分解请见附录D.1。

奖励最大化。在基于奖励的任务中，FB-CPR达到了从头开始为每个奖励重新训练的TD3算法性能的61%。与无监督基线方法相比，FB-CPR在所有需要基于学习模型进行规划的基线方法上均表现出色。例如，FB-CPR的性能达到了DIFFUSER的177%，而DIFFUSER依赖于一个更大、更复杂的模型来执行奖励优化。ORACLEMPPI的表现优于FB-CPR，但仍落后于无模型的TD3。这一提升（相比FB-CPR提高了17.8%）是以显著增加计算成本为代价的。ORACLEMPPI完成一个300步的片段至少需要30分钟，而FB-CPR仅需12秒即可完成推理和策略执行（其中重标奖励约7秒，推理约3秒，策略 rollout 约2秒）。DIFFUSER所需时间更长，单个片段约需5小时。尽管这一比较受具体实现细节影响，但它为预训练零样本策略与在测试时使用计算资源进行规划的方法提供了一个有趣的对比。最后，与FB-CPR具有相同零样本特性的ASE，在所有任务上的性能仅达到其70%。

目标到达。表1显示，FB-CPR的表现与专门的目标导向基线方法（即Goal-GAIL和Goal-TD3）相当，并优于零样本基线方法（在接近度和成功率上相比ASE分别提升了48%和118%）。与基于规划的方法相比，FB-CPR具有更高的接近度但成功率较低。这意味着FB-CPR能够更长时间地停留在目标附近，而ORACLEMPPI虽然能够到达目标，但之后无法保持稳定的姿态。我们认为这是由于ORACLEMPPI在规划时仅以最小化位置距离为目标，而未考虑速度。最后，与奖励最大化任务类似，所有其他算法在性能上均低于为每个独立目标单独训练的TD3。由于Goal-TD3使用了相同的奖励信号进行训练，可以推测无监督算法学到的行为受到了演示数据的偏差影响。事实上，通过视觉观察动作，我们注意到TD3倾向于以更快的方式到达目标，但牺牲了行为的“质量”（详见下文）。

跟踪。 我们首先注意到，同一算法在成功率和EMD（Earth Mover's Distance）指标上可能表现出很大差异。Goal-GAIL就是这种情况，其EMD得分较低但成功率很差。这是因为Goal-GAIL被训练为在几步内到达目标，而不是一步到位。另一方面，Goal-TD3被训练为以最短时间到达目标，在EMD和成功率上都取得了良好成绩。因此，我们在EMD指标上使用Goal-GAIL、在成功率指标上使用PHC作为各自的性能上限。FB-CPR在这两个指标上的性能分别达到了上限算法的80%和88%，在测试数据集上的整体成功率达到83%。与前两类任务类似，FB-CPR在零样本和基于规划的基线方法上均表现出色。在“多任务”基线方法中，只有Goal-TD3在平均表现上优于FB-CPR（成功率提高约9%，EMD下降1%）。有趣的是，PHC尽管是专门为跟踪设计的算法，但其表现与FB-CPR相当。由于计算成本过高，我们未能在跟踪任务上测试MPPI和DIFFUSER。

定性评估。为了评估所学行为的质量，我们进行了定性评估，因为仅靠定量指标无法捕捉这一方面。借鉴先前的工作（Hansen 等人，2024a），我们邀请了50名人类评估者，对TD3和FB-CPR为同一任务生成的片段进行比较。评估内容包括判断模型是否解决了任务或达成了目标，以及哪个模型表现出更自然的行为（详见附录D.3）。该研究涵盖了全部45个奖励和50个目标，结果显示，尽管TD3获得了更高的奖励，但两种算法在基于奖励的任务中成功率相似，都能产生跳跃、前进等预期行为（见图3）。值得注意的是，在83%的情况下，FB-CPR被认为更具“类人”特征，而TD3仅在4%的情况下被认为更自然。这种差异突显了奖励函数定义不充分的问题，以及FB-CPR中的动作正则化如何通过捕捉类人偏好来弥补这一缺陷。在附录D.3.2中，我们提供了在定义不充分和复合奖励下这种“人类偏好”的更多示例。

在目标到达任务中，人类评估者对成功率的评估与我们的定性分析一致，显示FB-CPR的成功率提高了6%，而TD3则下降了11%。此外，FB-CPR在69%的情况下被认为更具类人特征，尽管TD3的成功率更高。在剩余情况下，评估者认为TD3和FB-CPR在20%的目标上表现相当，而TD3仅在6%的目标上表现更好。最后，我们在附录E中报告了对嵌入空间和策略空间的进一步定性研究。

4.2 消融实验

FB-CPR中包含了多种设计决策，这些决策值得进一步分析。在以下部分，我们试图回答围绕在线交互的必要性以及我们算法的各个组成部分如何影响不同性能轴的关键问题。此外，附录D.2提供了关于FB-CPR判别器、采样分布ν以及其他形式的策略正则化（在提供动作标签时）的设计决策的进一步消融实验。

在给定一个大型多样化数据集的情况下，在线策略正则化是否必要？先前的无监督RL工作依赖于包含足够覆盖任何下游任务的大型和多样化数据集。如果存在这样的数据集，那么从本文概述的在线FB-CPR的引导方法中是否有什么收获？为了测试这个假设，我们评估了使用优势加权演员更新（Nair等人，2020年）（FB-AW）进行离线训练的FB，这在离线数据集上进行策略优化时补偿了高估（Cetin等人，2024b）。由于不存在符合我们标准的任何数据集，我们通过汇总在线FB-CPR代理的所有3000万个转换来策划一个数据集。离线代理被训练的总梯度步数与在线代理相同，两种方法之间的所有超参数保持不变。在图4的右下角象限中，我们可以看到FB-AW的表现明显不如FB-CPR，这突出了离线策略优化的困难以及通过FB-CPR的条件策略正则化引导在线交互的有效性。

策略条件对判别器的重要性如何？FB-CPR依赖于潜在条件判别器来评估特定动作与通过ERFB的轨迹嵌入选择的策略之间的距离。我们假设这种策略条件判别器应该为代理提供更强的信号，并导致更好的整体性能。我们通过将FB-CPR与仅依赖于状态的判别器进行比较来测试这个假设，从而将正则化项转换为边际状态分布匹配。图4的左上角象限显示，潜在条件判别器在跟踪任务中的表现优于仅状态配置，而在奖励任务中表现相似。这些发现证明了ERFB嵌入在使FB-CPR能够更准确地再现动作中的重要性。

网络容量和专家数据集大小如何影响FB-CPR性能？许多最近的RL工作表明，当扩展神经网络的容量（Schwarzer等人，2023年；Obando-Ceron等人，2024年；Nauman等人，2024年）以及数据集大小（Brohan等人，2023年；Zitkovich等人，2023年）或任务多样性（Kumar等人，2023年；Ali Taïga等人，2023年）时，性能有了显著提升。鉴于这些发现，我们试图了解在扩展网络容量和专家演示数量时FB-CPR的能力。为此，我们在三种模型大小配置上执行网格搜索，这些配置通过大约{0.5×，1×，2×}的基准模型改变了计算量；以及通过子采样，数据集大小为{6.25%，12.5%，25%，50%，100%}的最大动作数据集。对于这些组合中的每一个，我们都报告了所有动作的跟踪性能，并将这些结果呈现在图4的左下角象限中，附录D.2中还有额外的评估指标。与之前的结果一致，我们可以看到，更大的容量模型能够更好地利用更大的动作数据集，从而显著提高了我们2×更大模型的性能，超过了表1中报告的1×模型的结果。

将FB-CPR扩展到非常深的架构。为了进一步扩展并避免梯度消失/爆炸，我们用类似于变换器架构（Vaswani，2017年）的块替换了MLP层，涉及残差连接、层归一化和Mish激活函数（Misra，2019年）。通过这个简单的修改，我们可以训练我们最大和最有能力模型，无论是在大小（从2500万到2.88亿参数）还是性能上都超越了我们的基准模型（见下表）。

5 结论

我们提出了FB-CPR，这是一种新颖的算法，将FB模型的零样本特性与一种正则化方法相结合，使在线训练和策略学习能够基于无标注行为数据集进行。我们通过训练首个用于复杂类人智能体零样本控制的行为基础模型（BFM），验证了FB-CPR的有效性，该模型在多种任务上均达到了最先进的性能。

尽管FB-CPR有效地利用行为轨迹对无监督强化学习进行了引导，但其各个组件仍缺乏理论上的深入理解，且可能存在其他可行的公式化方法。在实践中，FB-CPR在远离动作捕捉数据集的问题上表现不佳，例如跟踪某些特定动作或解决涉及地面移动的基于奖励的任务。虽然与纯粹的奖励优化算法相比，FB-CPR能生成更类人的行为，并在跟踪任务上表现良好，但它有时仍会产生不完美且不自然的动作，特别是在跌倒或站立等行为上。使用FB-CPR训练的BFM仅限于本体感知观测，无法解决需要环境导航或物体交互的任务。整合额外的状态变量（包括复杂的感知信息）可能使模型能够应对更具挑战性的任务，但这可能需要测试时的规划或快速的在线适应能力。

目前，FB-CPR依赖于昂贵的动作捕捉数据集；将其扩展至利用各种人类活动的视频数据，有望进一步提升和拓展其能力。最后，虽然可以通过结合文本到动作模型来实现语言提示，以设定跟踪目标，但一个更具吸引力的研究方向是更直接地对齐语言与策略。

原文链接：https://arxiv.org/pdf/2504.11054v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.