IROS 混合LMC：通过集成深度强化学习实现轮式仿人机器人的混合学习和基于模型的控制|残差|控制器|lmc

IROS 混合LMC：通过集成深度强化学习实现轮式仿人机器人的混合学习和基于模型的控制

分享至

引用： Baek D, Purushottam A, Ramos J. Hybrid lmc: Hybrid learning and model-based control for wheeled humanoid robot via ensemble deep reinforcement learning[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 9347-9354.

PART. 0 0 文章信息

作者单位：

Department of Mechanical Science and Engineering

Department of Electrical and Computer Engineering at the University of Illinois at Urbana-Champaign

文章链接： https://ieeexplore.ieee.org/document/9981913

DOI: 10.1109/IROS47612.2022.9981913

PART. 0 1 摘要

由于这些机器人的非线性动力学和欠驱动特性，轮式人形运动的控制是一个具有挑战性的问题。传统上，反馈控制器用于稳定和运动。然而，这些方法往往受到所使用的底层模型的保真度、控制器的选择和所考虑的环境变量（表面类型、地面倾角等）的限制。强化学习（RL）的最新进展为解决这些传统的反馈控制问题提供了有前景的方法，但需要大量的交互数据来学习。在这里，我们提出了一种混合学习和基于模型的控制器混合LMC，它结合了经典线性二次型调节器（LQR）和集成深度强化学习的优点。集成深度强化学习由多个软行动者批评（SAC）组成，用于降低RL网络的方差。通过串联使用反馈控制器，网络在训练的早期阶段表现出稳定的性能。作为第一步，我们在MuJoCo模拟器中探索了混合LMC在一组不同物理参数下控制人形机器人轮式运动的可行性。我们的结果表明，与其他现有技术相比，混合LMC的性能更好，样品效率也更高。

PART.02背景与方法

人形机器人有可能帮助工人完成体力要求高和危险的工作，如打架和救灾[1]，[2]。为了帮助完成这些任务，人形机器人必须能够操纵和运动。同时对间歇性接触和干扰具有鲁棒性。轮式人类机器人（WHR）正成为完成这些任务的有前景的平台，将移动机器人的优势与腿式机器人的灵巧性相结合[3]，[4]。

然而，固有的不稳定性、非线性、不精确的建模误差和强耦合机制对WHR的控制提出了挑战。具体来说，WHR的平衡控制对于机器人在现实世界中穿越各种集群阵列至关重要。

对于这些高维非线性系统，最常见的控制方法是使用降阶模型（RoM）对机器人进行建模，如线性倒立摆（LIP）和轮式倒立摆（WlP），并采用基于模型的线性二次型调节器（LQR）[5]、[6]或模型预测控制（MPC）[7]。或者，利用微分动态规划（DDP）和非线性PC（NMPC）作为非线性方法生成全身运动[8]，[9]。尽管它们在机器人社区中得到了广泛的应用，但这些控制器的稳定性和鲁棒性受到机器人模型和周围环境保真度的限制。此外，这些方法的性能取决于具有固有误差的模型的准确性。

基于深度强化学习（RL）的方法最近作为一种新兴的解决方案引起了越来越多的关注，并显示出解决高度非线性运动问题的成功[10]，[11]，[12]。他们可以通过直接从经验中学习策略并自动调整控制器来优化表示任务的给定阻力（或成本）函数，从而克服先前基于模型的自适应方法的局限性。然而，标准的强化学习方法需要机器人和环境之间长时间的交互来学习复杂的技能，这在最初可能是不安全的。收集学习复杂任务所需的数据量是耗时的。尽管提出了许多模拟到真实的技术[12]、[13]、[14]，但缩小模拟和现实之间的领域差距仍然具有挑战性，需要花费大量时间（长达几天）进行训练。在特殊情况下，仅通过RL控制WHR是具有挑战性的，因为它们在探索的初始阶段本质上是不稳定的，每次重新设置机器人都是非常低效和有风险的。

同时，将归纳偏差或先验知识（如分析模型、传统控制器）与RL相结合，旨在通过提高采样效率和减少状态空间体积来帮助更安全、更快地探索RL策略，从而解决传统控制器和基于RL的方法的问题[15]、[16]、[17]。尽管这种方法在操作和导航任务中显示出了令人印象深刻的结果[15]、[6]，但对于高维的运动来说，它尚未被证明需要收集与任务相关的数据。具体来说，WHR的大多数控制器直接从命令映射到结果扭矩，而不使用高级轨迹或学习策略，这使得解决运动问题更具挑战性。

考虑到这一点，本文的目标是通过从相对稳定的控制器开始探索，并有效减少控制部分的残余误差，为WHR开发一种混合控制器，以补充RL和基于模型的控制器。

在这项工作中，提出了一种结合最优控制器和插入式深度强化学习的混合学习和基于模型的控制器（混合LMC），通过减少非线性、建模误差和各种环境变化引起的残差来提高运动控制性能。基本概念与残差强化学习相同[15]，但与之前的工作不同，我们利用了ensembleRL策略，该策略利用了多个软行为者批评者（SAC）[18]和最优控制器（OR）提供的分配动作扭矩，通过更广泛的低方差探索更仔细地选择补偿扭矩。我们的方法允许产生与现有工作相反的扭矩，现有工作使用策略网络来构建高级命令，如轨迹信号。

这项工作的贡献如下：（1）提出了混合学习和基于模型的控制器，利用基于模型控制器和深度强化学习的优点来提高轮腿类人机器人的控制性能。据我们所知，这是首次将残差RL等组合策略应用于类人运动。（2）实验结果表明，混合线性矩阵控制优于残差强化学习和无模型强化学习算法，即使在各种物理参数发生变化的情况下，也能补偿LOR控制器的残差。（3）进行了烧蚀研究和其他实验，以有效研究混合LMCutilizing，并进行了仔细分析。（4）使用人体数据的实验结果表明了混合LMC应用于遥操作系统的可行性。

PART.04实验

PART.05总结

在本文中，我们提出了一种混合学习和基于模型的控制器——混合LMC，它结合了传统基于模型的LOR和深度强化学习的优点，在存在模型不确定性和参数变化的情况下进行更稳健的跟踪。此外，集成强化方法可以提高标准控制器的性能，同时降低单个基于随机的RL策略的方差。通过这种方式，我们能够直接进行端到端的学习。通过结合组件深度RL和LOR控制器，LQR引导RL策略在充足范围内产生更合适的扭矩，从而提高了采样效率。对消融研究进行了仔细的研究和分析，以提供一种使用混合LMC的正确方法。在所有实验中，混合LMC都优于之前的方法，并在模型变化和不规则期望轨迹的情况下表现出普遍的性能改进。

在未来的工作中，我们将在硬件上将混合LMC应用于轮式人形机器人系统SATYRR，以验证混合LMC在物理世界中的性能。基于我们的结果，我们希望混合线性矩阵控制在提高性能的同时，为安全训练真实系统提供了一种有效的方法。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.