网易首页 > 网易号 > 正文 申请入驻

IROS 混合LMC:通过集成深度强化学习实现轮式仿人机器人的混合学习和基于模型的控制

0
分享至

引用: Baek D, Purushottam A, Ramos J. Hybrid lmc: Hybrid learning and model-based control for wheeled humanoid robot via ensemble deep reinforcement learning[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 9347-9354.

PART. 0 0 文章信息

作者单位:

Department of Mechanical Science and Engineering

Department of Electrical and Computer Engineering at the University of Illinois at Urbana-Champaign

文章链接: https://ieeexplore.ieee.org/document/9981913

DOI: 10.1109/IROS47612.2022.9981913

PART. 0 1 摘要

由于这些机器人的非线性动力学和欠驱动特性,轮式人形运动的控制是一个具有挑战性的问题。传统上,反馈控制器用于稳定和运动。然而,这些方法往往受到所使用的底层模型的保真度、控制器的选择和所考虑的环境变量(表面类型、地面倾角等)的限制。强化学习(RL)的最新进展为解决这些传统的反馈控制问题提供了有前景的方法,但需要大量的交互数据来学习。在这里,我们提出了一种混合学习和基于模型的控制器混合LMC,它结合了经典线性二次型调节器(LQR)和集成深度强化学习的优点。集成深度强化学习由多个软行动者批评(SAC)组成,用于降低RL网络的方差。通过串联使用反馈控制器,网络在训练的早期阶段表现出稳定的性能。作为第一步,我们在MuJoCo模拟器中探索了混合LMC在一组不同物理参数下控制人形机器人轮式运动的可行性。我们的结果表明,与其他现有技术相比,混合LMC的性能更好,样品效率也更高。

PART.02背景与方法

人形机器人有可能帮助工人完成体力要求高和危险的工作,如打架和救灾[1],[2]。为了帮助完成这些任务,人形机器人必须能够操纵和运动。同时对间歇性接触和干扰具有鲁棒性。轮式人类机器人(WHR)正成为完成这些任务的有前景的平台,将移动机器人的优势与腿式机器人的灵巧性相结合[3],[4]。

然而,固有的不稳定性、非线性、不精确的建模误差和强耦合机制对WHR的控制提出了挑战。具体来说,WHR的平衡控制对于机器人在现实世界中穿越各种集群阵列至关重要。

对于这些高维非线性系统,最常见的控制方法是使用降阶模型(RoM)对机器人进行建模,如线性倒立摆(LIP)和轮式倒立摆(WlP),并采用基于模型的线性二次型调节器(LQR)[5]、[6]或模型预测控制(MPC)[7]。或者,利用微分动态规划(DDP)和非线性PC(NMPC)作为非线性方法生成全身运动[8],[9]。尽管它们在机器人社区中得到了广泛的应用,但这些控制器的稳定性和鲁棒性受到机器人模型和周围环境保真度的限制。此外,这些方法的性能取决于具有固有误差的模型的准确性。

基于深度强化学习(RL)的方法最近作为一种新兴的解决方案引起了越来越多的关注,并显示出解决高度非线性运动问题的成功[10],[11],[12]。他们可以通过直接从经验中学习策略并自动调整控制器来优化表示任务的给定阻力(或成本)函数,从而克服先前基于模型的自适应方法的局限性。然而,标准的强化学习方法需要机器人和环境之间长时间的交互来学习复杂的技能,这在最初可能是不安全的。收集学习复杂任务所需的数据量是耗时的。尽管提出了许多模拟到真实的技术[12]、[13]、[14],但缩小模拟和现实之间的领域差距仍然具有挑战性,需要花费大量时间(长达几天)进行训练。在特殊情况下,仅通过RL控制WHR是具有挑战性的,因为它们在探索的初始阶段本质上是不稳定的,每次重新设置机器人都是非常低效和有风险的。

同时,将归纳偏差或先验知识(如分析模型、传统控制器)与RL相结合,旨在通过提高采样效率和减少状态空间体积来帮助更安全、更快地探索RL策略,从而解决传统控制器和基于RL的方法的问题[15]、[16]、[17]。尽管这种方法在操作和导航任务中显示出了令人印象深刻的结果[15]、[6],但对于高维的运动来说,它尚未被证明需要收集与任务相关的数据。具体来说,WHR的大多数控制器直接从命令映射到结果扭矩,而不使用高级轨迹或学习策略,这使得解决运动问题更具挑战性。

考虑到这一点,本文的目标是通过从相对稳定的控制器开始探索,并有效减少控制部分的残余误差,为WHR开发一种混合控制器,以补充RL和基于模型的控制器。

在这项工作中,提出了一种结合最优控制器和插入式深度强化学习的混合学习和基于模型的控制器(混合LMC),通过减少非线性、建模误差和各种环境变化引起的残差来提高运动控制性能。基本概念与残差强化学习相同[15],但与之前的工作不同,我们利用了ensembleRL策略,该策略利用了多个软行为者批评者(SAC)[18]和最优控制器(OR)提供的分配动作扭矩,通过更广泛的低方差探索更仔细地选择补偿扭矩。我们的方法允许产生与现有工作相反的扭矩,现有工作使用策略网络来构建高级命令,如轨迹信号。

这项工作的贡献如下:(1)提出了混合学习和基于模型的控制器,利用基于模型控制器和深度强化学习的优点来提高轮腿类人机器人的控制性能。据我们所知,这是首次将残差RL等组合策略应用于类人运动。(2) 实验结果表明,混合线性矩阵控制优于残差强化学习和无模型强化学习算法,即使在各种物理参数发生变化的情况下,也能补偿LOR控制器的残差。(3) 进行了烧蚀研究和其他实验,以有效研究混合LMCutilizing,并进行了仔细分析。(4)使用人体数据的实验结果表明了混合LMC应用于遥操作系统的可行性。

PART.04实验

PART.05总结

在本文中,我们提出了一种混合学习和基于模型的控制器——混合LMC,它结合了传统基于模型的LOR和深度强化学习的优点,在存在模型不确定性和参数变化的情况下进行更稳健的跟踪。此外,集成强化方法可以提高标准控制器的性能,同时降低单个基于随机的RL策略的方差。通过这种方式,我们能够直接进行端到端的学习。通过结合组件深度RL和LOR控制器,LQR引导RL策略在充足范围内产生更合适的扭矩,从而提高了采样效率。对消融研究进行了仔细的研究和分析,以提供一种使用混合LMC的正确方法。在所有实验中,混合LMC都优于之前的方法,并在模型变化和不规则期望轨迹的情况下表现出普遍的性能改进。

在未来的工作中,我们将在硬件上将混合LMC应用于轮式人形机器人系统SATYRR,以验证混合LMC在物理世界中的性能。基于我们的结果,我们希望混合线性矩阵控制在提高性能的同时,为安全训练真实系统提供了一种有效的方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两岸命运掌握在自己手上!郑丽文喊话赖清德:为和平大业愿意沟通

两岸命运掌握在自己手上!郑丽文喊话赖清德:为和平大业愿意沟通

海峡导报社
2026-04-15 17:04:04
足坛一夜动态:拜仁6-4皇马!欧冠四强出炉 法棍官宣缺席世界杯

足坛一夜动态:拜仁6-4皇马!欧冠四强出炉 法棍官宣缺席世界杯

念洲
2026-04-16 05:35:09
0-2日本引发连锁反应!比输球可怕的是,中国女足二十年逢日不胜

0-2日本引发连锁反应!比输球可怕的是,中国女足二十年逢日不胜

大秦壁虎白话体育
2026-04-15 23:33:30
太狗血!许家印再传大瓜!

太狗血!许家印再传大瓜!

财经要参
2026-04-15 18:30:42
被打到求救才想起祖国?真主党日暮途穷连喊三件事!

被打到求救才想起祖国?真主党日暮途穷连喊三件事!

环球格局观
2026-04-15 19:15:59
欧冠四强全部出炉:拜仁双杀皇马强势过关,英西德法各一队晋级

欧冠四强全部出炉:拜仁双杀皇马强势过关,英西德法各一队晋级

全景体育V
2026-04-16 05:22:05
今夜,太疯狂!暴涨,熔断!

今夜,太疯狂!暴涨,熔断!

中国基金报
2026-04-16 00:15:20
中国油轮在霍尔木兹海峡硬闯美军封锁线!第二次,被堵回来了!

中国油轮在霍尔木兹海峡硬闯美军封锁线!第二次,被堵回来了!

菁菁子衿
2026-04-15 20:01:47
公安部公布5起危害生态安全犯罪典型案例

公安部公布5起危害生态安全犯罪典型案例

界面新闻
2026-04-15 10:22:27
81岁的杜特尔特,在狱中终于等来好消息,儿子正式接任党总裁

81岁的杜特尔特,在狱中终于等来好消息,儿子正式接任党总裁

暖心萌阿菇凉
2026-04-15 04:01:00
关于文章被处理的通知

关于文章被处理的通知

言立方
2026-04-15 18:22:17
又一州加入,美国总统大选距终结“赢者通吃”规则就差48票了?

又一州加入,美国总统大选距终结“赢者通吃”规则就差48票了?

澎湃新闻
2026-04-15 16:52:26
双线冲冠!恭喜阿森纳:0-0、1-0葡体晋级欧冠4强,半决赛PK马竞

双线冲冠!恭喜阿森纳:0-0、1-0葡体晋级欧冠4强,半决赛PK马竞

小徐讲八卦
2026-04-16 05:28:30
谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

动物奇奇怪怪
2026-04-15 13:19:42
台湾女网红整理数据称:台湾男子性犯罪率是印度20倍,我们要大力引进印度人

台湾女网红整理数据称:台湾男子性犯罪率是印度20倍,我们要大力引进印度人

不掉线电波
2026-04-15 14:30:03
公务员巨额财产来源不明罪,只要低于300万或不再需被追究责任

公务员巨额财产来源不明罪,只要低于300万或不再需被追究责任

小萝卜丝
2026-04-15 18:38:38
美军布什号航母及1.02万士兵将抵达中东,特朗普:战争“即将结束”,也可能持续至11月!超2400万伊朗人登记志愿为国捐躯,伊总统五问美国

美军布什号航母及1.02万士兵将抵达中东,特朗普:战争“即将结束”,也可能持续至11月!超2400万伊朗人登记志愿为国捐躯,伊总统五问美国

鲁中晨报
2026-04-15 21:53:08
4-3!0-0!拜仁逆转淘汰皇马,阿森纳进4强,利雅得胜利险胜

4-3!0-0!拜仁逆转淘汰皇马,阿森纳进4强,利雅得胜利险胜

足球狗说
2026-04-16 05:16:26
震惊!白发老人高铁上办公被调侃“高端牛马”,身旁女助理引关注

震惊!白发老人高铁上办公被调侃“高端牛马”,身旁女助理引关注

火山詩话
2026-04-15 06:12:38
后续!孕妇200买水果被老公骂:已去医院终止妊娠 老公发怒砸东西

后续!孕妇200买水果被老公骂:已去医院终止妊娠 老公发怒砸东西

小鋭有话说
2026-04-14 08:37:44
2026-04-16 05:48:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5475文章数 64623关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

美国发布新一轮涉伊朗制裁措施

头条要闻

美国发布新一轮涉伊朗制裁措施

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

教育
数码
旅游
本地
军事航空

教育要闻

小升初求阴影面积,等积变换,会者秒算

数码要闻

明基新款显示器首发12499元:4K专业级色彩校准 根据环境光自动调整

旅游要闻

拉猪车绕关闯禁区:隐秘危险游该踩刹车了

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

军事要闻

万斯:对当前美伊局势进展“感到乐观”

无障碍浏览 进入关怀版