网易首页 > 网易号 > 正文 申请入驻

IROS 混合LMC:通过集成深度强化学习实现轮式仿人机器人的混合学习和基于模型的控制

0
分享至

引用: Baek D, Purushottam A, Ramos J. Hybrid lmc: Hybrid learning and model-based control for wheeled humanoid robot via ensemble deep reinforcement learning[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 9347-9354.

PART. 0 0 文章信息

作者单位:

Department of Mechanical Science and Engineering

Department of Electrical and Computer Engineering at the University of Illinois at Urbana-Champaign

文章链接: https://ieeexplore.ieee.org/document/9981913

DOI: 10.1109/IROS47612.2022.9981913


PART. 0 1 摘要

由于这些机器人的非线性动力学和欠驱动特性,轮式人形运动的控制是一个具有挑战性的问题。传统上,反馈控制器用于稳定和运动。然而,这些方法往往受到所使用的底层模型的保真度、控制器的选择和所考虑的环境变量(表面类型、地面倾角等)的限制。强化学习(RL)的最新进展为解决这些传统的反馈控制问题提供了有前景的方法,但需要大量的交互数据来学习。在这里,我们提出了一种混合学习和基于模型的控制器混合LMC,它结合了经典线性二次型调节器(LQR)和集成深度强化学习的优点。集成深度强化学习由多个软行动者批评(SAC)组成,用于降低RL网络的方差。通过串联使用反馈控制器,网络在训练的早期阶段表现出稳定的性能。作为第一步,我们在MuJoCo模拟器中探索了混合LMC在一组不同物理参数下控制人形机器人轮式运动的可行性。我们的结果表明,与其他现有技术相比,混合LMC的性能更好,样品效率也更高。

PART.02背景与方法

人形机器人有可能帮助工人完成体力要求高和危险的工作,如打架和救灾[1],[2]。为了帮助完成这些任务,人形机器人必须能够操纵和运动。同时对间歇性接触和干扰具有鲁棒性。轮式人类机器人(WHR)正成为完成这些任务的有前景的平台,将移动机器人的优势与腿式机器人的灵巧性相结合[3],[4]。

然而,固有的不稳定性、非线性、不精确的建模误差和强耦合机制对WHR的控制提出了挑战。具体来说,WHR的平衡控制对于机器人在现实世界中穿越各种集群阵列至关重要。

对于这些高维非线性系统,最常见的控制方法是使用降阶模型(RoM)对机器人进行建模,如线性倒立摆(LIP)和轮式倒立摆(WlP),并采用基于模型的线性二次型调节器(LQR)[5]、[6]或模型预测控制(MPC)[7]。或者,利用微分动态规划(DDP)和非线性PC(NMPC)作为非线性方法生成全身运动[8],[9]。尽管它们在机器人社区中得到了广泛的应用,但这些控制器的稳定性和鲁棒性受到机器人模型和周围环境保真度的限制。此外,这些方法的性能取决于具有固有误差的模型的准确性。

基于深度强化学习(RL)的方法最近作为一种新兴的解决方案引起了越来越多的关注,并显示出解决高度非线性运动问题的成功[10],[11],[12]。他们可以通过直接从经验中学习策略并自动调整控制器来优化表示任务的给定阻力(或成本)函数,从而克服先前基于模型的自适应方法的局限性。然而,标准的强化学习方法需要机器人和环境之间长时间的交互来学习复杂的技能,这在最初可能是不安全的。收集学习复杂任务所需的数据量是耗时的。尽管提出了许多模拟到真实的技术[12]、[13]、[14],但缩小模拟和现实之间的领域差距仍然具有挑战性,需要花费大量时间(长达几天)进行训练。在特殊情况下,仅通过RL控制WHR是具有挑战性的,因为它们在探索的初始阶段本质上是不稳定的,每次重新设置机器人都是非常低效和有风险的。

同时,将归纳偏差或先验知识(如分析模型、传统控制器)与RL相结合,旨在通过提高采样效率和减少状态空间体积来帮助更安全、更快地探索RL策略,从而解决传统控制器和基于RL的方法的问题[15]、[16]、[17]。尽管这种方法在操作和导航任务中显示出了令人印象深刻的结果[15]、[6],但对于高维的运动来说,它尚未被证明需要收集与任务相关的数据。具体来说,WHR的大多数控制器直接从命令映射到结果扭矩,而不使用高级轨迹或学习策略,这使得解决运动问题更具挑战性。

考虑到这一点,本文的目标是通过从相对稳定的控制器开始探索,并有效减少控制部分的残余误差,为WHR开发一种混合控制器,以补充RL和基于模型的控制器。

在这项工作中,提出了一种结合最优控制器和插入式深度强化学习的混合学习和基于模型的控制器(混合LMC),通过减少非线性、建模误差和各种环境变化引起的残差来提高运动控制性能。基本概念与残差强化学习相同[15],但与之前的工作不同,我们利用了ensembleRL策略,该策略利用了多个软行为者批评者(SAC)[18]和最优控制器(OR)提供的分配动作扭矩,通过更广泛的低方差探索更仔细地选择补偿扭矩。我们的方法允许产生与现有工作相反的扭矩,现有工作使用策略网络来构建高级命令,如轨迹信号。

这项工作的贡献如下:(1)提出了混合学习和基于模型的控制器,利用基于模型控制器和深度强化学习的优点来提高轮腿类人机器人的控制性能。据我们所知,这是首次将残差RL等组合策略应用于类人运动。(2) 实验结果表明,混合线性矩阵控制优于残差强化学习和无模型强化学习算法,即使在各种物理参数发生变化的情况下,也能补偿LOR控制器的残差。(3) 进行了烧蚀研究和其他实验,以有效研究混合LMCutilizing,并进行了仔细分析。(4)使用人体数据的实验结果表明了混合LMC应用于遥操作系统的可行性。




PART.04实验








PART.05总结

在本文中,我们提出了一种混合学习和基于模型的控制器——混合LMC,它结合了传统基于模型的LOR和深度强化学习的优点,在存在模型不确定性和参数变化的情况下进行更稳健的跟踪。此外,集成强化方法可以提高标准控制器的性能,同时降低单个基于随机的RL策略的方差。通过这种方式,我们能够直接进行端到端的学习。通过结合组件深度RL和LOR控制器,LQR引导RL策略在充足范围内产生更合适的扭矩,从而提高了采样效率。对消融研究进行了仔细的研究和分析,以提供一种使用混合LMC的正确方法。在所有实验中,混合LMC都优于之前的方法,并在模型变化和不规则期望轨迹的情况下表现出普遍的性能改进。

在未来的工作中,我们将在硬件上将混合LMC应用于轮式人形机器人系统SATYRR,以验证混合LMC在物理世界中的性能。基于我们的结果,我们希望混合线性矩阵控制在提高性能的同时,为安全训练真实系统提供了一种有效的方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子无偿献血2.2万毫升,持优待卡到指定景区旅游被告知不免票,当事人起诉要求退还50元门票

男子无偿献血2.2万毫升,持优待卡到指定景区旅游被告知不免票,当事人起诉要求退还50元门票

扬子晚报
2026-01-21 09:56:22
王菲曝李亚鹏感人细节:医院完全是李亚鹏在运营,自己替他骄傲

王菲曝李亚鹏感人细节:医院完全是李亚鹏在运营,自己替他骄傲

谈史论天地
2026-01-20 12:57:17
宝妈孩子遭长期尾随后续:警方介入,男子身份曝光,家属追着骂人

宝妈孩子遭长期尾随后续:警方介入,男子身份曝光,家属追着骂人

小樾说历史
2026-01-21 11:51:01
武统、和统都没戏了?台军事专家:中国大陆已经在走第三条路

武统、和统都没戏了?台军事专家:中国大陆已经在走第三条路

近史博览
2026-01-18 16:23:54
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

奇思妙想草叶君
2026-01-21 22:47:01
港府问责动真格!高官被撤银紫荆勋章,属下停薪,官场瑟瑟发抖...

港府问责动真格!高官被撤银紫荆勋章,属下停薪,官场瑟瑟发抖...

港港地
2026-01-22 10:04:41
越南富豪再承诺!若越南队击败韩国队,奖励30亿越南盾 主帅发愁

越南富豪再承诺!若越南队击败韩国队,奖励30亿越南盾 主帅发愁

风过乡
2026-01-22 07:58:40
2025年广东人均存款约11.83万元

2025年广东人均存款约11.83万元

21世纪经济报道
2026-01-22 09:25:38
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
娱乐圈又丢人!嫣然医院捐款名单曝光,年入上亿明星“集体沉默”

娱乐圈又丢人!嫣然医院捐款名单曝光,年入上亿明星“集体沉默”

妙知
2026-01-21 11:16:44
拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

近史谈
2026-01-21 20:33:15
我瘫痪后,妻子悉心照料。无意看见她日记:盼他早死,但怕嫌疑

我瘫痪后,妻子悉心照料。无意看见她日记:盼他早死,但怕嫌疑

真实人物采访
2026-01-21 06:30:03
王石不再沉默,硬刚婚变传闻,称没必要带妻子亮相,精神状态回春

王石不再沉默,硬刚婚变传闻,称没必要带妻子亮相,精神状态回春

阿纂看事
2026-01-21 15:39:15
美国当年怎么搞定夏威夷,就可以怎么搞定格陵兰

美国当年怎么搞定夏威夷,就可以怎么搞定格陵兰

天山箴言录
2026-01-21 17:08:09
印度惊现“沸腾海”:大片海域剧烈翻腾冒泡,当局紧急调查,向过往船只发出警示

印度惊现“沸腾海”:大片海域剧烈翻腾冒泡,当局紧急调查,向过往船只发出警示

红星新闻
2026-01-20 16:47:20
切尔西球探关注李昊!5场零封,28次扑救,他几乎锁定赛事MVP!

切尔西球探关注李昊!5场零封,28次扑救,他几乎锁定赛事MVP!

海浪星体育
2026-01-22 00:00:46
国足挺进亚洲杯决赛,郭广昌奖励8000万,球迷盼早日兑现

国足挺进亚洲杯决赛,郭广昌奖励8000万,球迷盼早日兑现

安逸安逸
2026-01-21 08:53:55
王欣瑜首进澳网女单32强

王欣瑜首进澳网女单32强

齐鲁壹点
2026-01-22 14:21:13
芬兰总统“出招”:邀特朗普蒸桑拿,帮助解决格陵兰岛的复杂局势;他曾将特朗普与泽连斯基的争吵比作婚姻中的争执,呼吁双方回到谈判桌前

芬兰总统“出招”:邀特朗普蒸桑拿,帮助解决格陵兰岛的复杂局势;他曾将特朗普与泽连斯基的争吵比作婚姻中的争执,呼吁双方回到谈判桌前

扬子晚报
2026-01-21 17:48:57
广东男篮被批又菜又爱玩,焦伯乔伤病确定,徐杰胡明轩状态复苏

广东男篮被批又菜又爱玩,焦伯乔伤病确定,徐杰胡明轩状态复苏

中国篮坛快讯
2026-01-22 14:41:33
2026-01-22 15:00:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5314文章数 64599关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

头条要闻

小伙骑车撞特斯拉后贷款赔1.5万修车费 发票只开9千元

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

手机
游戏
本地
艺术
公开课

手机要闻

三星One UI 8.5 Beta 4曝光:修复蓝牙通话BUG,系统更流畅

《暗黑拍卖》1月29日多平台发售 正统黑暗推理冒险

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

一场雪,飘进了唐诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版