网易首页 > 网易号 > 正文 申请入驻

IROS 混合LMC:通过集成深度强化学习实现轮式仿人机器人的混合学习和基于模型的控制

0
分享至

引用: Baek D, Purushottam A, Ramos J. Hybrid lmc: Hybrid learning and model-based control for wheeled humanoid robot via ensemble deep reinforcement learning[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022: 9347-9354.

PART. 0 0 文章信息

作者单位:

Department of Mechanical Science and Engineering

Department of Electrical and Computer Engineering at the University of Illinois at Urbana-Champaign

文章链接: https://ieeexplore.ieee.org/document/9981913

DOI: 10.1109/IROS47612.2022.9981913


PART. 0 1 摘要

由于这些机器人的非线性动力学和欠驱动特性,轮式人形运动的控制是一个具有挑战性的问题。传统上,反馈控制器用于稳定和运动。然而,这些方法往往受到所使用的底层模型的保真度、控制器的选择和所考虑的环境变量(表面类型、地面倾角等)的限制。强化学习(RL)的最新进展为解决这些传统的反馈控制问题提供了有前景的方法,但需要大量的交互数据来学习。在这里,我们提出了一种混合学习和基于模型的控制器混合LMC,它结合了经典线性二次型调节器(LQR)和集成深度强化学习的优点。集成深度强化学习由多个软行动者批评(SAC)组成,用于降低RL网络的方差。通过串联使用反馈控制器,网络在训练的早期阶段表现出稳定的性能。作为第一步,我们在MuJoCo模拟器中探索了混合LMC在一组不同物理参数下控制人形机器人轮式运动的可行性。我们的结果表明,与其他现有技术相比,混合LMC的性能更好,样品效率也更高。

PART.02背景与方法

人形机器人有可能帮助工人完成体力要求高和危险的工作,如打架和救灾[1],[2]。为了帮助完成这些任务,人形机器人必须能够操纵和运动。同时对间歇性接触和干扰具有鲁棒性。轮式人类机器人(WHR)正成为完成这些任务的有前景的平台,将移动机器人的优势与腿式机器人的灵巧性相结合[3],[4]。

然而,固有的不稳定性、非线性、不精确的建模误差和强耦合机制对WHR的控制提出了挑战。具体来说,WHR的平衡控制对于机器人在现实世界中穿越各种集群阵列至关重要。

对于这些高维非线性系统,最常见的控制方法是使用降阶模型(RoM)对机器人进行建模,如线性倒立摆(LIP)和轮式倒立摆(WlP),并采用基于模型的线性二次型调节器(LQR)[5]、[6]或模型预测控制(MPC)[7]。或者,利用微分动态规划(DDP)和非线性PC(NMPC)作为非线性方法生成全身运动[8],[9]。尽管它们在机器人社区中得到了广泛的应用,但这些控制器的稳定性和鲁棒性受到机器人模型和周围环境保真度的限制。此外,这些方法的性能取决于具有固有误差的模型的准确性。

基于深度强化学习(RL)的方法最近作为一种新兴的解决方案引起了越来越多的关注,并显示出解决高度非线性运动问题的成功[10],[11],[12]。他们可以通过直接从经验中学习策略并自动调整控制器来优化表示任务的给定阻力(或成本)函数,从而克服先前基于模型的自适应方法的局限性。然而,标准的强化学习方法需要机器人和环境之间长时间的交互来学习复杂的技能,这在最初可能是不安全的。收集学习复杂任务所需的数据量是耗时的。尽管提出了许多模拟到真实的技术[12]、[13]、[14],但缩小模拟和现实之间的领域差距仍然具有挑战性,需要花费大量时间(长达几天)进行训练。在特殊情况下,仅通过RL控制WHR是具有挑战性的,因为它们在探索的初始阶段本质上是不稳定的,每次重新设置机器人都是非常低效和有风险的。

同时,将归纳偏差或先验知识(如分析模型、传统控制器)与RL相结合,旨在通过提高采样效率和减少状态空间体积来帮助更安全、更快地探索RL策略,从而解决传统控制器和基于RL的方法的问题[15]、[16]、[17]。尽管这种方法在操作和导航任务中显示出了令人印象深刻的结果[15]、[6],但对于高维的运动来说,它尚未被证明需要收集与任务相关的数据。具体来说,WHR的大多数控制器直接从命令映射到结果扭矩,而不使用高级轨迹或学习策略,这使得解决运动问题更具挑战性。

考虑到这一点,本文的目标是通过从相对稳定的控制器开始探索,并有效减少控制部分的残余误差,为WHR开发一种混合控制器,以补充RL和基于模型的控制器。

在这项工作中,提出了一种结合最优控制器和插入式深度强化学习的混合学习和基于模型的控制器(混合LMC),通过减少非线性、建模误差和各种环境变化引起的残差来提高运动控制性能。基本概念与残差强化学习相同[15],但与之前的工作不同,我们利用了ensembleRL策略,该策略利用了多个软行为者批评者(SAC)[18]和最优控制器(OR)提供的分配动作扭矩,通过更广泛的低方差探索更仔细地选择补偿扭矩。我们的方法允许产生与现有工作相反的扭矩,现有工作使用策略网络来构建高级命令,如轨迹信号。

这项工作的贡献如下:(1)提出了混合学习和基于模型的控制器,利用基于模型控制器和深度强化学习的优点来提高轮腿类人机器人的控制性能。据我们所知,这是首次将残差RL等组合策略应用于类人运动。(2) 实验结果表明,混合线性矩阵控制优于残差强化学习和无模型强化学习算法,即使在各种物理参数发生变化的情况下,也能补偿LOR控制器的残差。(3) 进行了烧蚀研究和其他实验,以有效研究混合LMCutilizing,并进行了仔细分析。(4)使用人体数据的实验结果表明了混合LMC应用于遥操作系统的可行性。




PART.04实验








PART.05总结

在本文中,我们提出了一种混合学习和基于模型的控制器——混合LMC,它结合了传统基于模型的LOR和深度强化学习的优点,在存在模型不确定性和参数变化的情况下进行更稳健的跟踪。此外,集成强化方法可以提高标准控制器的性能,同时降低单个基于随机的RL策略的方差。通过这种方式,我们能够直接进行端到端的学习。通过结合组件深度RL和LOR控制器,LQR引导RL策略在充足范围内产生更合适的扭矩,从而提高了采样效率。对消融研究进行了仔细的研究和分析,以提供一种使用混合LMC的正确方法。在所有实验中,混合LMC都优于之前的方法,并在模型变化和不规则期望轨迹的情况下表现出普遍的性能改进。

在未来的工作中,我们将在硬件上将混合LMC应用于轮式人形机器人系统SATYRR,以验证混合LMC在物理世界中的性能。基于我们的结果,我们希望混合线性矩阵控制在提高性能的同时,为安全训练真实系统提供了一种有效的方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5年后,再看61岁“自驾游阿姨”苏敏,才彻底明白什么叫相由心生

5年后,再看61岁“自驾游阿姨”苏敏,才彻底明白什么叫相由心生

瞻史
2025-11-11 12:58:37
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
恭喜!1996前有国企工龄,3类人每月多领1700+

恭喜!1996前有国企工龄,3类人每月多领1700+

刘哥谈体育
2025-11-09 03:10:36
鸽武缘解释为何不参加扇耳光赛:我有两个孩子,对手都是200斤的

鸽武缘解释为何不参加扇耳光赛:我有两个孩子,对手都是200斤的

杨华评论
2025-11-14 14:00:14
风向真的变了,各国媒体纷纷承认,中国已无需再向世界证明其实力

风向真的变了,各国媒体纷纷承认,中国已无需再向世界证明其实力

沧海旅行家
2025-10-30 16:30:10
阿媒:奥斯卡所患非严重的结构性心脏病,但是否退役仍不明朗

阿媒:奥斯卡所患非严重的结构性心脏病,但是否退役仍不明朗

懂球帝
2025-11-14 11:00:19
52年后,78岁丁佩终于说出真相:李小龙在我床上倒了12分钟!

52年后,78岁丁佩终于说出真相:李小龙在我床上倒了12分钟!

温读史
2025-11-13 18:12:36
中国大V的两大特征:为什么越蠢的人,粉丝越多?

中国大V的两大特征:为什么越蠢的人,粉丝越多?

中外概览
2025-11-09 15:46:45
同期少见!全国型强冷空气即将影响广东,广州最低气温逼近10℃

同期少见!全国型强冷空气即将影响广东,广州最低气温逼近10℃

广州交通电台
2025-11-14 16:45:20
“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

诗意世界
2025-11-07 10:23:31
迈阿密国际工资单炸裂:梅西年薪1.45亿 是最低球员工资的244倍

迈阿密国际工资单炸裂:梅西年薪1.45亿 是最低球员工资的244倍

体坛八点半的那些事儿
2025-11-14 19:28:02
大陆发布悬赏通告后,岛内网民的反应来了

大陆发布悬赏通告后,岛内网民的反应来了

参考消息
2025-11-13 21:19:09
英国教授:我始终想不明白,中国靠什么维系了数千年的文明大统一

英国教授:我始终想不明白,中国靠什么维系了数千年的文明大统一

健康快乐丁
2025-06-09 22:12:01
地道里200哈马斯无人接收,土耳其伊朗马克龙斯塔默赶紧的

地道里200哈马斯无人接收,土耳其伊朗马克龙斯塔默赶紧的

移光幻影
2025-11-13 14:48:31
毁天灭地震山河,在太平洋战争中大显神威的美军MK7型406毫米舰炮

毁天灭地震山河,在太平洋战争中大显神威的美军MK7型406毫米舰炮

知兵堂军事
2025-11-13 08:52:14
德财长访华或要黄,德国国会邀沈伯洋作证,要给两岸中国人断官司

德财长访华或要黄,德国国会邀沈伯洋作证,要给两岸中国人断官司

阿晪美食
2025-11-13 19:55:25
曝余嘉豪参加月底男篮世预赛,但很可能缺席集训,打完迅速回欧!

曝余嘉豪参加月底男篮世预赛,但很可能缺席集训,打完迅速回欧!

篮球资讯达人
2025-11-14 21:14:33
德军司令:柏林已做好“开战准备”

德军司令:柏林已做好“开战准备”

环球时报国际
2025-11-11 00:09:28
洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

洋姜不是姜,是天然胰岛果,在中国被沦为咸菜,都快吃绝种了

泠泠说史
2025-11-11 15:43:31
郑丽文明确说明去马町场秋祭不是纪念吴石,大陆网友还是一厢情愿

郑丽文明确说明去马町场秋祭不是纪念吴石,大陆网友还是一厢情愿

聆泉书斋
2025-11-13 22:44:15
2025-11-15 02:03:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5233文章数 64596关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
艺术
游戏
旅游
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

迟迟没有Switch2版!这三款任天堂第一方游戏太可惜

旅游要闻

千年石窟秒变顶流秀场!这场“衣脉相承”的大秀让“宋韵”美出圈

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版