蛇形机器人的运动方式迎来了一次全新突破。
日本大阪公立大学的研究团队让蛇形机器人学会了一项新技能——滚动前进。这不是简单的翻滚,而是让机器人变形成轮胎状,通过移动重心让重力驱动滚动。
更关键的是,他们用深度强化学习(Deep Reinforcement Learning)训练出的控制器,让机器人滚出了几乎直线轨迹。
实验数据显示,与传统方法相比,新方法在多个指标上都实现了大幅提升:轨迹曲率半径提升66倍(从0.89米提升到58.75米),旅行效率达到0.43,是传统蜿蜒运动的2-10倍,速度达到0.207 m/s,约为另一种先进步态的2倍。
![]()
这项研究已发表在机器人领域权威期刊《Robotics and Autonomous Systems》上。
01.
为什么要让蛇形机器人"滚"起来?
传统蛇形机器人主要依靠蜿蜒爬行前进,这种运动方式看起来很酷,但存在一个重要问题:能耗太高。
为了产生S形波动,机器人需要同时驱动十几个伺服电机,每个都要输出大扭矩来对抗地面摩擦力。对于依靠电池供电的机器人来说,这简直是超级能耗负担。
研究团队另辟蹊径,提出了一种基于重心转移(COG shift)的滚动运动方法。具体来说,机器人首尾相连形成环形结构,然后通过移动头部或尾部关节来改变重心位置。当重心偏离支撑点后,重力产生的力矩就能驱动滚动。
这相当于让重力来"打工",大幅降低了能耗需求。在平坦地面上,这种滚动运动的能效是传统蜿蜒运动的2-10倍。而且,这种平行双轮形态比单环形状提供了更好的稳定性。
![]()
不过,早期的设计存在一个关键问题。
团队在2023年就提出了这个想法,并用试错法和遗传算法设计了控制器。但由于只依靠加速度计反馈滚动角度,无法保持直线行驶。当路面条件发生变化时,机器人容易偏离预定轨迹。
02.
强化学习让机器人学会"走直线"
为了解决直线性问题,研究团队引入了深度强化学习来设计控制器。
他们采用了Soft Actor-Critic (SAC)算法,这是一种离线策略的深度强化学习算法。通过在仿真环境中进行训练,让机器人学会如何利用陀螺仪和加速度计的反馈信息来维持直线运动。
关键创新在于引入了观测缓冲区(observation buffer)机制。
由于伺服电机存在驱动角度范围和角速度限制,而滚动运动是通过可动连杆变形和地面反作用力产生的,系统存在从动作变化到运动生成的时间延迟。这会严重影响强化学习的收敛性。
为此,团队提出了带有时间积分动作的观测缓冲区结构,有效改善了在关节角速度约束下的学习收敛性。观测值包括:
- 经过低通滤波的加速度和角速度
- 目标关节角度
- 历史观测值缓冲
![]()
训练时还引入了设计的奖励函数。除了基本的滚动速度奖励,还加入了转向惩罚项,用于鼓励机器人保持直线前进:
当检测到偏航角速度增大时,奖励值会相应降低。这让强化学习策略学会了利用陀螺仪反馈来修正行进方向。
实验结果证明了这种方法的有效性。在不同的观测缓冲区大小下,缓冲区越大,奖励收敛速度越快,行驶速度也越高。当缓冲区大小为Nd=20、Nskip=2时,机器人达到了最佳性能。
![]()
03.
实验验证:能效和直线度双双大幅提升
研究团队在真实环境中进行了大量实验验证。
在光滑地板上的测试中,强化学习设计的滚动运动实现了45.59米的曲率半径,远超试错法的1.74米和优化算法的2.62米。即使在有防水罩的情况下,曲率半径仍达到23.90米。
从运动轨迹对比可以看出,试错法设计的运动会产生明显的偏航,优化算法稍有改善但仍有曲线,而强化学习方法实现了近乎直线运动。
![]()
能效方面的提升同样显著。实验测得:
- 滚动运动功耗仅27W,而传统侧向蜿蜒需要54.9W
- 行驶效率η达到0.43,是侧向蜿蜒(0.24)的近2倍
- 速度达到0.207 m/s,与传统方法相当但能耗降低一半
特别值得一提的是,强化学习方法不再严格区分踢腿阶段、重心转移阶段和自由滚动阶段,而是实现了连续平滑的运动控制。从关节角度变化曲线可以看出,运动模式呈现三角波形,这是由于伺服电机最大角速度约束自然形成的。
![]()
这种方法的另一个优势是鲁棒性强。即使实验模型由于关节负载导致形状偏离理想圆形,速度低于仿真结果,但基于IMU传感器反馈的策略仍能在适当时机驱动关节,保证机器人持续前进。
当然,这种滚动运动也有局限性。在草地等复杂地形上无法实现滚动,此时仍需切换到传统的蜿蜒运动模式。但在平坦地面上,滚动模式让蛇形机器人的续航能力大幅提升,有效缓解了电池容量限制。
![]()
研究团队表示,这种基于强化学习的控制框架考虑了关节角速度约束,对于采用高减速比伺服电机的四足机器人等系统也有潜在应用价值。未来他们将继续研究如何在轻微起伏的地形上实现滚动运动,并探索通过切换运动模式来实现转向控制。
这项研究展示了深度强化学习在机器人运动控制中的巨大潜力,为蛇形机器人在实际应用中的能效优化提供了新思路。
论文链接:
https://www.sciencedirect.com/science/article/pii/S0921889026000436?via%3Dihub
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.