![]()
ROBOT INDUSTRY
想象一下,一个AI小脑,既能指挥双足机器人优雅漫步,又能让四足机器狗敏捷奔跑,还能操控双轮足机器人进行多地形移动,甚至连复杂的人形机器人也能轻松驾驭。南方科技大学、圣母大学、浙江大学-UIUC联合学院与逐际动力的最新研究成果,把这个大家梦寐以求的能力实现了。
![]()
你是否想过,为什么一个智能家居App就能同时控制家里所有灯光和家电,但教一个机器人学会走路却要耗费巨大的时间进行训练?更别提让一个AI程序去控制所有机器人了。
传统上,每一种机器人,因为“身材”(形态)、“骨骼”(关节)和“运动方式”(动力学)都不同,几乎都需要一个“私人教练”—一个专门为它量身定制的AI模型(控制策略)。这不仅耗时耗力,也限制了机器人技术的泛化和快速发展。
而Multi-Loco打破了这一局限,是迈向“机器人通用AI”目标的重要一步。
1
Multi-Loco:一脑多形,用同一个策略控制多种形态的机器人
![]()
在2025年9月公布的CoRL 2025论文收录名单中,逐际动力作为联合科研团队再有成果入选。本次由南方科技大学、圣母大学、浙江大学-UIUC联合学院与逐际动力共同完成的研究《Multi-Loco:Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion》(《基于强化学习的多形态足式机器人运动统一控制框架》),提出了Multi-Loco,一个基于强化学习的多形态足式机器人运动统一控制框架,是一次在跨形态足式机器人运动控制领域的前沿探索与重要突破。
![]()
收录地址:https://www.corl.org/program
核心目标就一句话:用同一个AI策略,控制多种形态迥异的足式机器人。
如图1所示,下面有四款构型、步态、运动模式完全不同的足式机器人,从最简构型的双点足机器人,到注重移动效率的双轮足机器人,再到更灵活、系统也更复杂的四足狗和全身运动控制难度更高的人形机器人,背后都是由同一个Multi-Loco策略在指挥。
![]()
图1 Multi-Loco驱动四种机器人(双点足、双轮足、四足、人形)
在草地、斜坡、楼梯等复杂地形上稳定行走
Multi-Loco真正实现了“一脑多形”,展现了稳定的鲁棒性和泛化能力。
2
双管齐下,让策略兼具泛化性与适应性
![]()
那么,这个“机器人通用小脑”是如何炼成的呢?Multi-Loco的核心突破在于一套组合拳:生成式扩散模型(Diffusion Model)+残差强化学习 (Residual RL)。
![]()
图1 Multi-Loco框架图解。“运动分析师”(扩散模型,Diffusion Model)离线提炼通用原理,“私人教练”(残差策略,Residual Policy)在线实时微调
3
生成式扩散模型:洞察全局的“运动分析师”
![]()
想象一位顶级的运动分析师,他的任务不是只研究一个运动员,而是同时分析篮球、足球、体操等多个不同项目的运动员。
面临的挑战:每一个项目的运动原理、动作要领不同;每个运动员的身材和技术数据也不同。
解决方案:“分析师”使用一种标准化的数据对齐方式(Zero Padding)来处理信息维度的差异,再通过同一个生成式模型,从不同的运动员数据中,抽取不同运动的共性信息。
这并不仅仅是去模仿一个运动员,或是某个单一动作,而是从所有这些不同的运动员和项目中,提炼出关于平衡、协调和力量控制的通用运动原理。这个扩散模型就扮演着“运动分析师”的角色。它通过学习不同构型机器人的运动数据,掌握了机器人在不同运动场景下的基础规律,形成了一个强大的通用知识库。
4
残差强化学习:临场指挥的“私人教练”
![]()
“运动分析师”提供的通用原理虽然非常重要,但针对不同的比赛和具体的运动员,还是需要有针对性的战术调整,才能让他们的表现更加出色。
这时,“私人教练”就上场了。在Multi-Loco中,它是一个轻量级的残差强化学习(Residual RL)模块。它的任务不是从头教起,而是在“分析师”给出的通用策略基础上,根据每一个机器人的实时状态和运动场景,进行精准的“战术修正”(即残差)。
这个“私人教练”会根据机器人的实时表现,比如是否平稳、有没有跟上目标速度等进行奖励或惩罚,动态优化动作细节。
“分析师”负责制定宏观战略,“私人教练”负责临场战术微调。两者结合,让Multi-Loco既有强大的泛化能力,又有精准的适应能力。
5
实践验证:更快更稳,还会自主领悟新技能
![]()
实验结果证明,Multi-Loco不仅可行,而且性能卓越。
![]()
图3 策略性能对比图。紫色代表的是使用Single-Robot Diffusion Policy(SR-DP)单一机器人数据训练的扩散策略,以此为基准,橙色使用的是Cross-Robot Diffusion Policy(CR-DP)多机器人数据训练的扩散策略,蓝色代表的是相应机器人的专家强化学习策略(RL expert),绿色是我们的方法(CR-DP+RA),多机器人数据训练的扩散策略+残差强化学习微调。如图所示,Multi-Loco在所有机器人上都表现更优
对比传统方法,即通过强化学习方法(PPO)对每个机器人单独进行训练的专家策略,Multi-Loco的平均性能提升了10.35%,在双轮足机器人上的提升最大,达到了13.57%。
除了更快的训练效率和更高的部署稳定性,在训练过程中,机器人还出现了“技能涌现”现象。
以双轮足机器人为例,在使用专家强化学习策略进行单独训练时,它只学会了在平坦地形上的移动,遇到台阶就束手无策。但通过Multi-Loco进行训练,机器人仅靠观摩其他双足和人形机器人的训练数据,就无师自通地学会了“抬腿”这个新技能,从而实现了阶梯障碍跨越。
![]()
图4 原本只会平地移动的双轮足机器人,在通过Multi-Loco结合其他机器人的数据进行训练(CR-DP)后,展现出了在各类复杂地形的高通过率。而当我们引入“私人教练”,即残差强化学习(Residual Adaptation)稍加指点后,它在各类复杂地形的表现(右图绿线)不仅远优于过去的自己(左图黄线),更优于强化学习单独训练的策略(右图蓝线)
这证明了Multi-Loco在跨形态学习的巨大潜力—通过学习不同机器人的运动数据,机器人之间可以互相“启发”,学到自己原本学不会的本领。
6
通往“机器人通用AI”的坚实一步
![]()
Multi-Loco为解决跨形态机器人统一控制这一核心挑战提供了一条全新的、高效的路径,是逐际动力联合高校及科研机构,在基于强化学习的小脑全身运动控制这一技术策略上的成功探索。它不仅展示了生成式模型与强化学习结合对机器人掌握通用移动能力带来的增益,也为具身智能“通用驱动”提供了一条可行且高效的进化路径。
加速开发:无需针对单一机器人形态重新开发控制算法,提升训练和研发效率。
提升性能:跨形态学习也能解锁新技能,让机器人具备更强大的运动泛化潜力
迈向通用:一套运动控制基础模型可复用于不同形态的机器人,是通往“一个AI驱动所有设备”的通用人工智能的坚实一步。
未来,逐际动力将进一步优化Multi-Loco的能力,通过学习更多不同形态的机器人运动规律,提升算法泛化性和适应性,乃至适配从未预先见过的新形态机器人。
![]()
我们期待,机器人像智能手机一样,轻松“下载”新技能的时代早日到来!
本文作者:深圳逐际动力科技有限公司
阅读更多内容,欢迎订购《机器人产业》杂志。
点击跳转!圈内人都在看的专家观点
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.