网易首页 > 网易号 > 正文 申请入驻

Multi-Loco:一个通用基础模型,驾驭四种形态各异的机器人

0
分享至


ROBOT INDUSTRY

想象一下,一个AI小脑,既能指挥双足机器人优雅漫步,又能让四足机器狗敏捷奔跑,还能操控双轮足机器人进行多地形移动,甚至连复杂的人形机器人也能轻松驾驭。南方科技大学、圣母大学、浙江大学-UIUC联合学院与逐际动力的最新研究成果,把这个大家梦寐以求的能力实现了。


你是否想过,为什么一个智能家居App就能同时控制家里所有灯光和家电,但教一个机器人学会走路却要耗费巨大的时间进行训练?更别提让一个AI程序去控制所有机器人了。

传统上,每一种机器人,因为“身材”(形态)、“骨骼”(关节)和“运动方式”(动力学)都不同,几乎都需要一个“私人教练”—一个专门为它量身定制的AI模型(控制策略)。这不仅耗时耗力,也限制了机器人技术的泛化和快速发展。

而Multi-Loco打破了这一局限,是迈向“机器人通用AI”目标的重要一步。

1

Multi-Loco:一脑多形,用同一个策略控制多种形态的机器人


在2025年9月公布的CoRL 2025论文收录名单中,逐际动力作为联合科研团队再有成果入选。本次由南方科技大学、圣母大学、浙江大学-UIUC联合学院与逐际动力共同完成的研究《Multi-Loco:Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion》(《基于强化学习的多形态足式机器人运动统一控制框架》),提出了Multi-Loco,一个基于强化学习的多形态足式机器人运动统一控制框架,是一次在跨形态足式机器人运动控制领域的前沿探索与重要突破。


收录地址:https://www.corl.org/program

核心目标就一句话:用同一个AI策略,控制多种形态迥异的足式机器人。

如图1所示,下面有四款构型、步态、运动模式完全不同的足式机器人,从最简构型的双点足机器人,到注重移动效率的双轮足机器人,再到更灵活、系统也更复杂的四足狗和全身运动控制难度更高的人形机器人,背后都是由同一个Multi-Loco策略在指挥。


图1 Multi-Loco驱动四种机器人(双点足、双轮足、四足、人形)

在草地、斜坡、楼梯等复杂地形上稳定行走

Multi-Loco真正实现了“一脑多形”,展现了稳定的鲁棒性和泛化能力。

2

双管齐下,让策略兼具泛化性与适应性


那么,这个“机器人通用小脑”是如何炼成的呢?Multi-Loco的核心突破在于一套组合拳:生成式扩散模型(Diffusion Model)+残差强化学习 (Residual RL)。


图1 Multi-Loco框架图解。“运动分析师”(扩散模型,Diffusion Model)离线提炼通用原理,“私人教练”(残差策略,Residual Policy)在线实时微调

3

生成式扩散模型:洞察全局的“运动分析师”


想象一位顶级的运动分析师,他的任务不是只研究一个运动员,而是同时分析篮球、足球、体操等多个不同项目的运动员。

面临的挑战:每一个项目的运动原理、动作要领不同;每个运动员的身材和技术数据也不同。

解决方案:“分析师”使用一种标准化的数据对齐方式(Zero Padding)来处理信息维度的差异,再通过同一个生成式模型,从不同的运动员数据中,抽取不同运动的共性信息。

这并不仅仅是去模仿一个运动员,或是某个单一动作,而是从所有这些不同的运动员和项目中,提炼出关于平衡、协调和力量控制的通用运动原理。这个扩散模型就扮演着“运动分析师”的角色。它通过学习不同构型机器人的运动数据,掌握了机器人在不同运动场景下的基础规律,形成了一个强大的通用知识库。

4

残差强化学习:临场指挥的“私人教练”


“运动分析师”提供的通用原理虽然非常重要,但针对不同的比赛和具体的运动员,还是需要有针对性的战术调整,才能让他们的表现更加出色。

这时,“私人教练”就上场了。在Multi-Loco中,它是一个轻量级的残差强化学习(Residual RL)模块。它的任务不是从头教起,而是在“分析师”给出的通用策略基础上,根据每一个机器人的实时状态和运动场景,进行精准的“战术修正”(即残差)。

这个“私人教练”会根据机器人的实时表现,比如是否平稳、有没有跟上目标速度等进行奖励或惩罚,动态优化动作细节。

“分析师”负责制定宏观战略,“私人教练”负责临场战术微调。两者结合,让Multi-Loco既有强大的泛化能力,又有精准的适应能力。

5

实践验证:更快更稳,还会自主领悟新技能


实验结果证明,Multi-Loco不仅可行,而且性能卓越。


图3 策略性能对比图。紫色代表的是使用Single-Robot Diffusion Policy(SR-DP)单一机器人数据训练的扩散策略,以此为基准,橙色使用的是Cross-Robot Diffusion Policy(CR-DP)多机器人数据训练的扩散策略,蓝色代表的是相应机器人的专家强化学习策略(RL expert),绿色是我们的方法(CR-DP+RA),多机器人数据训练的扩散策略+残差强化学习微调。如图所示,Multi-Loco在所有机器人上都表现更优

对比传统方法,即通过强化学习方法(PPO)对每个机器人单独进行训练的专家策略,Multi-Loco的平均性能提升了10.35%,在双轮足机器人上的提升最大,达到了13.57%。

除了更快的训练效率和更高的部署稳定性,在训练过程中,机器人还出现了“技能涌现”现象。

以双轮足机器人为例,在使用专家强化学习策略进行单独训练时,它只学会了在平坦地形上的移动,遇到台阶就束手无策。但通过Multi-Loco进行训练,机器人仅靠观摩其他双足和人形机器人的训练数据,就无师自通地学会了“抬腿”这个新技能,从而实现了阶梯障碍跨越。


图4 原本只会平地移动的双轮足机器人,在通过Multi-Loco结合其他机器人的数据进行训练(CR-DP)后,展现出了在各类复杂地形的高通过率。而当我们引入“私人教练”,即残差强化学习(Residual Adaptation)稍加指点后,它在各类复杂地形的表现(右图绿线)不仅远优于过去的自己(左图黄线),更优于强化学习单独训练的策略(右图蓝线)

这证明了Multi-Loco在跨形态学习的巨大潜力—通过学习不同机器人的运动数据,机器人之间可以互相“启发”,学到自己原本学不会的本领。

6

通往“机器人通用AI”的坚实一步


Multi-Loco为解决跨形态机器人统一控制这一核心挑战提供了一条全新的、高效的路径,是逐际动力联合高校及科研机构,在基于强化学习的小脑全身运动控制这一技术策略上的成功探索。它不仅展示了生成式模型与强化学习结合对机器人掌握通用移动能力带来的增益,也为具身智能“通用驱动”提供了一条可行且高效的进化路径。

加速开发:无需针对单一机器人形态重新开发控制算法,提升训练和研发效率。

提升性能:跨形态学习也能解锁新技能,让机器人具备更强大的运动泛化潜力

迈向通用:一套运动控制基础模型可复用于不同形态的机器人,是通往“一个AI驱动所有设备”的通用人工智能的坚实一步。

未来,逐际动力将进一步优化Multi-Loco的能力,通过学习更多不同形态的机器人运动规律,提升算法泛化性和适应性,乃至适配从未预先见过的新形态机器人。


我们期待,机器人像智能手机一样,轻松“下载”新技能的时代早日到来!

本文作者:深圳逐际动力科技有限公司

阅读更多内容,欢迎订购《机器人产业》杂志。

点击跳转!圈内人都在看的专家观点



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪从凯越离开 33 字离职信意外走红!网友:天马行空又锋芒毕露……

张雪从凯越离开 33 字离职信意外走红!网友:天马行空又锋芒毕露……

互联网思维
2026-04-08 23:34:35
特朗普提议与伊朗“联合管理”霍尔木兹海峡

特朗普提议与伊朗“联合管理”霍尔木兹海峡

新京报
2026-04-08 21:30:03
突发骨折!再见了,MVP!正式宣布赛季报销

突发骨折!再见了,MVP!正式宣布赛季报销

篮球实战宝典
2026-04-09 21:04:25
中纪委:禁止机关事业单位在编职工去做这几种副业!

中纪委:禁止机关事业单位在编职工去做这几种副业!

细说职场
2026-04-09 15:34:47
陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

汪镛的创业之路
2026-04-09 16:18:14
主治医生:朴智星的半月板已无再生可能,只留下了很小一部分

主治医生:朴智星的半月板已无再生可能,只留下了很小一部分

懂球帝
2026-04-09 10:57:50
彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

白面书誏
2026-04-08 13:59:47
《妻子的浪漫旅行2026》开播!首期4对嘉宾家庭日,各有各的甜

《妻子的浪漫旅行2026》开播!首期4对嘉宾家庭日,各有各的甜

露珠聊影视
2026-04-09 19:05:32
王毅同朝鲜外相崔善姬举行会谈

王毅同朝鲜外相崔善姬举行会谈

新京报
2026-04-09 20:53:14
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

一娱三分地
2026-02-19 17:04:30
羽球亚锦赛第3日:国羽10胜4负!王祉怡胜世锦赛冠军,翁泓阳复仇

羽球亚锦赛第3日:国羽10胜4负!王祉怡胜世锦赛冠军,翁泓阳复仇

钉钉陌上花开
2026-04-09 21:11:32
伊朗发生一起严重车祸 11人死亡

伊朗发生一起严重车祸 11人死亡

环球网资讯
2026-04-09 17:53:04
迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

混沌录
2026-04-09 18:45:25
《妻子浪漫旅行》最尴尬的夫妻,话少还装甜蜜,没李纯马頔自然

《妻子浪漫旅行》最尴尬的夫妻,话少还装甜蜜,没李纯马頔自然

一娱三分地
2026-04-09 19:22:11
机关事业单位丧葬抚恤金:机关40个月、事业20个月,细节要看清

机关事业单位丧葬抚恤金:机关40个月、事业20个月,细节要看清

普陀动物世界
2026-04-08 03:02:21
当你觉得自己没用时,可以点进来看看元宇宙的现状。

当你觉得自己没用时,可以点进来看看元宇宙的现状。

差评XPIN
2026-04-08 00:13:54
只差1场:文班亚马的肋骨,与NBA最荒诞的规则

只差1场:文班亚马的肋骨,与NBA最荒诞的规则

茅塞盾开本尊
2026-04-09 12:42:15
金子涵直播疑似求救:脸部被注射50针不明物质,不服从便会头痛

金子涵直播疑似求救:脸部被注射50针不明物质,不服从便会头痛

开开森森
2026-04-09 07:58:17
44岁辣妈张萌,这渐变比基尼下的魔鬼身材,谁看了不迷糊?

44岁辣妈张萌,这渐变比基尼下的魔鬼身材,谁看了不迷糊?

娱乐领航家
2026-04-09 21:00:03
四川省交通运输厅原副厅长鲜雄被查

四川省交通运输厅原副厅长鲜雄被查

爱看头条
2026-04-09 19:12:01
2026-04-09 23:28:49
雷克智能 incentive-icons
雷克智能
智能才是机器之道
1111文章数 5878关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

旅游
家居
健康
本地
公开课

旅游要闻

海南“三月三” 白沙邀您赴约

家居要闻

清新自然 复古风尚

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版