网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 | 世界模型卡在多机器人协作?一个顺序分解思路打通

0
分享至



赵子杰,中国科学院自动化研究所博士生,导师为赵冬斌研究员和朱圆恒副研究员。本科毕业于电子科技大学并获得荣誉学位(Top 0.7%)。主要研究方向为强化学习、世界模型和机器人学习,重点关注融合学习、规划与控制的方法,以实现鲁棒且可扩展的真实世界机器人智能。

近年来,Decision-Coupled World Model与Model-based RL在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统从单机器人扩展到多机器人时,问题开始变得棘手。

在多机器人系统中,世界的变化不再由单独个体决定,而是由多个个体共同作用。于是,一个关键问题是:如何让世界模型能够理解多机器人系统的联合动力学?

为了解决这一挑战,中科院自动化所深度强化学习团队提出 SeqWM,对多机器人联合动力学进行顺序式的因果条件化分解,使机器人能够在意图共享的基础上进行协同规划。该成果已被ICLR 2026接收,并在评审中获得8 / 8 / 8 / 2的评分。



  • 论文标题:Empowering Multi-Robot Cooperation via Sequential World Models
  • 代码地址:https://github.com/zhaozijie2022/seqwm

为什么多机器人协作如此困难?

当多个机器人同时参与决策时,系统的动力学会迅速变得复杂:每个机器人的动作都会影响环境,也会影响其他机器人接下来的决策。这使得多机器人协作成为强化学习和机器人领域长期以来的核心难题。核心原因在于:世界不再由单一策略驱动,而是由多个智能体共同决定。这带来了两个关键挑战:

  • 因果结构复杂化:多个机器人同时作用于环境,导致动力学模型需要同时处理多个「因果源」,学习难度显著增加。强行共享策略易产生梯度冲突。
  • 决策 - 世界闭环被打破:在单机器人场景中,动作 → 环境变化之间形成稳定闭环;而在多机器人系统中,每个机器人都受到其他机器人的影响,预测误差会迅速累积。



图 1:多智能体世界建模困境:在多个 robot 的作用下,足球去向哪里?

SeqWM:多机器人世界模型的顺序式因果分解

现有方法通常把多机器人系统看作一个整体:所有机器人的状态和动作会同时输入到一个统一模型中,进而预测未来环境变化。然而,随着机器人数量增加,这种联合动力学建模的复杂度会迅速增长,使得模型难以稳定学习和泛化,也增大了部署的难度。

SeqWM 从一个全新的视角重新思考了这个问题。研究团队提出一个关键观察:

多机器人世界的变化,其实可以被建模为多个机器人依次作用于环境的过程。

基于这一观察,SeqWM 不再试图学习一个复杂的整体动力学函数,而是将联合动力学分解为一系列顺序条件化的状态转移过程。每个机器人只需要学习:在已知前序机器人动作的条件下,自己对世界状态演化所产生的边际因果贡献。形式上,原本的联合动力学被重写为顺序条件化的分解形式:



这种顺序式分解将复杂的多机器人动力学转化为一系列条件预测问题,从而显著降低了建模难度。



图 2:R1 先规划并共享未来轨迹,R2 据此调整路径,实现对房间的协同探索

在轨迹预测阶段,

  • 每个机器人维护一个独立的世界模型
  • 每个模型只建模自身对环境的边际贡献
  • 后续机器人在预测时条件化前序机器人的预测结果

这种结构使得复杂的联合动力学被拆解为多个简单且可扩展的局部预测过程。

在动作规划阶段,SeqWM 使用 MPPI(Model Predictive Path Integral) 进行动作规划。机器人按照顺序进行规划,并共享预测轨迹。这意味着:后续机器人在规划时,可以提前知道前序机器人的未来计划。这种机制形成了一种显式的意图共享,显著增强协作能力。



图 3:MPPI-based planner 示意图

仿真实验对比

研究团队在两个具有挑战性的多机器人环境中评估了 SeqWM:

  • Bi-DexHands:双灵巧手协作操作任务
  • Multi-Quadruped:多四足机器人协作任务

实验结果表明:SeqWM 在所有任务中均显著超过现有方法,在性能与样本效率方面均取得领先。



图4:仿真实验可视化

协作行为如何自然产生?

SeqWM 不仅提升了任务成功率,还产生了多种自然协作行为。例如:

预测适应(Predictive Adaptation):机器人能够根据伙伴预测的未来动作提前调整动作。例如在接抛球任务中,接球机器人会提前移动到预测落点附近,从而稳定完成抓取。



角色分工(Role Division):在推箱子任务中:一只机器人负责 主要推进力,另一只机器人负责 方向调整。这种分工并非人工设计,而是在训练中自然产生。



Sim-to-Real 真实机器人实验

为了验证算法在真实环境中的效果,研究团队还将 SeqWM 部署到了 Unitree Go2-W 机器人平台。实验包括:推箱子、通过窄门、引导目标机器人:





实验结果表明,真实机器人系统中的协作行为与仿真结果高度一致,验证了 SeqWM 的实际应用潜力。

总结

SeqWM 提出了一种新的多机器人世界建模方式:通过顺序因果结构分解多机器人动力学。这一设计使得复杂的多机器人协作问题变得更加可建模、可规划,也为真实机器人系统提供了一种可扩展的解决方案。随着世界模型与强化学习技术的发展,未来的机器人系统或许能够像人类团队一样,通过共享意图与协同行动完成更加复杂的任务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!深圳一小区坠落百叶窗!女子被砸头部流血,事发时推着婴儿车!物业紧急排查

突发!深圳一小区坠落百叶窗!女子被砸头部流血,事发时推着婴儿车!物业紧急排查

南方都市报
2026-04-02 07:48:26
特朗普伊朗战争讲话引发市场剧烈波动,战争结束前景蒙上阴影

特朗普伊朗战争讲话引发市场剧烈波动,战争结束前景蒙上阴影

Ck的蜜糖
2026-04-02 17:50:50
三峡大坝投入2500多亿,如今民怨四起,到底什么时候能回本?

三峡大坝投入2500多亿,如今民怨四起,到底什么时候能回本?

老谢谈史
2026-04-02 17:17:43
汪小菲马筱梅基因太绝!小炸毛萌翻全网,这颜值谁看了不心动

汪小菲马筱梅基因太绝!小炸毛萌翻全网,这颜值谁看了不心动

乡野小珥
2026-04-02 16:16:45
郑丽文访陆前,台当局收到美方信函,国台办定调,赖清德自取灭亡

郑丽文访陆前,台当局收到美方信函,国台办定调,赖清德自取灭亡

车窗起雾q
2026-04-02 17:56:13
回望他执政的28年,任何时代都难以复制的非凡奇迹!

回望他执政的28年,任何时代都难以复制的非凡奇迹!

蒋南强读历史
2026-04-01 08:00:11
张学良临终吐露,当年被蒋介石扣押后,救他一命的其实不是宋美龄

张学良临终吐露,当年被蒋介石扣押后,救他一命的其实不是宋美龄

英子谈
2026-04-02 13:10:38
广州铁路监督管理局依法约谈广东城际铁路运营有限公司、中铁广州工程局集团有限公司

广州铁路监督管理局依法约谈广东城际铁路运营有限公司、中铁广州工程局集团有限公司

界面新闻
2026-04-02 16:44:18
这个新瓜,把人恶心吐了!

这个新瓜,把人恶心吐了!

八卦南风
2026-04-01 15:48:25
伊朗透露最高领袖身体状况

伊朗透露最高领袖身体状况

环球时报国际
2026-04-02 09:01:14
伊朗:动用超100枚重型导弹 攻击型无人机及200枚火箭弹 打击范围覆盖以色列全境

伊朗:动用超100枚重型导弹 攻击型无人机及200枚火箭弹 打击范围覆盖以色列全境

闪电新闻
2026-04-01 20:57:58
鲁山亡母再婚案后续:孙某菲回应被拘原因,怒斥小姨撒谎

鲁山亡母再婚案后续:孙某菲回应被拘原因,怒斥小姨撒谎

一盅情怀
2026-04-02 07:40:17
美国防长赫格塞斯非常危险,他可能引爆美中战争

美国防长赫格塞斯非常危险,他可能引爆美中战争

闻识
2026-04-01 21:19:26
妈妈肺癌晚期5年,我用80万买来的教训,希望你千万别踩

妈妈肺癌晚期5年,我用80万买来的教训,希望你千万别踩

千秋文化
2026-03-30 20:49:24
上任就点名引援!德泽尔比引援锁定旧将,但引援前提是避免降级

上任就点名引援!德泽尔比引援锁定旧将,但引援前提是避免降级

夜白侃球
2026-04-02 10:02:30
在尼泊尔生活一年,我终于明白,为什么很多人去了就回不来了

在尼泊尔生活一年,我终于明白,为什么很多人去了就回不来了

复转这些年
2026-03-31 19:35:45
波黑足协主席:将于近期拆除世界杯晋级球场并重建;世界杯目标出线

波黑足协主席:将于近期拆除世界杯晋级球场并重建;世界杯目标出线

懂球帝
2026-04-02 13:36:09
清明节前,这些长征路上的烈士有了第一张“照片”

清明节前,这些长征路上的烈士有了第一张“照片”

新华社
2026-04-02 11:41:01
4月执行!退休人员需缴费 每月扣费金额 免缴条件全解读

4月执行!退休人员需缴费 每月扣费金额 免缴条件全解读

混沌录
2026-04-02 16:08:04
恩佐:我从来没和梅西聊过我写给他的信,也不知道他看没看过

恩佐:我从来没和梅西聊过我写给他的信,也不知道他看没看过

懂球帝
2026-04-02 04:34:14
2026-04-02 18:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12667文章数 142605关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

河南一高校浴室热水按升计费 学生洗10分钟要花3到7元

头条要闻

河南一高校浴室热水按升计费 学生洗10分钟要花3到7元

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

宋宁峰带女儿出轨,张婉婷找董璇哭诉

财经要闻

高油价、AI泡沫...谁将压垮美国经济

汽车要闻

轴距2米7/后排能跷腿 试驾后驱小车QQ3 EV

态度原创

时尚
旅游
本地
艺术
军事航空

女人有没有品位看看穿搭就知道,这些造型值得借鉴,温柔高级

旅游要闻

嘀嗒顺风车清明出行预测:上海市内游前三为迪士尼、顾村公园和上海野生动物园

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

艺术要闻

故人西辞黄鹤楼,烟花三月下扬州

军事要闻

伊朗自杀无人机突进 逼退林肯号航母

无障碍浏览 进入关怀版