网易首页 > 网易号 > 正文 申请入驻

LaDi-WM模型大幅提升机器人操作策略的成功率和跨场景泛化能力

0
分享至

在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。

为解决上述问题,国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based WorldModels),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态。

具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。

基于 LaDi-WM,团队设计了一种扩散策略,该策略通过整合世界模型生成的预测状态来迭代地优化输出动作,从而生成更一致、更准确的动作结果。通过在虚拟和真实数据集上的大量实验,LaDi-WM 能够显著提高机器人操作任务的成功率,尤其是在 LIBERO-LONG 数据集上提升27.9%,超过之前的所有方法。

  • 论文地址:https://arxiv.org/abs/2505.11528
  • 项目主页:https://guhuangai.github.io/LaDiWM.github.io/

论文创新点:

1.一种基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,并在隐空间学习可泛化的动态建模能力。

2.一种基于世界模型预测迭代优化的扩散策略:利用世界模型生成未来预测的状态,将预测的状态反馈给策略模型,迭代式地优化策略输出。

图 1 :(左)通过任务无关的片段学习隐扩散世界模型;(右)通过世界模型的未来状态预测来优化策略模型

技术路线

该团队提出一种利用世界模型优化策略学习的框架,以学习机器人抓取操作相关的技能策略。该框架可分为两大阶段:世界模型学习和策略学习。

A. 世界模型学习:

(a)隐空间表示:通过预训练的视觉基础模型对观测图像提取几何表征与语义表征,其中几何表征利用 DINOv2 提取,而语义表征则使用 Siglip 提取。

(b)交互扩散:同时对两种隐空间表示实施扩散过程,并在扩散过程中让二者充分交互,学习几何与语义表征之间的依赖关系,从而促进两种表示的准确动态预测。

图 2 : 基于交互扩散的世界模型架构

B. 策略模型训练与迭代优化推理

(a)结合世界模型的未来预测引导策略学习:将世界模型给出的未来预测作为额外的输入,引导策略模型的准确动作预测;模型架构基于扩散策略模型,有利于学习多模态动作分布。

(b)迭代优化策略输出:策略模型可以在一个时间步多次利用世界模型的未来预测作为引导,从而不断优化自身的动作输出。实验显示,该方案可以逐渐降低策略模型的输出分布熵,达到更准确的动作预测。

图 3 : 基于未来预测引导的策略模型架构

实验结果

虚拟实验:

在公开的虚拟数据集(LIBERO-LONG,CALVIN D-D)中,团队验证了所提出框架在机器人抓取相关的操作任务上的性能。在实验中,世界模型的训练数据会与策略模型的训练数据区分开,从而验证世界模型的泛化能力。对于 LIBERO-LONG,给定语言指令,多次执行并统计机器人完成各项任务的成功率。对于 CALVIN D-D,连续给定五个语言指令,多次执行并统计平均完成任务的数量。

在 LIBERO-LONG 数据集,为了验证世界模型对策略模型的引导作用,团队仅使用 10 条轨迹去训练各任务,对比结果如表 1 所示。相比于其他方法,LaDi-WM 能够提供精确的未来预测,并将预测反馈给策略模型,不断优化动作输出,仅需少量训练数据即可达到 68.7% 的成功率,显著优于其他方法。

表 1: LIBERO-LONG 性能对比

在 CALVIN D-D 数据集上,LaDi-WM 同样展示了在长时任务中的强大性能(表 2)。

表 2: CALVIN D-D 性能对比

团队进一步验证了所提出框架的可扩展性,如图 4 所示。

(a)逐渐增大世界模型的训练数据,模型的预测误差逐渐降低且策略性能逐渐提升;

(b)逐渐增大策略模型的训练数据,抓取操作的成功率逐渐提升;

(c)逐渐增大策略模型的参数量,抓取操作的成功率逐渐提升。

图 4 : 可扩展性实验

为了验证 LaDi-WM 的跨场景泛化能力,团队在 LIBERO-LONG 上训练世界模型,并直接应用于 CALVIN D-D 的策略学习中,实验结果如表 3 所示。若是使用在 LIBERO-LONG 训练的原始策略模型,直接应用到 CALVIN D-D 是不工作的(表第一行);而使用在 LIBERO-LONG 训练的世界模型来引导 CALVIN 环境下的策略学习,则可以比在 CALVIN 环境训练的原始策略的性能高 0.61(表第三行)。这表明,世界模型的泛化能力要优于策略模型的泛化能力。

表 3: 跨场景实验结果。L 代表 LIBERO-LONG,C 代表 CALVIN D-D

团队进一步探索了利用世界模型迭代优化的工作原理。团队收集不同迭代轮次下策略模型的输出动作并绘制其分布,如图 5 所示。迭代优化的过程中,输出动作分布的熵在逐渐降低,这表明策略模型每一步的输出动作更加稳定,从而提升整体的抓取成功率。

图 5 : 迭代优化的动作分布对比

真机实验:

团队也在真实场景中验证了所提出框架的性能,具体操作任务包括「叠碗」、「开抽屉」、「关抽屉」以及「抓取物体放入篮子」等,如图 6 所示。

图 6 : (左)真实场景环境;(右)机器人实际操作样例

在真实场景中,LaDi-WM 将原始模仿学习策略的成功率显著提升 20%(表 4)。

表 4: 真实场景性能对比

图 7 展示了最终所得策略模型在不同任务上的执行轨迹,从图中可以发现,提出的策略能够在不同光照条件以及不同初始位置的情况下有鲁棒的泛化性。

图 7 : 真实场景机器人执行轨迹

总结

国防科大、北京大学、深圳大学团队提出了一种隐空间扩散的世界模型 LaDi-WM(Latent Diffusion-based World Models),利用视觉基础模型提取通用的隐空间表示,并在隐空间学习可泛化的动态建模。同时,团队提出基于世界模型的未来预测来引导策略学习,在推理阶段通过迭代式地优化策略输出,从而进一步提高策略输出动作的准确度。团队通过虚拟与真机上广泛的实验证明了 LaDi-WM 的有效性,所提出的方法显著提升了机器人抓取操作技能的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗表示同意暂停军事战斗,但战争仍未结束

伊朗表示同意暂停军事战斗,但战争仍未结束

界面新闻
2026-04-22 07:04:57
15个中央巡视组举报方式公布!新一轮中央巡视全部进驻,抓紧反映

15个中央巡视组举报方式公布!新一轮中央巡视全部进驻,抓紧反映

细说职场
2026-04-22 08:50:11
弟弟去世获赔近50万元,由大姐保管给母亲养老,不到十年剩12万!大姐夫:账单有记录,想给妹妹一人2万辛苦费,她们不要就存到我的卡上了

弟弟去世获赔近50万元,由大姐保管给母亲养老,不到十年剩12万!大姐夫:账单有记录,想给妹妹一人2万辛苦费,她们不要就存到我的卡上了

大风新闻
2026-04-22 08:33:08
女孩被父亲冷落15年,考上北大办升学宴时,她拿出鉴定父亲愣住

女孩被父亲冷落15年,考上北大办升学宴时,她拿出鉴定父亲愣住

晓艾故事汇
2025-05-19 19:43:44
港媒:两岸已步入到“准统一”阶段,“西藏模式”更具参考!

港媒:两岸已步入到“准统一”阶段,“西藏模式”更具参考!

娱乐圈的笔娱君
2026-04-21 17:59:45
差距太大,克林根首发24分钟正负值-14,罗威替补23分半+13

差距太大,克林根首发24分钟正负值-14,罗威替补23分半+13

懂球帝
2026-04-22 11:27:03
我发现现在老头子退休金只要是在六千到一万多块钱的都是抢手货

我发现现在老头子退休金只要是在六千到一万多块钱的都是抢手货

王姐懒人家常菜
2026-04-22 04:53:27
人有没有钱,一看便知:没钱的子女,大多有3大特质、3大穷习惯

人有没有钱,一看便知:没钱的子女,大多有3大特质、3大穷习惯

第一桶金学派
2025-06-30 10:18:46
宁德时代CTO:25万元以上电动车用磷酸铁锂电池,就是变向减配

宁德时代CTO:25万元以上电动车用磷酸铁锂电池,就是变向减配

观察者网
2026-04-21 20:09:04
我外派半年,老婆居然怀了娃,我回国没吵没闹,见到她我就问谁的

我外派半年,老婆居然怀了娃,我回国没吵没闹,见到她我就问谁的

云端小院
2026-04-21 09:27:39
“找到一个媳妇算你牛”,农村家长晒7儿1女,被群嘲后看清现实

“找到一个媳妇算你牛”,农村家长晒7儿1女,被群嘲后看清现实

妍妍教育日记
2026-04-20 19:42:54
美议员不信邪,鲁比奥早就说了,中国不点头,美国就做不成一件事

美议员不信邪,鲁比奥早就说了,中国不点头,美国就做不成一件事

小冠说娱
2026-04-22 13:13:45
季后赛战力榜:雷霆榜首,马刺&绿军分列二三,开拓者倒二

季后赛战力榜:雷霆榜首,马刺&绿军分列二三,开拓者倒二

懂球帝
2026-04-22 09:21:07
男子花18万买二手保时捷被“前任”车主拖走,查出姚、张、徐、叶等多任车主,车行:不清楚前任还是前前任出现了纠纷,目前警方已立案侦办

男子花18万买二手保时捷被“前任”车主拖走,查出姚、张、徐、叶等多任车主,车行:不清楚前任还是前前任出现了纠纷,目前警方已立案侦办

极目新闻
2026-04-21 15:20:08
黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

扬子晚报
2026-04-21 15:07:17
歼-35总师“道破天机”:中国的两款六代机,可能再一次出人意料

歼-35总师“道破天机”:中国的两款六代机,可能再一次出人意料

混沌录
2026-04-21 22:03:12
伊朗并未请求延长停火,伊官员称美国在为发动突袭争取时间

伊朗并未请求延长停火,伊官员称美国在为发动突袭争取时间

界面新闻
2026-04-22 07:02:43
4月22日中国斯诺克:传来世锦赛最新消息,丁俊晖 赵心童吴宜泽

4月22日中国斯诺克:传来世锦赛最新消息,丁俊晖 赵心童吴宜泽

曹说体育
2026-04-22 11:42:56
青岛多名车主在金盾加油站加油后   遇“问题油”:能启动、跑不动,油表失灵

青岛多名车主在金盾加油站加油后 遇“问题油”:能启动、跑不动,油表失灵

西莫的艺术宫殿
2026-04-22 00:31:03
中国民航大学教师汪瑾去世,年仅56岁,去年刚刚退休,前同事称她深受学生爱戴

中国民航大学教师汪瑾去世,年仅56岁,去年刚刚退休,前同事称她深受学生爱戴

极目新闻
2026-04-21 17:39:34
2026-04-22 15:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12829文章数 142633关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

媒体:特朗普关上了谈判的大门 双方就只剩下一个选项

头条要闻

媒体:特朗普关上了谈判的大门 双方就只剩下一个选项

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

本地
亲子
教育
旅游
时尚

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

亲子要闻

飞鹤,困在“人海战术”里

教育要闻

“难怪穷女孩嫁不到真少爷”,高铁小少爷事件,撕碎普通家长幻想

旅游要闻

2026四川光雾山杜鹃花赏花季文旅消费促进活动启幕

顶流复工,已判若两人

无障碍浏览 进入关怀版