网易首页 > 网易号 > 正文 申请入驻

LaDi-WM模型大幅提升机器人操作策略的成功率和跨场景泛化能力

0
分享至



在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。

为解决上述问题,国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based WorldModels),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态。

具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。

基于 LaDi-WM,团队设计了一种扩散策略,该策略通过整合世界模型生成的预测状态来迭代地优化输出动作,从而生成更一致、更准确的动作结果。通过在虚拟和真实数据集上的大量实验,LaDi-WM 能够显著提高机器人操作任务的成功率,尤其是在 LIBERO-LONG 数据集上提升27.9%,超过之前的所有方法。





  • 论文地址:https://arxiv.org/abs/2505.11528
  • 项目主页:https://guhuangai.github.io/LaDiWM.github.io/

论文创新点:

1.一种基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,并在隐空间学习可泛化的动态建模能力。

2.一种基于世界模型预测迭代优化的扩散策略:利用世界模型生成未来预测的状态,将预测的状态反馈给策略模型,迭代式地优化策略输出。



图 1 :(左)通过任务无关的片段学习隐扩散世界模型;(右)通过世界模型的未来状态预测来优化策略模型

技术路线

该团队提出一种利用世界模型优化策略学习的框架,以学习机器人抓取操作相关的技能策略。该框架可分为两大阶段:世界模型学习和策略学习。

A. 世界模型学习:

(a)隐空间表示:通过预训练的视觉基础模型对观测图像提取几何表征与语义表征,其中几何表征利用 DINOv2 提取,而语义表征则使用 Siglip 提取。

(b)交互扩散:同时对两种隐空间表示实施扩散过程,并在扩散过程中让二者充分交互,学习几何与语义表征之间的依赖关系,从而促进两种表示的准确动态预测。



图 2 : 基于交互扩散的世界模型架构

B. 策略模型训练与迭代优化推理

(a)结合世界模型的未来预测引导策略学习:将世界模型给出的未来预测作为额外的输入,引导策略模型的准确动作预测;模型架构基于扩散策略模型,有利于学习多模态动作分布。

(b)迭代优化策略输出:策略模型可以在一个时间步多次利用世界模型的未来预测作为引导,从而不断优化自身的动作输出。实验显示,该方案可以逐渐降低策略模型的输出分布熵,达到更准确的动作预测。



图 3 : 基于未来预测引导的策略模型架构

实验结果

虚拟实验:

在公开的虚拟数据集(LIBERO-LONG,CALVIN D-D)中,团队验证了所提出框架在机器人抓取相关的操作任务上的性能。在实验中,世界模型的训练数据会与策略模型的训练数据区分开,从而验证世界模型的泛化能力。对于 LIBERO-LONG,给定语言指令,多次执行并统计机器人完成各项任务的成功率。对于 CALVIN D-D,连续给定五个语言指令,多次执行并统计平均完成任务的数量。

在 LIBERO-LONG 数据集,为了验证世界模型对策略模型的引导作用,团队仅使用 10 条轨迹去训练各任务,对比结果如表 1 所示。相比于其他方法,LaDi-WM 能够提供精确的未来预测,并将预测反馈给策略模型,不断优化动作输出,仅需少量训练数据即可达到 68.7% 的成功率,显著优于其他方法。



表 1: LIBERO-LONG 性能对比

在 CALVIN D-D 数据集上,LaDi-WM 同样展示了在长时任务中的强大性能(表 2)。



表 2: CALVIN D-D 性能对比

团队进一步验证了所提出框架的可扩展性,如图 4 所示。

(a)逐渐增大世界模型的训练数据,模型的预测误差逐渐降低且策略性能逐渐提升;

(b)逐渐增大策略模型的训练数据,抓取操作的成功率逐渐提升;

(c)逐渐增大策略模型的参数量,抓取操作的成功率逐渐提升。



图 4 : 可扩展性实验

为了验证 LaDi-WM 的跨场景泛化能力,团队在 LIBERO-LONG 上训练世界模型,并直接应用于 CALVIN D-D 的策略学习中,实验结果如表 3 所示。若是使用在 LIBERO-LONG 训练的原始策略模型,直接应用到 CALVIN D-D 是不工作的(表第一行);而使用在 LIBERO-LONG 训练的世界模型来引导 CALVIN 环境下的策略学习,则可以比在 CALVIN 环境训练的原始策略的性能高 0.61(表第三行)。这表明,世界模型的泛化能力要优于策略模型的泛化能力。



表 3: 跨场景实验结果。L 代表 LIBERO-LONG,C 代表 CALVIN D-D

团队进一步探索了利用世界模型迭代优化的工作原理。团队收集不同迭代轮次下策略模型的输出动作并绘制其分布,如图 5 所示。迭代优化的过程中,输出动作分布的熵在逐渐降低,这表明策略模型每一步的输出动作更加稳定,从而提升整体的抓取成功率。



图 5 : 迭代优化的动作分布对比

真机实验:

团队也在真实场景中验证了所提出框架的性能,具体操作任务包括「叠碗」、「开抽屉」、「关抽屉」以及「抓取物体放入篮子」等,如图 6 所示。



图 6 : (左)真实场景环境;(右)机器人实际操作样例

在真实场景中,LaDi-WM 将原始模仿学习策略的成功率显著提升 20%(表 4)。



表 4: 真实场景性能对比

图 7 展示了最终所得策略模型在不同任务上的执行轨迹,从图中可以发现,提出的策略能够在不同光照条件以及不同初始位置的情况下有鲁棒的泛化性。



图 7 : 真实场景机器人执行轨迹

总结

国防科大、北京大学、深圳大学团队提出了一种隐空间扩散的世界模型 LaDi-WM(Latent Diffusion-based World Models),利用视觉基础模型提取通用的隐空间表示,并在隐空间学习可泛化的动态建模。同时,团队提出基于世界模型的未来预测来引导策略学习,在推理阶段通过迭代式地优化策略输出,从而进一步提高策略输出动作的准确度。团队通过虚拟与真机上广泛的实验证明了 LaDi-WM 的有效性,所提出的方法显著提升了机器人抓取操作技能的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国在建铁路事故死亡人数升至22人

泰国在建铁路事故死亡人数升至22人

新京报
2026-01-14 12:44:02
机构:2025年中国智能手机市场出货量约2.85亿台,华为居首

机构:2025年中国智能手机市场出货量约2.85亿台,华为居首

界面新闻
2026-01-14 12:35:34
嘲讽张柏芝三胎全是赔钱货,向太忍无可忍,揭露宁静嫁老外内幕

嘲讽张柏芝三胎全是赔钱货,向太忍无可忍,揭露宁静嫁老外内幕

悠悠说世界
2025-12-26 12:03:43
大陆最后一名军统女特务,平日里每日一包烟,84岁高龄时感慨道:共产党养了我整整31年

大陆最后一名军统女特务,平日里每日一包烟,84岁高龄时感慨道:共产党养了我整整31年

史海残云
2025-12-26 11:42:14
马云重金投入的机构立功了

马云重金投入的机构立功了

华尔街见闻官方
2026-01-13 18:20:56
娶了朋友前妻是一种什么样的体验?

娶了朋友前妻是一种什么样的体验?

另子维爱读史
2026-01-13 20:04:40
4.56亿元!上海建国西路独栋办公洋房法拍成交,单价15.2万元/平米

4.56亿元!上海建国西路独栋办公洋房法拍成交,单价15.2万元/平米

澎湃新闻
2026-01-13 17:34:46
乌专家:中国“吸干”苏联遗产,我们图纸都没看懂,他们造出2.0

乌专家:中国“吸干”苏联遗产,我们图纸都没看懂,他们造出2.0

博览历史
2025-12-29 19:26:45
比iPhone更疯狂!乔布斯去世15年后,「最像他的人」操刀首款AI硬件

比iPhone更疯狂!乔布斯去世15年后,「最像他的人」操刀首款AI硬件

新智元
2026-01-13 20:03:06
1:34局面初现!特朗普高兴了,当众喊话,料定中国已经被他镇住

1:34局面初现!特朗普高兴了,当众喊话,料定中国已经被他镇住

触摸史迹
2026-01-14 12:32:42
重磅!哪里穷?哪里富?这张图一目了然…

重磅!哪里穷?哪里富?这张图一目了然…

慧翔百科
2026-01-14 12:21:34
CCTV5直播!广东VS上海胜负难料,超级外援互不相让,杜锋冲4连胜

CCTV5直播!广东VS上海胜负难料,超级外援互不相让,杜锋冲4连胜

老叶评球
2026-01-13 21:44:01
父亲去世时二叔说没空回来,直到去年我结婚,得知真相后我泪目了

父亲去世时二叔说没空回来,直到去年我结婚,得知真相后我泪目了

五元讲堂
2025-03-24 11:46:09
英超最强双子星诞生!利物浦2亿欧组合爆发,未来十年争冠无忧

英超最强双子星诞生!利物浦2亿欧组合爆发,未来十年争冠无忧

锐评利物浦
2026-01-13 23:40:37
慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

铭记历史呀
2026-01-12 15:12:59
特朗普建议美国盟友撤离伊朗

特朗普建议美国盟友撤离伊朗

界面新闻
2026-01-14 07:26:13
印度网友:中国拍了那么多战争电影,可为啥从不拍关于中印的战争

印度网友:中国拍了那么多战争电影,可为啥从不拍关于中印的战争

乡野小珥
2026-01-14 12:17:40
1993年,上海街头那个骑破车的瘸腿老头,谁能想到他是哈军工的高材生?

1993年,上海街头那个骑破车的瘸腿老头,谁能想到他是哈军工的高材生?

寄史言志
2026-01-13 22:14:23
U23国足vs泰国!442阵型首发浮现:李昊压阵,王钰栋+蒯纪闻冲锋

U23国足vs泰国!442阵型首发浮现:李昊压阵,王钰栋+蒯纪闻冲锋

球场没跑道
2026-01-13 17:25:01
广东东莞一村生娃发钱!二孩奖1万三孩奖3万 村委会:已有村民符合条件 春节后发放

广东东莞一村生娃发钱!二孩奖1万三孩奖3万 村委会:已有村民符合条件 春节后发放

红星新闻
2026-01-14 10:49:21
2026-01-14 13:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12112文章数 142536关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

"死了么"App爆火:流量来了 困境未解

汽车要闻

曝Model Y或降到20万以内!

态度原创

旅游
健康
教育
手机
家居

旅游要闻

福州熊猫世界17日焕新开园

血常规3项异常,是身体警报!

教育要闻

高二美术生英语30-50分,快速提分,可以用简化版提分攻略

手机要闻

联名泡泡玛特:荣耀500 Pro MOLLY 20周年限定版礼盒19日发布

家居要闻

心之所向 现代建构之美

无障碍浏览 进入关怀版