网易首页 > 网易号 > 正文 申请入驻

LaDi-WM模型大幅提升机器人操作策略的成功率和跨场景泛化能力

0
分享至



在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。

为解决上述问题,国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based WorldModels),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态。

具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。

基于 LaDi-WM,团队设计了一种扩散策略,该策略通过整合世界模型生成的预测状态来迭代地优化输出动作,从而生成更一致、更准确的动作结果。通过在虚拟和真实数据集上的大量实验,LaDi-WM 能够显著提高机器人操作任务的成功率,尤其是在 LIBERO-LONG 数据集上提升27.9%,超过之前的所有方法。





  • 论文地址:https://arxiv.org/abs/2505.11528
  • 项目主页:https://guhuangai.github.io/LaDiWM.github.io/

论文创新点:

1.一种基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,并在隐空间学习可泛化的动态建模能力。

2.一种基于世界模型预测迭代优化的扩散策略:利用世界模型生成未来预测的状态,将预测的状态反馈给策略模型,迭代式地优化策略输出。



图 1 :(左)通过任务无关的片段学习隐扩散世界模型;(右)通过世界模型的未来状态预测来优化策略模型

技术路线

该团队提出一种利用世界模型优化策略学习的框架,以学习机器人抓取操作相关的技能策略。该框架可分为两大阶段:世界模型学习和策略学习。

A. 世界模型学习:

(a)隐空间表示:通过预训练的视觉基础模型对观测图像提取几何表征与语义表征,其中几何表征利用 DINOv2 提取,而语义表征则使用 Siglip 提取。

(b)交互扩散:同时对两种隐空间表示实施扩散过程,并在扩散过程中让二者充分交互,学习几何与语义表征之间的依赖关系,从而促进两种表示的准确动态预测。



图 2 : 基于交互扩散的世界模型架构

B. 策略模型训练与迭代优化推理

(a)结合世界模型的未来预测引导策略学习:将世界模型给出的未来预测作为额外的输入,引导策略模型的准确动作预测;模型架构基于扩散策略模型,有利于学习多模态动作分布。

(b)迭代优化策略输出:策略模型可以在一个时间步多次利用世界模型的未来预测作为引导,从而不断优化自身的动作输出。实验显示,该方案可以逐渐降低策略模型的输出分布熵,达到更准确的动作预测。



图 3 : 基于未来预测引导的策略模型架构

实验结果

虚拟实验:

在公开的虚拟数据集(LIBERO-LONG,CALVIN D-D)中,团队验证了所提出框架在机器人抓取相关的操作任务上的性能。在实验中,世界模型的训练数据会与策略模型的训练数据区分开,从而验证世界模型的泛化能力。对于 LIBERO-LONG,给定语言指令,多次执行并统计机器人完成各项任务的成功率。对于 CALVIN D-D,连续给定五个语言指令,多次执行并统计平均完成任务的数量。

在 LIBERO-LONG 数据集,为了验证世界模型对策略模型的引导作用,团队仅使用 10 条轨迹去训练各任务,对比结果如表 1 所示。相比于其他方法,LaDi-WM 能够提供精确的未来预测,并将预测反馈给策略模型,不断优化动作输出,仅需少量训练数据即可达到 68.7% 的成功率,显著优于其他方法。



表 1: LIBERO-LONG 性能对比

在 CALVIN D-D 数据集上,LaDi-WM 同样展示了在长时任务中的强大性能(表 2)。



表 2: CALVIN D-D 性能对比

团队进一步验证了所提出框架的可扩展性,如图 4 所示。

(a)逐渐增大世界模型的训练数据,模型的预测误差逐渐降低且策略性能逐渐提升;

(b)逐渐增大策略模型的训练数据,抓取操作的成功率逐渐提升;

(c)逐渐增大策略模型的参数量,抓取操作的成功率逐渐提升。



图 4 : 可扩展性实验

为了验证 LaDi-WM 的跨场景泛化能力,团队在 LIBERO-LONG 上训练世界模型,并直接应用于 CALVIN D-D 的策略学习中,实验结果如表 3 所示。若是使用在 LIBERO-LONG 训练的原始策略模型,直接应用到 CALVIN D-D 是不工作的(表第一行);而使用在 LIBERO-LONG 训练的世界模型来引导 CALVIN 环境下的策略学习,则可以比在 CALVIN 环境训练的原始策略的性能高 0.61(表第三行)。这表明,世界模型的泛化能力要优于策略模型的泛化能力。



表 3: 跨场景实验结果。L 代表 LIBERO-LONG,C 代表 CALVIN D-D

团队进一步探索了利用世界模型迭代优化的工作原理。团队收集不同迭代轮次下策略模型的输出动作并绘制其分布,如图 5 所示。迭代优化的过程中,输出动作分布的熵在逐渐降低,这表明策略模型每一步的输出动作更加稳定,从而提升整体的抓取成功率。



图 5 : 迭代优化的动作分布对比

真机实验:

团队也在真实场景中验证了所提出框架的性能,具体操作任务包括「叠碗」、「开抽屉」、「关抽屉」以及「抓取物体放入篮子」等,如图 6 所示。



图 6 : (左)真实场景环境;(右)机器人实际操作样例

在真实场景中,LaDi-WM 将原始模仿学习策略的成功率显著提升 20%(表 4)。



表 4: 真实场景性能对比

图 7 展示了最终所得策略模型在不同任务上的执行轨迹,从图中可以发现,提出的策略能够在不同光照条件以及不同初始位置的情况下有鲁棒的泛化性。



图 7 : 真实场景机器人执行轨迹

总结

国防科大、北京大学、深圳大学团队提出了一种隐空间扩散的世界模型 LaDi-WM(Latent Diffusion-based World Models),利用视觉基础模型提取通用的隐空间表示,并在隐空间学习可泛化的动态建模。同时,团队提出基于世界模型的未来预测来引导策略学习,在推理阶段通过迭代式地优化策略输出,从而进一步提高策略输出动作的准确度。团队通过虚拟与真机上广泛的实验证明了 LaDi-WM 的有效性,所提出的方法显著提升了机器人抓取操作技能的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美籍华人在上海病逝,几百万遗产无继承人!或将收归国家所有,用于公益事业

美籍华人在上海病逝,几百万遗产无继承人!或将收归国家所有,用于公益事业

都市快报橙柿互动
2025-11-16 21:14:37
王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

娱乐团长
2025-11-16 15:45:42
日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

十三级台阶
2025-11-15 18:14:37
第三轮第五批中央生态环境保护督察全面启动

第三轮第五批中央生态环境保护督察全面启动

生态环境部
2025-11-15 15:05:05
高市早苗挑衅之际,中国海警赴钓鱼岛领海巡航 专家解读来了

高市早苗挑衅之际,中国海警赴钓鱼岛领海巡航 专家解读来了

环球网资讯
2025-11-16 20:10:06
网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

观威海
2025-11-16 10:06:03
韩国政府宣布:中国排日本前面

韩国政府宣布:中国排日本前面

环球时报国际
2025-11-16 15:34:27
赴日旅行警告发布之后,不少游客因无法退票选择继续旅行

赴日旅行警告发布之后,不少游客因无法退票选择继续旅行

映射生活的身影
2025-11-16 01:55:20
连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

boss外传
2025-11-16 00:00:03
大结局要来了?泽连斯基,下命令了!

大结局要来了?泽连斯基,下命令了!

大嘴说天下
2025-11-15 21:36:57
“公园”成“私园”背后:委托管护解除后,南京二桥公园仍被私人占有十年,“看管人”如何成为“占有人”

“公园”成“私园”背后:委托管护解除后,南京二桥公园仍被私人占有十年,“看管人”如何成为“占有人”

红星新闻
2025-11-16 15:13:16
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
3-2,96分钟绝杀,世界第62逆转世界第37,进附加赛,匈牙利出局

3-2,96分钟绝杀,世界第62逆转世界第37,进附加赛,匈牙利出局

侧身凌空斩
2025-11-17 00:06:27
全运会不和谐一幕:孙颖莎2-4无缘金牌 比输球可怕是现场粉丝狂热

全运会不和谐一幕:孙颖莎2-4无缘金牌 比输球可怕是现场粉丝狂热

侃球熊弟
2025-11-16 22:28:50
哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

哇,这脸蛋极致又高级,这要是在古代,妥妥的贵妃

草莓解说体育
2025-11-16 00:45:56
八路军和新四军那么厉害,为何不去打淞沪会战?

八路军和新四军那么厉害,为何不去打淞沪会战?

《中国国家历史》
2025-11-14 22:31:25
高市早苗拒不撤回,第一波制裁来了;关键时刻,中日海军隔空对阵

高市早苗拒不撤回,第一波制裁来了;关键时刻,中日海军隔空对阵

时时有聊
2025-11-16 13:56:02
害怕了?!他们连忙甩锅

害怕了?!他们连忙甩锅

环球时报国际
2025-11-16 20:22:21
毛新宇少将完爆蒋友柏!

毛新宇少将完爆蒋友柏!

沈述慢撩
2025-11-16 21:35:33
中国,为什么不能打第一枪?

中国,为什么不能打第一枪?

钧言堂
2025-11-15 21:29:43
2025-11-17 02:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

本地
手机
亲子
时尚
公开课

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

手机要闻

古尔曼:苹果iPhone正经历史上最大变革,iPhone 18/Pro分开发布

亲子要闻

一分钟教你判断孩子的咳嗽代表什么

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版