网易首页 > 网易号 > 正文 申请入驻

LaDi-WM模型大幅提升机器人操作策略的成功率和跨场景泛化能力

0
分享至

在机器人操作任务中,预测性策略近年来在具身人工智能领域引起了广泛关注,因为它能够利用预测状态来提升机器人的操作性能。然而,让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战,尤其是生成高质量的像素级表示。

为解决上述问题,国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based WorldModels),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态。

具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。

基于 LaDi-WM,团队设计了一种扩散策略,该策略通过整合世界模型生成的预测状态来迭代地优化输出动作,从而生成更一致、更准确的动作结果。通过在虚拟和真实数据集上的大量实验,LaDi-WM 能够显著提高机器人操作任务的成功率,尤其是在 LIBERO-LONG 数据集上提升27.9%,超过之前的所有方法。

  • 论文地址:https://arxiv.org/abs/2505.11528
  • 项目主页:https://guhuangai.github.io/LaDiWM.github.io/

论文创新点:

1.一种基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,并在隐空间学习可泛化的动态建模能力。

2.一种基于世界模型预测迭代优化的扩散策略:利用世界模型生成未来预测的状态,将预测的状态反馈给策略模型,迭代式地优化策略输出。

图 1 :(左)通过任务无关的片段学习隐扩散世界模型;(右)通过世界模型的未来状态预测来优化策略模型

技术路线

该团队提出一种利用世界模型优化策略学习的框架,以学习机器人抓取操作相关的技能策略。该框架可分为两大阶段:世界模型学习和策略学习。

A. 世界模型学习:

(a)隐空间表示:通过预训练的视觉基础模型对观测图像提取几何表征与语义表征,其中几何表征利用 DINOv2 提取,而语义表征则使用 Siglip 提取。

(b)交互扩散:同时对两种隐空间表示实施扩散过程,并在扩散过程中让二者充分交互,学习几何与语义表征之间的依赖关系,从而促进两种表示的准确动态预测。

图 2 : 基于交互扩散的世界模型架构

B. 策略模型训练与迭代优化推理

(a)结合世界模型的未来预测引导策略学习:将世界模型给出的未来预测作为额外的输入,引导策略模型的准确动作预测;模型架构基于扩散策略模型,有利于学习多模态动作分布。

(b)迭代优化策略输出:策略模型可以在一个时间步多次利用世界模型的未来预测作为引导,从而不断优化自身的动作输出。实验显示,该方案可以逐渐降低策略模型的输出分布熵,达到更准确的动作预测。

图 3 : 基于未来预测引导的策略模型架构

实验结果

虚拟实验:

在公开的虚拟数据集(LIBERO-LONG,CALVIN D-D)中,团队验证了所提出框架在机器人抓取相关的操作任务上的性能。在实验中,世界模型的训练数据会与策略模型的训练数据区分开,从而验证世界模型的泛化能力。对于 LIBERO-LONG,给定语言指令,多次执行并统计机器人完成各项任务的成功率。对于 CALVIN D-D,连续给定五个语言指令,多次执行并统计平均完成任务的数量。

在 LIBERO-LONG 数据集,为了验证世界模型对策略模型的引导作用,团队仅使用 10 条轨迹去训练各任务,对比结果如表 1 所示。相比于其他方法,LaDi-WM 能够提供精确的未来预测,并将预测反馈给策略模型,不断优化动作输出,仅需少量训练数据即可达到 68.7% 的成功率,显著优于其他方法。

表 1: LIBERO-LONG 性能对比

在 CALVIN D-D 数据集上,LaDi-WM 同样展示了在长时任务中的强大性能(表 2)。

表 2: CALVIN D-D 性能对比

团队进一步验证了所提出框架的可扩展性,如图 4 所示。

(a)逐渐增大世界模型的训练数据,模型的预测误差逐渐降低且策略性能逐渐提升;

(b)逐渐增大策略模型的训练数据,抓取操作的成功率逐渐提升;

(c)逐渐增大策略模型的参数量,抓取操作的成功率逐渐提升。

图 4 : 可扩展性实验

为了验证 LaDi-WM 的跨场景泛化能力,团队在 LIBERO-LONG 上训练世界模型,并直接应用于 CALVIN D-D 的策略学习中,实验结果如表 3 所示。若是使用在 LIBERO-LONG 训练的原始策略模型,直接应用到 CALVIN D-D 是不工作的(表第一行);而使用在 LIBERO-LONG 训练的世界模型来引导 CALVIN 环境下的策略学习,则可以比在 CALVIN 环境训练的原始策略的性能高 0.61(表第三行)。这表明,世界模型的泛化能力要优于策略模型的泛化能力。

表 3: 跨场景实验结果。L 代表 LIBERO-LONG,C 代表 CALVIN D-D

团队进一步探索了利用世界模型迭代优化的工作原理。团队收集不同迭代轮次下策略模型的输出动作并绘制其分布,如图 5 所示。迭代优化的过程中,输出动作分布的熵在逐渐降低,这表明策略模型每一步的输出动作更加稳定,从而提升整体的抓取成功率。

图 5 : 迭代优化的动作分布对比

真机实验:

团队也在真实场景中验证了所提出框架的性能,具体操作任务包括「叠碗」、「开抽屉」、「关抽屉」以及「抓取物体放入篮子」等,如图 6 所示。

图 6 : (左)真实场景环境;(右)机器人实际操作样例

在真实场景中,LaDi-WM 将原始模仿学习策略的成功率显著提升 20%(表 4)。

表 4: 真实场景性能对比

图 7 展示了最终所得策略模型在不同任务上的执行轨迹,从图中可以发现,提出的策略能够在不同光照条件以及不同初始位置的情况下有鲁棒的泛化性。

图 7 : 真实场景机器人执行轨迹

总结

国防科大、北京大学、深圳大学团队提出了一种隐空间扩散的世界模型 LaDi-WM(Latent Diffusion-based World Models),利用视觉基础模型提取通用的隐空间表示,并在隐空间学习可泛化的动态建模。同时,团队提出基于世界模型的未来预测来引导策略学习,在推理阶段通过迭代式地优化策略输出,从而进一步提高策略输出动作的准确度。团队通过虚拟与真机上广泛的实验证明了 LaDi-WM 的有效性,所提出的方法显著提升了机器人抓取操作技能的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“斩首”哈梅内伊细节曝光,美媒竟一语惊人:伊朗对中国并不重要

“斩首”哈梅内伊细节曝光,美媒竟一语惊人:伊朗对中国并不重要

东极妙严
2026-03-01 15:58:26
真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

另子维爱读史
2026-03-01 21:23:21
哈梅内伊不幸遇难!

哈梅内伊不幸遇难!

难得君
2026-03-01 13:19:33
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

古史青云啊
2026-02-20 16:23:31
伊朗外长:美以打完后,愿重启谈判

伊朗外长:美以打完后,愿重启谈判

观察者网
2026-03-01 08:39:35
确认参赛!941万美金战场,郑钦文携新帅出征,首战即考验?

确认参赛!941万美金战场,郑钦文携新帅出征,首战即考验?

卿子书
2026-03-01 09:25:20
中国95%的房子,其实已经没有任何投资价值

中国95%的房子,其实已经没有任何投资价值

流苏晚晴
2026-03-01 16:56:00
这老师真是绝代美人啊!

这老师真是绝代美人啊!

东方不败然多多
2026-03-01 01:09:31
中央定调,2030年开始最低缴费年限上调,缴够15年还能退休吗?

中央定调,2030年开始最低缴费年限上调,缴够15年还能退休吗?

另子维爱读史
2026-03-01 21:24:30
真正生理性的喜欢,根本藏不住!不是接吻和拥抱,而是……

真正生理性的喜欢,根本藏不住!不是接吻和拥抱,而是……

青苹果sht
2026-02-22 06:58:00
小泉振臂高呼:美国不用中国零件,日本以后也不用!日媒讽刺

小泉振臂高呼:美国不用中国零件,日本以后也不用!日媒讽刺

探史
2026-03-02 01:27:41
中东多地遭伊朗报复性打击,迪拜帆船酒店遭袭起火

中东多地遭伊朗报复性打击,迪拜帆船酒店遭袭起火

观察者网
2026-03-01 12:13:04
美军公布伤亡情况!伊朗向美航母发射4枚导弹,美军:导弹甚至没有接近航母,已击沉一艘伊朗船只;朝鲜强烈谴责美以“流氓行径”

美军公布伤亡情况!伊朗向美航母发射4枚导弹,美军:导弹甚至没有接近航母,已击沉一艘伊朗船只;朝鲜强烈谴责美以“流氓行径”

每日经济新闻
2026-03-02 00:23:54
孙颖莎如果拿下2026新加坡大满贯冠军,

孙颖莎如果拿下2026新加坡大满贯冠军,

小光侃娱乐
2026-03-01 14:05:03
不装了?FIBA官方半场急着给中国台北开香槟 赛后疑阴阳中国男篮

不装了?FIBA官方半场急着给中国台北开香槟 赛后疑阴阳中国男篮

念洲
2026-03-01 21:28:03
随着阿森纳2-1,曼联2-1,热刺1-2,布莱顿2-1,英超最新积分榜出炉

随着阿森纳2-1,曼联2-1,热刺1-2,布莱顿2-1,英超最新积分榜出炉

侧身凌空斩
2026-03-02 03:05:41
回家了!张云鹏已抵达老家吉林!认完亲还将回加拿大高洋回应原因

回家了!张云鹏已抵达老家吉林!认完亲还将回加拿大高洋回应原因

离离言几许
2026-03-01 23:21:02
年前100多元一斤,年后价格腰斩!有湖北人已迫不及待下单

年前100多元一斤,年后价格腰斩!有湖北人已迫不及待下单

环球网资讯
2026-02-27 09:52:19
3000万打工人逃离北上广,却不知道县城已被161个家族瓜分

3000万打工人逃离北上广,却不知道县城已被161个家族瓜分

流苏晚晴
2026-02-27 18:06:43
震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

火山詩话
2026-02-27 12:08:36
2026-03-02 05:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

家居
艺术
旅游
教育
公开课

家居要闻

素色肌理 品意式格调

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

旅游要闻

青州春雨刷屏,千年古城烟雨朦胧,藏着最动人的东方浪漫!

教育要闻

初中阶段的分化,从习惯悄悄开始

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版