网易首页 > 网易号 > 正文 申请入驻

中山大学HCP Lab联合拓元智慧提出高效世界模型DDP-WM

0
分享至



基于预训练视觉表征构建世界模型已成为具身智能领域的前沿研究方向。以 DINO-WM 为代表的先进研究成果表明,基于视觉 Transformer (ViT) 的架构能够精确捕捉复杂的物理动态,并展现出强大的零样本规划能力。然而,这种不区分运动物体和静态背景、对所有图像块应用自注意力的密集计算范式导致了高昂的计算开销,使得决策速度成为实际部署中一个巨大的挑战。

具体来说,目前最先进的此类模型 (DINO-WM) 在处理 Push-T 等典型操作任务时,其模型预测控制 (MPC) 的单个决策循环耗时高达两分钟。显然,这种延迟对于需要与物理世界持续高频交互的现实场景应用而言是不可接受的,阻碍了机器人的大规模、低成本端侧设备部署。

近期,中山大学人机物智能融合实验室 (HCP Lab) 联合拓元智慧 X-Era AI 提出了一种新型的高效世界模型框架:DDP-WM (Disentangled Dynamics Prediction World Model)。该框架的核心思想是解耦动态预测。通过一套系统化的设计,将计算资源精确分配给场景中不同属性的动态特性,从而在推理速度大幅提升的同时,还能显著提升复杂操纵任务的规划成功率。例如,将 Push-T 任务的规划速度提升 9 倍的同时,成功率从 90% 提升至 98%。该工作为设计高效、高保真度的世界模型提供了一条新途径。



  • 论文标题:DDP-WM: Disentangled Dynamics Prediction for Efficient World Models
  • 论文链接:https://arxiv.org/abs/2602.01780
  • 代码链接:https://github.com/HCPLab-SYSU/DDP-WM

I. 动机

DDP-WM 的设计源于对现有稠密计算范式的模型在当前主流任务上工作模式的洞察。大多数场景的物理交互过程中,实际发生变化的区域面积占比很小;也就是说,绝大部分的计算都浪费在对静态背景的无效重复计算上。

为直观地揭示这种计算冗余的本质,该研究团队对密集模型的内部工作机制及其处理的动态数据进行了深入分析。 图 1(a) 使用主成分分析 (PCA) 可视化模型预测器中每一层特征的演变。例子中我们可以看到,在多层高成本计算的整个过程中,静态背景区域的那些 token 几乎没有特征上的变化,直接证明了大量的计算能力浪费在了重复无效计算上。



图 1(a): 密集模型中特征演变的 PCA 可视化,揭示了静态背景区域中大量的冗余计算。

这种现象的根本在于:大规模预训练的视觉基础模型潜在空间表征,对于稀疏的运动变化所产生差异具有固有的稀疏性。 将输入到真实世界模型的相邻两帧的特征图进行相减后可视化(图 1(b)),只有极小部分特征能看到显著变化。物理世界中稀疏的运动动态反映在特征层面上是高度稀疏且结构化的,这与前文观察到的静态背景区域 token 层间一致性是相符的。



图1(b): 相邻真实特征之间差异的 PCA 可视化,展示了物理世界动力学在特征层面的固有稀疏性。

基于这种洞察,DDP-WM 确立了其解耦动态预测 (DDP)的核心设计理念。该理念认为,观测场景的潜在状态演化可以从根本上分解为两种不同的动态:一种是稀疏的主动态,由物理交互直接引起而发生在少数前景物体上;另一种是上下文驱动的背景更新,由主动态引发而发生在更广泛的区域内。

II. 架构:动态分配系统



图 2:DDP-WM 框架概述。

如图 2 所示,预测过程首先用高效的历史信息融合模块,通过单层交叉注意力将速度、加速度等高阶动态信息注入到当前帧特征里,为之后精确预测提供必要的上下文信息。富含历史信息的 tokens 经过动态定位网络来识别下一帧中的主动态所在区域;识别出的主动态区域通过强大的稀疏主动态预测器,变换成下一帧的主动态特征;其余背景 tokens 在低秩校正模块中,在主动态 tokens 的指导下高效地修正背景上的细微变化。

2.1 动态定位:精确识别主要动态区域

动态定位网络的功能是高效、准确地识别出下一帧中发生稀疏的主动态。输入历史信息融合后的 token 序列到轻量级视觉 Transformer (ViT),输出一个稀疏的二值掩码 M,该掩码用于标记出预期会发生核心物理交互的图像块,把计算资源引向最重要的部分。

2.2 稀疏预测:将计算能力集中于核心变化

主动态是物理交互的核心,其变化通常复杂且非线性,需要强大的模型能力才能捕捉。DDP-WM 使用了一个强大的稀疏主动态预测器。该模块也使用多层 ViT 架构,但是它的所有计算资源只用于动态定位网络识别出来的稀疏前景特征子集。这样 DDP-WM 就避免了把计算能力浪费在大面积的静态背景上,从而可以让更深、更强的模型来对真正的物理过程进行建模。另外,该模块采用自适应长度调整的方式,可以适应不同的场景中动态变化的稀疏输入序列长度,使得模型能应对大幅度运动导致的大面积画面变化,在硬件效率和计算精度之间取得良好的平衡。

2.3 背景更新:低成本自洽校正

DDP-WM 对被视为近似静态的大面积背景区域采用了一种高效的更新策略:用一个专门设计的低秩校正模块 (LRM)来执行低成本的自洽校正。其核心是一个单向交叉注意力机制,允许来自前一帧的背景特征查询主预测器新生成的前景特征。通过这种方式,背景特征可以以最小的计算开销进行微调,从而反映前景物体运动引起的全局上下文变化。这种设计确保了整个潜在特征空间在演化过程中的一致性和平滑性,对下游规划任务至关重要。

III. 实验验证:效率与性能的双重优势

为了全面评估 DDP-WM 框架的有效性,研究团队在五个具有不同动态特性和任务复杂度的仿真环境中进行了广泛的实验。这些环境涵盖了从简单的导航(PointMaze、Wall)到精确的桌面操作 (Push-T),再到柔性体 (Rope) 和多体系统 (Granular) 之间复杂的交互等各种场景。评估主要集中在规划成功率 (SR)、倒角距离 (CD) 和模型预测控制 (MPC) 的计算效率等核心指标上。

3.1 性能超越现有最佳基准

实验结果表明,DDP-WM 在所有任务上的规划性能均达到或超过当前最先进的密集世界模型 DINO-WM。 如表 1 所示,DDP-WM 在 PointMaze 和 Wall 导航任务中分别取得了 100% 和 98% 的高成功率。在具有挑战性的刚体操作任务 Push-T 中,DDP-WM 的 MPC 成功率达到 98%,显著优于 DINO-WM 的 90%。这表明 DDP-WM 提供的高精度预测能够为规划器提供更好的决策支持。



表 1 :五种仿真环境下 MPC 规划性能对比

在更为复杂的绳索和颗粒任务中,难以定义二元成功状态;因此,倒角距离被用作评估操作精度的指标。DDP-WM 在这两项任务中也取得了最低的倒角距离,这展现了其强大的理解高自由度非刚体变形和复杂多体动力学的能力。规划性能的提升源于高保真的预测建模质量。动图中可以看到,稠密 DINO-WM 在多步预测后,其生成的 T 形物块出现了明显的视觉伪影,例如边缘模糊羽化、或违背物理常识的软体状扭曲变形;也就是说,对物体刚体特性不能够准确地表征。而 DDP-WM 则在整个过程中保持物块锐利边界和物理一致的旋转姿态。这证明聚焦预测核心变化区域能够显著提升预测质量。



3.2 效率实现数量级提升

实验数据从三个方面来度量 DDP-WM 的效率提升:理论计算成本 (FLOPs)、实际推理吞吐量、端到端 MPC 决策延迟。动态复杂的 Push-T 任务中,DDP-WM 的单步前向推理 FLOPs 为 2.5G,DINO-WM 的单步前向推理 FLOPs 为 23G,两者之比约为 0.108。该理论上的优势被转化成了实际推理速度的提高。在单步推理吞吐量测试中,DDP-WM 在 Push-T 任务上实现了每秒 1563 个样本的吞吐量,相比 DINO-WM 提升了9.2 倍。如此显著的速度优越性在整个 MPC 决策循环中能够更显著地体现;比如,在需要 30 次 CEM 迭代的 Push-T 任务中,DDP-WM 的单次决策时间从 DINO-WM 的两分钟显著缩短至 16 秒,这就使得更高频率的实时机器人控制成为了可能。

3.3 消融实验

为对框架中各设计元素的有效性进行验证,研究团队对 Push-T 任务进行了一系列消融实验。其核心结果是:当去除低秩校正模块 (LRM),并只进行稀疏预测,而将静态区域的特征严格保持与上一帧不变时,虽然开环预测仍然能够保持超越稠密预测的高保真建模,但是模型的 MPC 成功率从 98% 急剧下降到 70%。这说明 LRM 解决的并非简单的开环预测精度问题。



IV. 分析:闭环规划中的挑战与低秩校正

消融实验揭示了一个关键现象:虽然简单的稀疏化方案(即去掉 LRM 的版本,仅预测前景并直接复制背景)在多步开环预测中表现良好,但在闭环规划中性能急剧下降。研究团队对不同模型为规划器生成的优化景观进行了可视化分析。

4.1 优化景观



图 6:MPC 成本函数景观对比。(左图)移除 LRM 后的稀疏模型生成了一个崎岖不平、噪声较大的成本景观。 (右图)完整的 DDP-WM 模型提供了一个平滑且易于优化的漏斗状地形。

移除 LRM 之后,模型产生的代价地形崎岖不平,噪声大,峰形呈锯齿状,没有明显的全局最小值(图 6(a))。这种地形上任何基于采样的优化器都无法找到有效的下降方向,在闭环规划中就会失败。相反的是, 带有 LRM 的 DDP-WM 模型生成的代价地形非常平滑,并且有明显的漏斗状宏观结构,中间有一个深的、唯一的最小值(图 6(b))。这种地形给优化算法提供了一个清晰的引力井,从而可以稳定地收敛到最优解。

4.2 低秩结构

研究团队进一步假设,这种看似复杂的全局背景更新本质上是低秩的。为了验证这一核心假设并检验 LRM 是否成功学习到这种结构,研究团队对由真实特征图做差得到的背景更新特征图和 LRM 模块生成的背景更新特征图进行了主成分分析 (PCA)。 结果发现,真实更新特征图的累积解释方差曲线随着主成分数量的增加,呈现出急剧上升、快速饱和的趋势(图 7),有力地证明了真实特征图的更新过程本身就是低秩的。另外也可以看到,LRM 模块生成的更新特征图的 PCA 曲线和真实值曲线非常相似。



图 7:LRM 成功学习到真实的低维结构。(左图)LRM 预测的更新特征的 PCA 分析(右图)真实更新特征的PCA 分析。

V. 总结与展望

DDP-WM 的成功表明,通过基于对潜在空间的运动模式的深刻洞察进行有针对性的结构设计,完全可以在不牺牲甚至超越现有 SOTA 的前提下,显著提高世界模型预测速度。这项工作对于推动具身智能走向实际应用有重大意义。DDP-WM 把对计算资源的依赖降低了一个数量级之后,就有可能在更轻量级的边缘硬件上部署更高频、更复杂的模型来进行规划,从而为工业生产和家政服务等实际场景中部署先进的自主机器人铺平道路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“三桶油”再爆发!石油基金LOF复牌涨停,原油期货强势

“三桶油”再爆发!石油基金LOF复牌涨停,原油期货强势

中新经纬
2026-03-03 10:56:18
谢娜喊话薛之谦公开道歉,律师解读:若言论被公众“对号入座”可能需要道歉

谢娜喊话薛之谦公开道歉,律师解读:若言论被公众“对号入座”可能需要道歉

扬子晚报
2026-03-03 12:17:52
历史罕见!接发球员、面对赛点、超时被罚分、直接输掉比赛

历史罕见!接发球员、面对赛点、超时被罚分、直接输掉比赛

网球之家
2026-03-03 12:51:46
美国专家发出警告: 当中国收复台湾时,美国就只剩下一条路可走

美国专家发出警告: 当中国收复台湾时,美国就只剩下一条路可走

荐史
2025-09-22 19:25:09
纽卡联赛主场对曼联三连胜,上次取得更长连胜追溯到1931年

纽卡联赛主场对曼联三连胜,上次取得更长连胜追溯到1931年

懂球帝
2026-03-04 03:29:09
炸锅了!汪小菲亲口承认:玥儿被“强制”转学两年半!他差点气晕

炸锅了!汪小菲亲口承认:玥儿被“强制”转学两年半!他差点气晕

乐悠悠娱乐
2026-03-02 12:02:49
一手好牌打得稀烂!陈昊宇剧宣走神低头折纸,梅婷黑脸网友怒怼

一手好牌打得稀烂!陈昊宇剧宣走神低头折纸,梅婷黑脸网友怒怼

银河史记
2026-03-03 13:33:39
重罚!曝吕迪格连续膝击最高应禁赛12场,巴萨旧将:被皇马抢劫了

重罚!曝吕迪格连续膝击最高应禁赛12场,巴萨旧将:被皇马抢劫了

夏侯看英超
2026-03-04 02:12:13
光通信CPO王炸!英伟达拟向两家光学公司各投20亿美元 加码AI算力

光通信CPO王炸!英伟达拟向两家光学公司各投20亿美元 加码AI算力

林子说事
2026-03-03 01:37:19
仅次于北京城市副中心站!国内首个空铁联运高铁站来了

仅次于北京城市副中心站!国内首个空铁联运高铁站来了

交建动态
2026-03-02 19:31:13
宁可放弃中国市场,也不删镜头!《蜘蛛侠:英雄无归》没引进的真相终于来了

宁可放弃中国市场,也不删镜头!《蜘蛛侠:英雄无归》没引进的真相终于来了

小椰的奶奶
2026-03-02 10:32:14
火箭不敌热火后杜兰特与多名Ins火辣模特走进同一家餐厅

火箭不敌热火后杜兰特与多名Ins火辣模特走进同一家餐厅

林子说事
2026-03-03 18:33:08
伊朗新国防部长任职当天被杀,火线提拔速度赶不上斩首速度

伊朗新国防部长任职当天被杀,火线提拔速度赶不上斩首速度

移光幻影
2026-03-03 21:53:53
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
中以通话!王毅外长正面交底,说了别国想说但不敢说的话,不一般

中以通话!王毅外长正面交底,说了别国想说但不敢说的话,不一般

冒泡泡的鱼儿
2026-03-03 23:20:05
一天报销115辆坦克!塔利班举白旗求饶,巴铁:多亏了中国制造!

一天报销115辆坦克!塔利班举白旗求饶,巴铁:多亏了中国制造!

来科点谱
2026-03-02 10:58:53
美军最高将领说了大实话:打伊朗可以,但之后拿什么对付中国?

美军最高将领说了大实话:打伊朗可以,但之后拿什么对付中国?

荷兰豆爱健康
2026-03-02 06:52:50
中东彻底乱了!美以猛攻伊朗,英法德也下场了

中东彻底乱了!美以猛攻伊朗,英法德也下场了

咣当地球
2026-03-03 14:08:44
复仇升级!内塔尼亚胡官邸被炸,特朗普想谈判,哈梅内伊亲信回应

复仇升级!内塔尼亚胡官邸被炸,特朗普想谈判,哈梅内伊亲信回应

深析古今
2026-03-04 04:35:33
最新!河南高速公路免费政策“汇总图”来了→

最新!河南高速公路免费政策“汇总图”来了→

大象新闻
2026-03-03 17:23:28
2026-03-04 05:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12403文章数 142578关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

游戏
教育
时尚
手机
公开课

猎魂世界:当前版本最亟需增强的队伍是?这支真可算是首当其冲!

教育要闻

昊泽老师:像这样的家长,就不要管孩子了

今年流行的“新老钱风”,优雅又时髦,太适合春天了!

手机要闻

荣耀Magic V6下周见,开启折叠屏7000mAh时代

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版