NYU联合UC Berkeley提出LWM，用二维waypoints提升具身世界模型规划效率|动作|智能体|规划器

分享至

当前，世界模型（world model）正在从简单环境中的动作预测，逐渐扩展到更复杂的具身智能体控制场景中。对于类人形态的具身智能体而言，一个动作往往不是简单的前进、后退或抓取，而是由骨盆、头部、手臂、手腕等多个关节的连续变化共同构成的。这使得世界模型虽然能够预测未来观测，却很难被直接用于规划和控制，因为规划器需要在高维关节动作空间中进行高效的搜索。

本文介绍一篇来自纽约大学和 UC Berkeley 合作完成的工作，本文作者团队提出了一种名为 Lifted World Model（LWM）的世界模型，其核心思路是训练一个轻量级策略网络，将二维图像waypoints映射为低层的关节动作序列，再与参数冻结的世界模型组合起来进行规划。实验结果表明，在 Nymeria 具身数据集上的导航与交互任务中，LWM 相比直接在低层关节空间中进行搜索，本文方法可以有效的降低与目标姿态的平均关节误差，同时保持了更低的搜索成本，并能泛化到策略网络未见过的环境中。

论文题目： Lifting Embodied World Models for Planning and Control 文章链接： https://arxiv.org/abs/2604.26182

一、研究背景

世界模型的基本目标，是基于数据来理解物理世界，学习动作如何影响环境状态。给定当前观测和动作，模型预测下一步观测：

其中可以包含若干历史观测。对于导航、机械臂操作或游戏控制，这一形式已经被大量工作验证。但当智能体变成类人形态的具身智能体时，动作空间会迅速膨胀。例如 PEVA[1] 这类第一人称全身世界模型，需要使用关节角位移来控制人形具身智能体，这种智能体的检查点包含 15 个关节，单步低层的动作维度高达 48。

如上图所示，本文关注的问题不是重新训练一个更大的世界模型，而是如何让现有的低层世界模型更容易被规划器所使用，作者总结了现有方法存在的三个主要瓶颈：

（1）低层关节动作难以手动指定。对于自然语言很容易表示的行为，例如“把手伸向门把手”或“向右绕过障碍物”，往往很难直接写出每个关节在未来数步中的旋转变化。这使低层动作空间不具备直观可控性。

（2）目标图像并不适合作为第一人称的具身控制信号。NoMaD[2] 和 Diffusion Policy[3] 等方法可以使用目标图像进行条件控制，但在第一人称视频中，智能体自身的身体大部分时间并不出现在画面里。目标图像可能展示了场景，却不一定包含目标姿态。

（3）直接在低层动作空间中进行搜索成本很高。CEM[4] 这类采样式规划方法的成本通常会随着动作维度和规划长度增加而迅速变大。当规划器需要在 48 维关节动作序列中搜索时，很多采样预算都会浪费在不自然或不可执行的动作上。

二、本文方法

本文方法的核心目标，是在不修改低层世界模型参数的前提下，增加一个具备搜索能力的高层动作接口。LWM 由三个部分组成：二维waypoints动作空间、waypoints条件策略网络，以及由策略网络驱动的新世界模型。

上图展示了本文定义高层动作的方式，作者首先将高层动作表示为当前图像上的一组二维waypoints，每个waypoint对应具身智能体一个末端关节的目标位置，本文主要选取骨盆、头部、左手和右手四个关节：

由于每个waypoint是二维图像坐标，整个高层动作只有 8 维。相比 48 维的低层关节动作，这一空间更适合搜索，也更容易由人手动指定。虽然二维点不能完整定义三维目标姿态，但基于当前图像上下文和不同路标之间的相对位置，也能够为策略网络提供足够的空间线索。

2.1 从目标姿态生成二维waypoints

在训练阶段，本文方法并不需要额外的人工标注waypoints数据，而是直接从数据集中的真实未来姿态来生成监督信号。具体来说，作者先通过正向运动学从目标姿态中恢复各个关节的三维位置，再使用相机矩阵将这些三维位置投影到当前的观测图像中：

这个设计的关键在于，waypoints始终落在当前观测坐标系中。因此，高层动作不是一个脱离视觉输入的抽象向量，而是直接标注在智能体当前看到的画面上。这让它既可以作为训练信号，也可以在推理阶段由人工指定或由 CEM 搜索得到。

2.2 训练waypoints条件策略网络

有了二维waypoints后，LWM 需要一个策略网络来将高层动作转成低层的关节动作序列。给定观测上下文、姿态上下文和高层动作，策略网络就可以预测未来步的低层动作：

本文使用扩散策略来生成关节动作，模型会先把waypoint画到当前图像上，得到带标注的目标图像，再将历史图像、当前标注图像和姿态上下文一起送入视觉编码器和去噪网络中。为了保留空间信息，图像特征不会一开始就做全局池化，而是保留图像块级表示，再加入时间与空间位置编码。此外，作者还引入了waypoints遮挡训练策略，即训练时一半样本保留全部waypoints，另一半样本会以 0.5 的概率独立遮挡每个waypoint。这使策略网络不仅能根据完整目标生成动作，也能在只给出骨盆或手部等稀疏waypoint时，自动补全其他关节的动作。

2.3 将低层世界模型提升到高层动作空间中

在得到waypoints条件策略网络后，LWM 会将它与参数冻结的低层世界模型组合起来。对于一个高层动作，策略网络先生成一段低层动作序列，再由低层世界模型逐步预测未来观测，具体计算流程如下：

生成的新观测会被继续加入到世界模型上下文中，用于后续的时间步预测。下图详细地展示了 LWM 的规划流程，对于给定初始观测和目标图像，CEM 不再直接在低层关节动作空间中采样，而是在二维waypoints空间中采样高层动作。

每个候选waypoint会先通过策略网络转成低层动作，再由世界模型预测终点观测，最后根据预测终点与目标图像之间的感知距离来更新采样分布。这一步直接将搜索空间从每步 48 维低层关节动作，压缩到了 4 个二维waypoints构成的 8 维高层动作空间中。

三、实验结果

本文的实验主要在 Nymeria 数据集上进行，主要评估导航和交互任务，使用 PEVA 作为低层世界模型。Nymeria 数据集包含了由 Project Aria 眼镜和 XSens 动作捕捉服采集的第一人称日常活动视频，覆盖了 50 个室内外场景。主要的评价指标是平均关节误差（Mean Joint Error, MJE），即预测最终姿态与真实目标姿态之间的关节位置误差，数值越低越好。

3.1 二维waypoints相比目标图像更适合第一人称具身控制

作者首先评估了策略网络本身能否根据目标条件生成低层动作。对比实验结果表明，单独使用目标图像作为条件时，性能收益非常有限。基础策略的无条件 All MJE 为 0.405，加入目标图像后只降到 0.392。

详细结果如上表所示，引入新架构和姿态上下文后，模型能够生成更合理的动作序列，但对性能提升影响最明显的是二维waypoints。加入waypoints条件后，模型的 Goal-Conditioned All MJE 从无条件的 0.331 降到了 0.243。进一步加入waypoints遮挡训练后，Goal-Conditioned All MJE 继续降到 0.226。这说明waypoints并不只是一个简单的视觉token，而是能够把低层动作分布推向目标姿态的控制信号。

3.2 LWM 在具身规划中显著优于低层关节空间搜索

随后，作者在基于 CEM 的规划任务上评估了 LWM 的性能。其中每个任务包含起始观测、起始姿态和目标图像，模型需要先搜索一段动作，使最终姿态尽量接近目标姿态。

详细的实验结果如上表所示，初始时 All MJE 为 0.704，直接用 PEVA 在低层关节动作空间中做 CEM 搜索，只能将 All MJE 降到 0.616，误差降低约 8.8 厘米。相比之下，使用二维waypoints的 Lifted CEM 可以将 All MJE 降到 0.374，误差降低约 33 厘米。这意味着，在相同搜索预算下，LWM 获得的目标接近效果约为低层关节搜索的 3.8 倍。值得注意的是，基于二维waypoints的模型的性能甚至优于基于三维waypoints的模型。使用带深度的三维waypoints时，高层动作维度从 8 维增加到 12 维，All MJE 为 0.420，低于二维路标的 0.374。本文作者认为，额外深度信息虽然更加精确，但也会提高搜索问题的难度。对于 CEM 这类采样式规划方法，低维且容易搜索的动作空间比更完整但更高维的动作空间更实用。

3.3 高层动作搜索有更强的鲁棒性

作者进一步比较了不同 CEM 迭代次数和采样数量下的规划表现。结果显示，无论采样预算如何变化，Lifted CEM 都优于直接在低层关节空间中搜索的方法。低层 PEVA CEM 在一次迭代后甚至可能让 MJE 变的更差，这说明在高维关节动作空间中直接采样，很容易找到外观上接近目标但运动上不合理的动作。

如上图所示，LWM 的优势不仅来自最终结果，也来源于更快的收敛速度。由于策略网络已经学习了一定的人体运动先验，CEM 搜索出的二维waypoints会被转换成更自然的关节动作序列。

此外，作者还测试了本文方法在未见环境中的泛化能力，作者将 Nymeria 中部分视角的视频从策略训练集中移除，再用该策略提升同一个 PEVA 世界模型，并在这些保留环境上评估模型的规划表现。

实验结果如上表所示，在未见环境任务上，PEVA CEM 的 All MJE 为 0.553，而使用保留环境外训练策略的 Lifted CEM 可以达到 0.362，明显优于低层搜索，并且接近使用完整训练环境策略的性能。这说明 LWM 并不是简单的记忆具体场景，而是可以将二维waypoints转换成可执行的人体运动模式。

四、总结

本文提出的 Lifted World Model（LWM），将具身世界模型的规划接口从高维关节动作空间提升到低维的二维waypoints空间。它不重新训练低层世界模型，而是训练一个轻量级的waypoints条件策略网络，来将骨盆、头部和双手的图像waypoints转换成低层的关节动作序列，再由参数冻结的 PEVA 世界模型进行未来观测预测。实验结果表明，二维waypoints相比目标图像更适合第一人称具身控制，也可以提升 CEM 规划在相同预算下的搜索性能。

参考

[1] Bai, Y., Tran, D., Bar, A., LeCun, Y., Darrell, T., Malik, J.: Whole-body conditioned egocentric video prediction. In: The Thirty-ninth Annual Conference on Neural Information Processing Systems (2025),

[2] Sridhar, A., Shah, D., Glossop, C., Levine, S.: Nomad: Goal masked diffusion policies for navigation and exploration. In: 2024 IEEE International Conference on Robotics and Automation (ICRA).

[3] Chi, C., Xu, Z., Feng, S., Cousineau, E., Du, Y., Burchfiel, B., Tedrake, R., Song, S.: Diffusion policy: Visuomotor policy learning via action diffusion. The International Journal of Robotics Research 44(10-11), 1684–1704 (2025)

[4] Rubinstein, R.Y.: Optimization of computer simulation models with rare events. European Journal of Operational Research 99(1), 89–112 (1997).

Illustration From IconScout By IconScout Store

离开大厂投身创业，五位自主掌舵人的线上闭门交流

北京时间7月1日(周三) 晚20:00截止报名

详情点击图片跳转

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.