ICML 2026 Spotlight | 从“会生成视频”到“能评估策略”：dWorldEval的机器人原生世界模型|轨迹|动作|真实场景|dworldeval

ICML 2026 Spotlight | 从“会生成视频”到“能评估策略”：dWorldEval的机器人原生世界模型

2026-05-13 08:25:28　来源: 将门创投

北京举报

分享至

针对机器人 VLA 策略真机评测成本高、效率低、难以复现，且现有基于通用视频生成架构的世界模型易美化失败样本、导致评测结果失真的问题，本文提出机器人原生世界模型 dWorldEval，面向机器人策略评测进行专属设计与训练。该模型摒弃通用视频生成预训练权重，基于机器人轨迹数据从头训练，将图像、语言、动作及任务进度统一映射至离散Token空间，通过 Transformer 与去噪机制建模动作驱动的世界变化，引入稀疏关键帧保障长程推演一致性，同步生成视觉观测与任务进度评分。在 LIBERO、RoboTwin 及真实 6-DoF 双臂机器人平台的实验表明，dWorldEval 能忠实还原失败行为，长程时空误差低，模型推演成功率与真机实测相关系数最高达 0.927，突破通用模型适配缺陷，可高效支撑策略大规模评测，大幅降低真机测试依赖。

论文题目： dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model 论文链接： https://arxiv.org/pdf/2604.22152 项目主页： https://dworldeval.github.io/

一、引入｜真正的评测器，要敢于呈现失败

随着 VLA 策略变得越来越大，评测也被规模化需求推到瓶颈前。真实机器人测试要占用机械臂、场景布置和人工复位，慢、贵、难复现。更麻烦的是，很多真正有价值的样本正是失败边界：遮挡、接触异常、物体位置偏移、动作差一点就成功。世界模型因此成为一条自然路径：先让策略在模型里 rollout，再用生成结果估计成功率。Current Robotics 团队此前的 WorldEval 已经证明这条路可行。dWorldEval 继续追问，什么样的世界模型才有资格当评测器？

把一个机器人策略放进世界模型里测试，我们真正想看的不是一段更顺滑的机器人视频。抓空了，就应该显示抓空。推偏了，物体就应该继续偏下去。任务没有完成，模型也不该替策略补一个漂亮结局。

这就是 dWorldEval 的切入点。答案不是把视频生成器再做大一点，也不是拿视频生成模型的预训练权重继续改造。许多现有方法仍然沿用视频生成模型的骨架，动作只是附加到视觉生成过程中。这样的模型很容易被视频先验带着走：画面要连贯，轨迹要顺滑，结果要看起来合理。可是机器人评测真正需要看的，恰恰是抓空、推偏、接触异常这些“不那么好看”的结果。若模型把失败修成成功，评测就会被系统性抬高。

这里说的“机器人原生”，首先指训练起点：dWorldEval 不使用视频生成模型的预训练权重，而是直接使用机器人数据从头训练一个面向机器人执行和评测的 world model。它从一开始学习的就是机器人轨迹中的动作、接触、失败后果和任务进度。在此基础上，动作、视觉、语言和进度被放入统一的离散 token 空间，由同一个去噪过程生成未来观测和进度分数。这样，模型学习的不是一般视频的“下一帧应该长什么样”，而是“某个动作执行之后，世界会怎样变化”。

二、方法｜把动作放回世界变化的因果链里

第一，动作不再只是附加条件。dWorldEval 用 MAGVIT-v2 离散化多视角 RGB 观测，用 LLaDA Tokenizer表示语言指令，用 FAST 把连续动作片段转换成离散动作码。这里的关键不只是给模型设计一个动作接口，而是让动作在从头训练的机器人世界模型中成为一等 token。随后，图像、语言和动作 token 被拼成同一条序列，交给同一个 Transformer 建模。这样，视觉 token 可以在自注意力中直接看到动作 token，未来画面不再只由视觉先验“顺着画”，而是由机器人动作共同驱动。

第二，用稀疏关键帧稳住长程 rollout。机器人操作不是几帧就结束。桌面布局、物体位置、双臂姿态都需要在长时间内保持一致。dWorldEval 保留低分辨率历史关键帧，并用绝对帧编号记录时间顺序。与此同时，它保留当前多视角观测的高分辨率细节。这样既控制了 token 开销，也给模型提供了一个稳定的“世界底稿”，减少长程生成中的漂移、变形和物体消失。

第三，把任务进度也作为文本生成出来。过去常见流程是先生成视频，再调用 VLM 或人工判断是否成功。dWorldEval 把任务完成度离散成文本 token，与未来图像一起预测。推理时，模型同时给出下一步观测和进度分数。最终进度为 1 时，系统即可把该 rollout 计为成功。换句话说，它不仅生成“会发生什么”，也直接给出“做到哪一步”。

三、实验｜关键不是画得像，而是失败时也画得对

实验覆盖 LIBERO、RoboTwin 和真实双臂 AgileX 平台。真实平台由两只 6-DoF 机械臂和三台同步 RealSense 相机组成，共采集 5.2k 条轨迹，其中包含 1k 条人工收集的失败轨迹。任务包括清理桌面、放置杯子、传递方块、击打方块和放置瓶子等。

动作可控性：失败不会被模型“修好”。论文提出动态感知的 ΔLPIPS，用来衡量动作带来的状态变化是否被忠实还原。在失败子集上，WorldEval、WorldGym、Ctrl-World 的 ΔLPIPS 分别为 0.701、0.650、0.416，dWorldEval 降至 0.352。也就是说，当策略动作错过抓取、推偏物体或进入失败轨迹时，dWorldEval 更倾向于生成失败本身，而不是补出一个圆满结局。

时空一致性：长程生成不再越滚越偏。论文使用 round-trip 测试：让动作先前进，再用反向动作回到初始状态，观察最终画面是否还能回到原处。当时间跨度 H=20 时，WorldEval、WorldGym 和 Ctrl-World 的误差分别为 0.531、0.482 和 0.370，dWorldEval 为 0.243。对评测器来说，这不是单纯的画质指标。若物体在 rollout 里凭空变形、漂移或消失，策略排名就会被生成错误污染。

策略排名：模型内成功率与真实执行高度一致。在 LIBERO 单视角设置中，dWorldEval 达到 r=0.860、MMRV=0.013。在 LIBERO 多视角、RoboTwin 和真实机器人任务上，相关系数分别达到 0.910、0.927 和 0.918。去掉历史记忆后，LIBERO 多视角相关性降至 0.786，真实机器人任务降至 0.829，说明长程一致性会直接影响策略评测的可信度。

这些结果指向同一个结论：可靠的机器人世界模型，不能只追求“看起来像”。它必须对动作敏感，才能把失败保留下来。它必须在长程 rollout 中稳定，才能避免把生成误差算到策略头上。它还必须能自动输出可比较的成功率，才能支撑大规模策略筛选。dWorldEval 的价值，正在于把这三件事放进同一个离散扩散架构里统一处理。

四、结语｜机器人原生，从机器人数据出发

WorldEval 已经证明，世界模型可以成为真实机器人评测之外的一条替代路径。dWorldEval 进一步把问题推进到训练范式层面：当评测对象扩展到更多策略版本、任务组合、初始状态和失败边界时，评测器不能从通用视频生成模型的预训练权重出发，再把机器人动作后接上去。它需要直接在机器人数据上从头训练，首先学习动作、接触、失败后果和任务进度之间的关系。只有这样的世界模型，才更适合成为能够反映失败后果的机器人评测器。未来，这类模型有机会承担前期的大批量策略筛选、版本回归测试、失败诊断和高风险场景预评估，把真机测试留给更少、更关键、更值得投入的环节。

Illustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.