针对机器人 VLA 策略真机评测成本高、效率低、难以复现,且现有基于通用视频生成架构的世界模型易美化失败样本、导致评测结果失真的问题,本文提出机器人原生世界模型 dWorldEval,面向机器人策略评测进行专属设计与训练。该模型摒弃通用视频生成预训练权重,基于机器人轨迹数据从头训练,将图像、语言、动作及任务进度统一映射至离散Token空间,通过 Transformer 与去噪机制建模动作驱动的世界变化,引入稀疏关键帧保障长程推演一致性,同步生成视觉观测与任务进度评分。在 LIBERO、RoboTwin 及真实 6-DoF 双臂机器人平台的实验表明,dWorldEval 能忠实还原失败行为,长程时空误差低,模型推演成功率与真机实测相关系数最高达 0.927,突破通用模型适配缺陷,可高效支撑策略大规模评测,大幅降低真机测试依赖。
![]()
论文题目: dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model 论文链接: https://arxiv.org/pdf/2604.22152 项目主页: https://dworldeval.github.io/一、引入|真正的评测器,要敢于呈现失败
随着 VLA 策略变得越来越大,评测也被规模化需求推到瓶颈前。真实机器人测试要占用机械臂、场景布置和人工复位,慢、贵、难复现。更麻烦的是,很多真正有价值的样本正是失败边界:遮挡、接触异常、物体位置偏移、动作差一点就成功。世界模型因此成为一条自然路径:先让策略在模型里 rollout,再用生成结果估计成功率。Current Robotics 团队此前的 WorldEval 已经证明这条路可行。dWorldEval 继续追问,什么样的世界模型才有资格当评测器?
把一个机器人策略放进世界模型里测试,我们真正想看的不是一段更顺滑的机器人视频。抓空了,就应该显示抓空。推偏了,物体就应该继续偏下去。任务没有完成,模型也不该替策略补一个漂亮结局。
这就是 dWorldEval 的切入点。答案不是把视频生成器再做大一点,也不是拿视频生成模型的预训练权重继续改造。许多现有方法仍然沿用视频生成模型的骨架,动作只是附加到视觉生成过程中。这样的模型很容易被视频先验带着走:画面要连贯,轨迹要顺滑,结果要看起来合理。可是机器人评测真正需要看的,恰恰是抓空、推偏、接触异常这些“不那么好看”的结果。若模型把失败修成成功,评测就会被系统性抬高。
这里说的“机器人原生”,首先指训练起点:dWorldEval 不使用视频生成模型的预训练权重,而是直接使用机器人数据从头训练一个面向机器人执行和评测的 world model。它从一开始学习的就是机器人轨迹中的动作、接触、失败后果和任务进度。在此基础上,动作、视觉、语言和进度被放入统一的离散 token 空间,由同一个去噪过程生成未来观测和进度分数。这样,模型学习的不是一般视频的“下一帧应该长什么样”,而是“某个动作执行之后,世界会怎样变化”。
![]()
二、方法|把动作放回世界变化的因果链里
第一,动作不再只是附加条件。dWorldEval 用 MAGVIT-v2 离散化多视角 RGB 观测,用 LLaDA Tokenizer表示语言指令,用 FAST 把连续动作片段转换成离散动作码。这里的关键不只是给模型设计一个动作接口,而是让动作在从头训练的机器人世界模型中成为一等 token。随后,图像、语言和动作 token 被拼成同一条序列,交给同一个 Transformer 建模。这样,视觉 token 可以在自注意力中直接看到动作 token,未来画面不再只由视觉先验“顺着画”,而是由机器人动作共同驱动。
第二,用稀疏关键帧稳住长程 rollout。机器人操作不是几帧就结束。桌面布局、物体位置、双臂姿态都需要在长时间内保持一致。dWorldEval 保留低分辨率历史关键帧,并用绝对帧编号记录时间顺序。与此同时,它保留当前多视角观测的高分辨率细节。这样既控制了 token 开销,也给模型提供了一个稳定的“世界底稿”,减少长程生成中的漂移、变形和物体消失。
第三,把任务进度也作为文本生成出来。过去常见流程是先生成视频,再调用 VLM 或人工判断是否成功。dWorldEval 把任务完成度离散成文本 token,与未来图像一起预测。推理时,模型同时给出下一步观测和进度分数。最终进度为 1 时,系统即可把该 rollout 计为成功。换句话说,它不仅生成“会发生什么”,也直接给出“做到哪一步”。
![]()
三、实验|关键不是画得像,而是失败时也画得对
实验覆盖 LIBERO、RoboTwin 和真实双臂 AgileX 平台。真实平台由两只 6-DoF 机械臂和三台同步 RealSense 相机组成,共采集 5.2k 条轨迹,其中包含 1k 条人工收集的失败轨迹。任务包括清理桌面、放置杯子、传递方块、击打方块和放置瓶子等。
动作可控性:失败不会被模型“修好”。论文提出动态感知的 ΔLPIPS,用来衡量动作带来的状态变化是否被忠实还原。在失败子集上,WorldEval、WorldGym、Ctrl-World 的 ΔLPIPS 分别为 0.701、0.650、0.416,dWorldEval 降至 0.352。也就是说,当策略动作错过抓取、推偏物体或进入失败轨迹时,dWorldEval 更倾向于生成失败本身,而不是补出一个圆满结局。
时空一致性:长程生成不再越滚越偏。论文使用 round-trip 测试:让动作先前进,再用反向动作回到初始状态,观察最终画面是否还能回到原处。当时间跨度 H=20 时,WorldEval、WorldGym 和 Ctrl-World 的误差分别为 0.531、0.482 和 0.370,dWorldEval 为 0.243。对评测器来说,这不是单纯的画质指标。若物体在 rollout 里凭空变形、漂移或消失,策略排名就会被生成错误污染。
策略排名:模型内成功率与真实执行高度一致。在 LIBERO 单视角设置中,dWorldEval 达到 r=0.860、MMRV=0.013。在 LIBERO 多视角、RoboTwin 和真实机器人任务上,相关系数分别达到 0.910、0.927 和 0.918。去掉历史记忆后,LIBERO 多视角相关性降至 0.786,真实机器人任务降至 0.829,说明长程一致性会直接影响策略评测的可信度。
这些结果指向同一个结论:可靠的机器人世界模型,不能只追求“看起来像”。它必须对动作敏感,才能把失败保留下来。它必须在长程 rollout 中稳定,才能避免把生成误差算到策略头上。它还必须能自动输出可比较的成功率,才能支撑大规模策略筛选。dWorldEval 的价值,正在于把这三件事放进同一个离散扩散架构里统一处理。
![]()
![]()
四、结语|机器人原生,从机器人数据出发
WorldEval 已经证明,世界模型可以成为真实机器人评测之外的一条替代路径。dWorldEval 进一步把问题推进到训练范式层面:当评测对象扩展到更多策略版本、任务组合、初始状态和失败边界时,评测器不能从通用视频生成模型的预训练权重出发,再把机器人动作后接上去。它需要直接在机器人数据上从头训练,首先学习动作、接触、失败后果和任务进度之间的关系。只有这样的世界模型,才更适合成为能够反映失败后果的机器人评测器。未来,这类模型有机会承担前期的大批量策略筛选、版本回归测试、失败诊断和高风险场景预评估,把真机测试留给更少、更关键、更值得投入的环节。
Illustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.