网易首页 > 网易号 > 正文 申请入驻

ICML 2026 Spotlight | 从“会生成视频”到“能评估策略”:dWorldEval的机器人原生世界模型

0
分享至

针对机器人 VLA 策略真机评测成本高、效率低、难以复现,且现有基于通用视频生成架构的世界模型易美化失败样本、导致评测结果失真的问题,本文提出机器人原生世界模型 dWorldEval,面向机器人策略评测进行专属设计与训练。该模型摒弃通用视频生成预训练权重,基于机器人轨迹数据从头训练,将图像、语言、动作及任务进度统一映射至离散Token空间,通过 Transformer 与去噪机制建模动作驱动的世界变化,引入稀疏关键帧保障长程推演一致性,同步生成视觉观测与任务进度评分。在 LIBERO、RoboTwin 及真实 6-DoF 双臂机器人平台的实验表明,dWorldEval 能忠实还原失败行为,长程时空误差低,模型推演成功率与真机实测相关系数最高达 0.927,突破通用模型适配缺陷,可高效支撑策略大规模评测,大幅降低真机测试依赖。


论文题目: dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model 论文链接: https://arxiv.org/pdf/2604.22152 项目主页: https://dworldeval.github.io/
一、引入|真正的评测器,要敢于呈现失败

随着 VLA 策略变得越来越大,评测也被规模化需求推到瓶颈前。真实机器人测试要占用机械臂、场景布置和人工复位,慢、贵、难复现。更麻烦的是,很多真正有价值的样本正是失败边界:遮挡、接触异常、物体位置偏移、动作差一点就成功。世界模型因此成为一条自然路径:先让策略在模型里 rollout,再用生成结果估计成功率。Current Robotics 团队此前的 WorldEval 已经证明这条路可行。dWorldEval 继续追问,什么样的世界模型才有资格当评测器?

把一个机器人策略放进世界模型里测试,我们真正想看的不是一段更顺滑的机器人视频。抓空了,就应该显示抓空。推偏了,物体就应该继续偏下去。任务没有完成,模型也不该替策略补一个漂亮结局。

这就是 dWorldEval 的切入点。答案不是把视频生成器再做大一点,也不是拿视频生成模型的预训练权重继续改造。许多现有方法仍然沿用视频生成模型的骨架,动作只是附加到视觉生成过程中。这样的模型很容易被视频先验带着走:画面要连贯,轨迹要顺滑,结果要看起来合理。可是机器人评测真正需要看的,恰恰是抓空、推偏、接触异常这些“不那么好看”的结果。若模型把失败修成成功,评测就会被系统性抬高。

这里说的“机器人原生”,首先指训练起点:dWorldEval 不使用视频生成模型的预训练权重,而是直接使用机器人数据从头训练一个面向机器人执行和评测的 world model。它从一开始学习的就是机器人轨迹中的动作、接触、失败后果和任务进度。在此基础上,动作、视觉、语言和进度被放入统一的离散 token 空间,由同一个去噪过程生成未来观测和进度分数。这样,模型学习的不是一般视频的“下一帧应该长什么样”,而是“某个动作执行之后,世界会怎样变化”。


二、方法|把动作放回世界变化的因果链里

第一,动作不再只是附加条件。dWorldEval 用 MAGVIT-v2 离散化多视角 RGB 观测,用 LLaDA Tokenizer表示语言指令,用 FAST 把连续动作片段转换成离散动作码。这里的关键不只是给模型设计一个动作接口,而是让动作在从头训练的机器人世界模型中成为一等 token。随后,图像、语言和动作 token 被拼成同一条序列,交给同一个 Transformer 建模。这样,视觉 token 可以在自注意力中直接看到动作 token,未来画面不再只由视觉先验“顺着画”,而是由机器人动作共同驱动。

第二,用稀疏关键帧稳住长程 rollout。机器人操作不是几帧就结束。桌面布局、物体位置、双臂姿态都需要在长时间内保持一致。dWorldEval 保留低分辨率历史关键帧,并用绝对帧编号记录时间顺序。与此同时,它保留当前多视角观测的高分辨率细节。这样既控制了 token 开销,也给模型提供了一个稳定的“世界底稿”,减少长程生成中的漂移、变形和物体消失。

第三,把任务进度也作为文本生成出来。过去常见流程是先生成视频,再调用 VLM 或人工判断是否成功。dWorldEval 把任务完成度离散成文本 token,与未来图像一起预测。推理时,模型同时给出下一步观测和进度分数。最终进度为 1 时,系统即可把该 rollout 计为成功。换句话说,它不仅生成“会发生什么”,也直接给出“做到哪一步”。


三、实验|关键不是画得像,而是失败时也画得对

实验覆盖 LIBERO、RoboTwin 和真实双臂 AgileX 平台。真实平台由两只 6-DoF 机械臂和三台同步 RealSense 相机组成,共采集 5.2k 条轨迹,其中包含 1k 条人工收集的失败轨迹。任务包括清理桌面、放置杯子、传递方块、击打方块和放置瓶子等。

动作可控性:失败不会被模型“修好”。论文提出动态感知的 ΔLPIPS,用来衡量动作带来的状态变化是否被忠实还原。在失败子集上,WorldEval、WorldGym、Ctrl-World 的 ΔLPIPS 分别为 0.701、0.650、0.416,dWorldEval 降至 0.352。也就是说,当策略动作错过抓取、推偏物体或进入失败轨迹时,dWorldEval 更倾向于生成失败本身,而不是补出一个圆满结局。

时空一致性:长程生成不再越滚越偏。论文使用 round-trip 测试:让动作先前进,再用反向动作回到初始状态,观察最终画面是否还能回到原处。当时间跨度 H=20 时,WorldEval、WorldGym 和 Ctrl-World 的误差分别为 0.531、0.482 和 0.370,dWorldEval 为 0.243。对评测器来说,这不是单纯的画质指标。若物体在 rollout 里凭空变形、漂移或消失,策略排名就会被生成错误污染。

策略排名:模型内成功率与真实执行高度一致。在 LIBERO 单视角设置中,dWorldEval 达到 r=0.860、MMRV=0.013。在 LIBERO 多视角、RoboTwin 和真实机器人任务上,相关系数分别达到 0.910、0.927 和 0.918。去掉历史记忆后,LIBERO 多视角相关性降至 0.786,真实机器人任务降至 0.829,说明长程一致性会直接影响策略评测的可信度。

这些结果指向同一个结论:可靠的机器人世界模型,不能只追求“看起来像”。它必须对动作敏感,才能把失败保留下来。它必须在长程 rollout 中稳定,才能避免把生成误差算到策略头上。它还必须能自动输出可比较的成功率,才能支撑大规模策略筛选。dWorldEval 的价值,正在于把这三件事放进同一个离散扩散架构里统一处理。



四、结语|机器人原生,从机器人数据出发

WorldEval 已经证明,世界模型可以成为真实机器人评测之外的一条替代路径。dWorldEval 进一步把问题推进到训练范式层面:当评测对象扩展到更多策略版本、任务组合、初始状态和失败边界时,评测器不能从通用视频生成模型的预训练权重出发,再把机器人动作后接上去。它需要直接在机器人数据上从头训练,首先学习动作、接触、失败后果和任务进度之间的关系。只有这样的世界模型,才更适合成为能够反映失败后果的机器人评测器。未来,这类模型有机会承担前期的大批量策略筛选、版本回归测试、失败诊断和高风险场景预评估,把真机测试留给更少、更关键、更值得投入的环节。

Illustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
51岁尹子维携妻街头被偶遇,小15岁徐冬冬身形臃肿孕味十足

51岁尹子维携妻街头被偶遇,小15岁徐冬冬身形臃肿孕味十足

枫尘余往逝
2026-05-14 14:16:37
特朗普小儿媳跟着一起访华!穿白裙抵达气质太优雅,伊万卡没来

特朗普小儿媳跟着一起访华!穿白裙抵达气质太优雅,伊万卡没来

天光破云来
2026-05-14 10:55:36
德国巨头懵了,垄断全球几十年的“菜刀之王”,被广东小城掀翻

德国巨头懵了,垄断全球几十年的“菜刀之王”,被广东小城掀翻

毒sir财经
2026-05-13 21:33:38
不少女网约车司机宣布退出女性友好计划,直言不想接女乘客

不少女网约车司机宣布退出女性友好计划,直言不想接女乘客

映射生活的身影
2026-05-12 20:56:00
广东一男子伪造学历同时入职5家企业领高薪,还虚构购销合同混业绩,被判刑

广东一男子伪造学历同时入职5家企业领高薪,还虚构购销合同混业绩,被判刑

极目新闻
2026-05-14 09:58:58
近5万桌需退款!网红烤串店突然道歉并退钱,已有杭州人收到

近5万桌需退款!网红烤串店突然道歉并退钱,已有杭州人收到

上观新闻
2026-05-13 19:31:07
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
拼命演戏还清一亿四千万巨债,豪门梦碎,现回浙江农村过踏实日子

拼命演戏还清一亿四千万巨债,豪门梦碎,现回浙江农村过踏实日子

萧狡科普解说
2026-05-14 04:44:16
喜马拉雅某员工:躲过了两次裁员,终于成为腾讯员工了

喜马拉雅某员工:躲过了两次裁员,终于成为腾讯员工了

蚂蚁大喇叭
2026-05-14 11:11:38
特朗普:会谈举世瞩目,两国之间会有更美好的未来;十余名美商界代表进入会谈现场

特朗普:会谈举世瞩目,两国之间会有更美好的未来;十余名美商界代表进入会谈现场

界面新闻
2026-05-14 12:36:03
两性关系:男人一定要记住,女人不管多大年纪,永远都吃这一套

两性关系:男人一定要记住,女人不管多大年纪,永远都吃这一套

娱乐洞察点点
2026-05-14 12:20:33
病人问“验血为何抽满管”,网友质疑血液被倒卖,评论区一片恐慌

病人问“验血为何抽满管”,网友质疑血液被倒卖,评论区一片恐慌

谭谈社会
2026-05-13 03:24:58
菲律宾政坛大变天!莎拉弹劾案翻盘,菲军清场,马科斯懵了

菲律宾政坛大变天!莎拉弹劾案翻盘,菲军清场,马科斯懵了

娱乐圈的笔娱君
2026-05-13 15:20:34
看是御姐,脸还能打,肉却 “软趴趴” 了

看是御姐,脸还能打,肉却 “软趴趴” 了

飛娱日记
2026-03-13 11:31:29
最新研究表明,维生素B12可能是健康老龄化的关键,真相来了!

最新研究表明,维生素B12可能是健康老龄化的关键,真相来了!

岐黄传人孙大夫
2026-05-12 20:10:03
“性质恶劣!”新西兰父子在海洋保护区“狂捞”486只鲍鱼,企图贩卖!“被判四个月居家监禁! ”

“性质恶劣!”新西兰父子在海洋保护区“狂捞”486只鲍鱼,企图贩卖!“被判四个月居家监禁! ”

新西兰天维网
2026-05-13 13:05:51
重庆奔驰撞人后续!身份曝光是当地名人,33岁死者漂亮,有仨小孩

重庆奔驰撞人后续!身份曝光是当地名人,33岁死者漂亮,有仨小孩

北纬的咖啡豆
2026-05-14 09:39:21
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
闪电夺权!马科斯刚把刀架到莎拉脖子上,下一秒自己却被斩首了!

闪电夺权!马科斯刚把刀架到莎拉脖子上,下一秒自己却被斩首了!

菁菁子衿
2026-05-13 21:48:49
俄军前线失控,指挥瘫痪、军头林立,1917年式危机阴影重现。

俄军前线失控,指挥瘫痪、军头林立,1917年式危机阴影重现。

高博新视野
2026-05-13 07:30:17
2026-05-14 15:11:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2375文章数 596关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

媒体:中美元首会晤 世界吃下一颗“定心丸”

头条要闻

媒体:中美元首会晤 世界吃下一颗“定心丸”

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

旅游
教育
亲子
手机
公开课

旅游要闻

摩旅自驾必穿,它就是中国东海岸一号公路‌,随处可见震撼的山海

教育要闻

牛剑双收、拒绝“标准模版”的成都孩子长什么样?来这所学校看看

亲子要闻

爸爸在家给宝宝理发,套上袋子的瞬间,我差点问候他祖宗!

手机要闻

卢伟冰揭秘全新Xiaomi 17 Max样片彩蛋:三张样片“一脉同源”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版