网易首页 > 网易号 > 正文 申请入驻

英伟达世界模型再进化,一个模型驱动所有机器人!

0
分享至



编辑|冷猫

驱动具身智能进入通用领域最大的问题在哪里?

我们认为,核心问题在于「跨具身(cross-embodiment)迁移」

当然,具身智能执行通用复杂任务的核心是一个完善的世界模型。但是,大多世界模型其实并没有我们想象的那样具备极强的泛化性和迁移能力。

简单来说,这些用在机器人或是智能汽车上的世界模型,基本都是在某个固定的硬件平台上设计训练的,大多不具备很强的泛化能力,跨具身迁移几乎靠运气。

说白了,大多数机器人今天学到的不是 「世界是如何运作的」,而是 「在这台机器该怎么动」。我们需要能学到一个真正理解物理与因果的世界模型 —— 知道世界会怎么变、动作会带来什么后果,才能在不同身体、不同环境中迁移与泛化。

在这个问题上,作为算力的王者,深耕各类世界模型的英伟达再一次发力,构建了一个全新是世界模型,一切都是 Zero-Shot 的。

最近,英伟达 GEAR 实验室提出 DreamZero,一种基于预训练视频扩散骨干网络构建的世界动作模型(WAM)。

这是一个拥有 140 亿参数的模型,能够让机器人仅通过简单的文本提示就完成此前从未见过的任务。



实验室负责人 Jim Fan 将其称为机器人领域的「GPT-2 时刻」:研究团队只需输入想法,机器人就能执行相应动作。目前,该模型的代码已在 GitHub 上开源。





  • 论文标题:World Action Models are Zero-shot Policies
  • 论文链接:https://dreamzero0.github.io/DreamZero.pdf
  • Github 链接:https://github.com/dreamzero0/dreamzero

不同于传统的 VLA 模型,WAM 通过联合预测未来世界状态与动作来学习物理动力学,并以视频作为世界演化的稠密表示。通过对视频与动作的联合建模,DreamZero 能够从异构机器人数据中高效学习多样化技能,而不依赖重复示范。在真实机器人实验中,相比最先进的 VLA,DreamZero 在新任务与新环境的泛化上实现了超过 2× 的提升

至关重要的是,通过模型与系统层面的优化,研究团队让一个 140 亿参数的自回归视频扩散模型实现了 7Hz 的实时闭环控制。此外,研究团队展示了两种跨具身迁移能力:仅使用 10–20 分钟的人类或其他机器人纯视频示范,即可在未见任务上带来 超过 42% 的性能提升。更令人惊讶的是,DreamZero 只需 30 分钟的 「玩耍数据」,就能适配到全新的机器人,同时仍保持零样本泛化能力



DreamZero 整体概览。

图中展示了 DreamZero 通过联合预测视频与动作,世界动作模型继承了关于世界物理规律的先验,从而实现了:

1)从多样、非重复的数据中高效学习;

2)在开放世界场景中的强泛化能力;

3)仅依赖纯视频数据即可完成跨具身学习;

4)对新机器人的少样本快速适配。



DreamZero 的模型架构。

大多的预训练的视频扩散模型凭借来自网页规模数据的丰富时空先验,成为构建机器人策略的理想骨干网络。然而,将这类模型转化为高效的世界动作模型仍面临关键挑战:

1)视频–动作对齐:联合预测视频与动作要求对视觉未来与电机指令进行紧密耦合,但如果只是简单地将独立的视频头与动作拼接,往往会导致二者对齐失效;

2)架构设计:尚不清楚双向架构还是自回归架构更适合 WAM,这关系到多模态对齐、误差累积以及推理效率等关键问题;

3)实时推理:视频扩散模型需要在高维潜空间中进行多步迭代去噪,使其在闭环控制场景下速度过慢、难以实用。

为此,DreamZero 通过模型设计选择有效应对了上述挑战。

模型接收三类输入:视觉上下文(通过 VAE 编码)、语言指令(通过文本编码器)、以及本体感知状态(通过状态编码器)。这些输入随后被送入一个基于 Flow Matching 的自回归 DiT 主干网络,由其联合预测未来的视频帧与动作,并通过各自独立的解码器输出结果。

在训练阶段,模型以分块(chunk)的方式工作:在给定干净视频上下文作为条件的情况下,对加噪的视频与动作潜变量进行去噪。在推理阶段,模型的预测会以异步方式在真实世界中执行,同时将真实观测结果回灌到 KV cache 中,以防止误差随时间累积。

实验结果

研究团队在 六种设置下展示了 DreamZero 的能力 —— 其中 五种用于测试泛化,一种用于实时部署。

相关的训练数据以及实验结果的演示可以参考以下链接:

https://dreamzero0.github.io/evals_gallery/

AgiBot 预训练:已见 & 未见任务

研究团队对预训练模型进行开箱即用评测:任务来自预训练分布,但在未见对象的新环境中进行零样本测试。DreamZero(也包含从零训练版本)取得 62.2% 的平均任务进度,相比最佳预训练 VLA 基线(27.4%)提升 超过 2×。从零训练的 VLA 几乎为零;预训练 VLA 有一定进展,但幅度有限。



对于训练中完全未出现的任务(如解鞋带、握手),DreamZero 仍达到 39.5% 的任务进度,而 VLA 再次表现吃力。值得注意的是,预训练 VLA 在未见任务上的有限进展,主要源于其无论指令如何都倾向于执行 「抓取 - 放置」 的默认动作,显示其过拟合于主导训练行为,而非真正理解新任务语义。研究团队在 4 台机器人、不同环境与物体上,对每个检查点进行了 80 次 rollouts。



DROID:已见任务 & 未见动作

为验证在公开数据上的效果,研究团队在 DROID(最异构的开源机器人数据集之一)上训练 DreamZero,并评测 20 个已见任务与 20 个未见动词任务(DROID 中未出现的动作)。DreamZero 显著优于预训练基线,在未见动词上取得 49% 的任务进度,而最先进的 VLA 仅为 25–32%。



后训练:分布外泛化

本部分研究 WAM 在任务特定微调后是否仍保留泛化能力。研究团队在 三项下游任务上进行后训练:叠衬衫、装水果、清理餐桌。DreamZero 在三项任务上均表现更强,表明后训练后仍保持环境泛化能力。



跨具身迁移

仅用 30 分钟的玩耍数据(55 条轨迹),DreamZero 即可适配 YAM 机器人,并对南瓜、泰迪熊、纸袋等新物体实现零样本泛化,同时展现出强大的语言指令遵循能力。来自 AgiBot 预训练的知识可直接迁移,无需大规模重训。这是目前效率最高的具身迁移:以往需要数百小时示范的工作,能够在 30 分钟内完成(未使用任何其他 YAM 数据)。



交互式提示

机器人基础模型的 「提示时代」 已经到来。研究团队展示了交互式提示的实战:带着机器人走到不同地方,让人们直接用语言提出新任务。机器人能够完成多种令人惊喜的操作。



实时推理

通过模型、系统与实现层面的优化,DreamZero 实现了 每个动作块 150ms 的实时推理,支持 7Hz 闭环控制。结合异步推理与动作块平滑,执行过程更加流畅、响应迅速。研究团队对比了 16 / 4 / 1 个扩散步数的效果:步数越少延迟越低,而 DreamZero-Flash 即便在单步推理下也能保持性能。研究团队还展示了动作块平滑与异步推理对执行质量的影响。



DreamZero (16 diffusion step) + async & action chunk smoothing

零样本泛化能走多远? 研究团队持续对 DreamZero 进行压力测试:在从未训练过的任务、从未见过的环境中探索能力。从扇汉堡、按电梯按钮,到敲木琴、摇铃鼓,不断涌现出令人惊讶的新能力。

DreamZero 只是开始 —— 它代表了基于视频世界模型的新一代机器人基础模型浪潮。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“孩子丑成那种,还天天晒”,宝妈朋友圈晒娃,被十年好友骂哭

“孩子丑成那种,还天天晒”,宝妈朋友圈晒娃,被十年好友骂哭

菁妈育儿
2026-05-19 17:37:28
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
4月经济数据:不借钱不花钱,不买车不买房

4月经济数据:不借钱不花钱,不买车不买房

路财主
2026-05-20 19:54:00
确认不打了!男篮第一控卫身价大暴跌,加盟广东队成首选?

确认不打了!男篮第一控卫身价大暴跌,加盟广东队成首选?

绯雨儿
2026-05-21 08:30:23
黄仁勋的指甲冲上热搜!高清镜头曝光,网友吵翻!医生:这6种情况都可能

黄仁勋的指甲冲上热搜!高清镜头曝光,网友吵翻!医生:这6种情况都可能

上观新闻
2026-05-18 22:12:55
高三老师高考前倒在讲台不幸去世,年仅36岁,年级主任:已安排老师代课

高三老师高考前倒在讲台不幸去世,年仅36岁,年级主任:已安排老师代课

极目新闻
2026-05-21 14:39:11
何小鹏:激光雷达是个好东西 但汽车已不需要它了

何小鹏:激光雷达是个好东西 但汽车已不需要它了

快科技
2026-05-21 13:54:06
93年男生血泪自述:你在南京买房4年亏掉170万,十年青春彻底清零

93年男生血泪自述:你在南京买房4年亏掉170万,十年青春彻底清零

科学发掘
2026-05-21 13:22:22
童年女神宣布怀孕了!

童年女神宣布怀孕了!

奋斗在韩国
2026-05-21 10:14:01
A股:今天跌到4077了,周五,股市很可能这样走

A股:今天跌到4077了,周五,股市很可能这样走

明心
2026-05-21 15:05:21
深度科普:狗交配过程为何会很难分开?下次看到狗交配请默默离开

深度科普:狗交配过程为何会很难分开?下次看到狗交配请默默离开

宇宙时空
2026-05-18 17:30:14
上海杀杀哥后续!大四重修生,长期服药,室友崩溃发声,内幕曝光

上海杀杀哥后续!大四重修生,长期服药,室友崩溃发声,内幕曝光

千言娱乐记
2026-05-21 12:21:37
马斯克前脚刚走,78岁母亲随口一句话,让中国网友集体破防

马斯克前脚刚走,78岁母亲随口一句话,让中国网友集体破防

史行途
2026-05-20 00:13:07
“6:0”前“9:0” 歼10CE凭什么吊打欧洲双雄?

“6:0”前“9:0” 歼10CE凭什么吊打欧洲双雄?

看看新闻Knews
2026-05-20 20:06:07
继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

继萝卜岗后,又出来“祖坟”岗?网友:谁能考上,一辈子有的吹了

马蹄烫嘴说美食
2026-05-21 10:26:43
上海日料餐厅伤人案 目击者称人生最恐怖经历 受伤者按腹鲜血直流

上海日料餐厅伤人案 目击者称人生最恐怖经历 受伤者按腹鲜血直流

东瀛万事通
2026-05-21 14:26:05
一场闹剧!香港顶流“忘年恋”彻底崩塌,往日恩爱变血色屠场...

一场闹剧!香港顶流“忘年恋”彻底崩塌,往日恩爱变血色屠场...

港港地
2026-05-21 10:04:21
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
夹臂文班!薅头发!马刺一场伤2人!靠这样赢啊!

夹臂文班!薅头发!马刺一场伤2人!靠这样赢啊!

柚子说球
2026-05-21 12:28:13
传奇继续!Shams:湖人正在全力挽留老詹,后者至少还会再战一季

传奇继续!Shams:湖人正在全力挽留老詹,后者至少还会再战一季

移动挡拆
2026-05-21 09:16:40
2026-05-21 17:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13050文章数 142651关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

特朗普称将与赖清德交谈 外交部表态

头条要闻

特朗普称将与赖清德交谈 外交部表态

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

时尚
家居
数码
艺术
手机

全网首档挑战Al设备拍摄短剧现场直播!

家居要闻

风格碰撞 个性与艺术

数码要闻

2026年Q1全球电视品牌出货量TOP5:三星稳坐第一 TCL紧追其后

艺术要闻

崔雪冬 2026年油画新作

手机要闻

全球首发天玑9500 Monster!iQOO 15T图赏

无障碍浏览 进入关怀版