网易首页 > 网易号 > 正文 申请入驻

英伟达世界模型再进化,一个模型驱动所有机器人!

0
分享至



编辑|冷猫

驱动具身智能进入通用领域最大的问题在哪里?

我们认为,核心问题在于「跨具身(cross-embodiment)迁移」

当然,具身智能执行通用复杂任务的核心是一个完善的世界模型。但是,大多世界模型其实并没有我们想象的那样具备极强的泛化性和迁移能力。

简单来说,这些用在机器人或是智能汽车上的世界模型,基本都是在某个固定的硬件平台上设计训练的,大多不具备很强的泛化能力,跨具身迁移几乎靠运气。

说白了,大多数机器人今天学到的不是 「世界是如何运作的」,而是 「在这台机器该怎么动」。我们需要能学到一个真正理解物理与因果的世界模型 —— 知道世界会怎么变、动作会带来什么后果,才能在不同身体、不同环境中迁移与泛化。

在这个问题上,作为算力的王者,深耕各类世界模型的英伟达再一次发力,构建了一个全新是世界模型,一切都是 Zero-Shot 的。

最近,英伟达 GEAR 实验室提出 DreamZero,一种基于预训练视频扩散骨干网络构建的世界动作模型(WAM)。

这是一个拥有 140 亿参数的模型,能够让机器人仅通过简单的文本提示就完成此前从未见过的任务。



实验室负责人 Jim Fan 将其称为机器人领域的「GPT-2 时刻」:研究团队只需输入想法,机器人就能执行相应动作。目前,该模型的代码已在 GitHub 上开源。





  • 论文标题:World Action Models are Zero-shot Policies
  • 论文链接:https://dreamzero0.github.io/DreamZero.pdf
  • Github 链接:https://github.com/dreamzero0/dreamzero

不同于传统的 VLA 模型,WAM 通过联合预测未来世界状态与动作来学习物理动力学,并以视频作为世界演化的稠密表示。通过对视频与动作的联合建模,DreamZero 能够从异构机器人数据中高效学习多样化技能,而不依赖重复示范。在真实机器人实验中,相比最先进的 VLA,DreamZero 在新任务与新环境的泛化上实现了超过 2× 的提升

至关重要的是,通过模型与系统层面的优化,研究团队让一个 140 亿参数的自回归视频扩散模型实现了 7Hz 的实时闭环控制。此外,研究团队展示了两种跨具身迁移能力:仅使用 10–20 分钟的人类或其他机器人纯视频示范,即可在未见任务上带来 超过 42% 的性能提升。更令人惊讶的是,DreamZero 只需 30 分钟的 「玩耍数据」,就能适配到全新的机器人,同时仍保持零样本泛化能力



DreamZero 整体概览。

图中展示了 DreamZero 通过联合预测视频与动作,世界动作模型继承了关于世界物理规律的先验,从而实现了:

1)从多样、非重复的数据中高效学习;

2)在开放世界场景中的强泛化能力;

3)仅依赖纯视频数据即可完成跨具身学习;

4)对新机器人的少样本快速适配。



DreamZero 的模型架构。

大多的预训练的视频扩散模型凭借来自网页规模数据的丰富时空先验,成为构建机器人策略的理想骨干网络。然而,将这类模型转化为高效的世界动作模型仍面临关键挑战:

1)视频–动作对齐:联合预测视频与动作要求对视觉未来与电机指令进行紧密耦合,但如果只是简单地将独立的视频头与动作拼接,往往会导致二者对齐失效;

2)架构设计:尚不清楚双向架构还是自回归架构更适合 WAM,这关系到多模态对齐、误差累积以及推理效率等关键问题;

3)实时推理:视频扩散模型需要在高维潜空间中进行多步迭代去噪,使其在闭环控制场景下速度过慢、难以实用。

为此,DreamZero 通过模型设计选择有效应对了上述挑战。

模型接收三类输入:视觉上下文(通过 VAE 编码)、语言指令(通过文本编码器)、以及本体感知状态(通过状态编码器)。这些输入随后被送入一个基于 Flow Matching 的自回归 DiT 主干网络,由其联合预测未来的视频帧与动作,并通过各自独立的解码器输出结果。

在训练阶段,模型以分块(chunk)的方式工作:在给定干净视频上下文作为条件的情况下,对加噪的视频与动作潜变量进行去噪。在推理阶段,模型的预测会以异步方式在真实世界中执行,同时将真实观测结果回灌到 KV cache 中,以防止误差随时间累积。

实验结果

研究团队在 六种设置下展示了 DreamZero 的能力 —— 其中 五种用于测试泛化,一种用于实时部署。

相关的训练数据以及实验结果的演示可以参考以下链接:

https://dreamzero0.github.io/evals_gallery/

AgiBot 预训练:已见 & 未见任务

研究团队对预训练模型进行开箱即用评测:任务来自预训练分布,但在未见对象的新环境中进行零样本测试。DreamZero(也包含从零训练版本)取得 62.2% 的平均任务进度,相比最佳预训练 VLA 基线(27.4%)提升 超过 2×。从零训练的 VLA 几乎为零;预训练 VLA 有一定进展,但幅度有限。



对于训练中完全未出现的任务(如解鞋带、握手),DreamZero 仍达到 39.5% 的任务进度,而 VLA 再次表现吃力。值得注意的是,预训练 VLA 在未见任务上的有限进展,主要源于其无论指令如何都倾向于执行 「抓取 - 放置」 的默认动作,显示其过拟合于主导训练行为,而非真正理解新任务语义。研究团队在 4 台机器人、不同环境与物体上,对每个检查点进行了 80 次 rollouts。



DROID:已见任务 & 未见动作

为验证在公开数据上的效果,研究团队在 DROID(最异构的开源机器人数据集之一)上训练 DreamZero,并评测 20 个已见任务与 20 个未见动词任务(DROID 中未出现的动作)。DreamZero 显著优于预训练基线,在未见动词上取得 49% 的任务进度,而最先进的 VLA 仅为 25–32%。



后训练:分布外泛化

本部分研究 WAM 在任务特定微调后是否仍保留泛化能力。研究团队在 三项下游任务上进行后训练:叠衬衫、装水果、清理餐桌。DreamZero 在三项任务上均表现更强,表明后训练后仍保持环境泛化能力。



跨具身迁移

仅用 30 分钟的玩耍数据(55 条轨迹),DreamZero 即可适配 YAM 机器人,并对南瓜、泰迪熊、纸袋等新物体实现零样本泛化,同时展现出强大的语言指令遵循能力。来自 AgiBot 预训练的知识可直接迁移,无需大规模重训。这是目前效率最高的具身迁移:以往需要数百小时示范的工作,能够在 30 分钟内完成(未使用任何其他 YAM 数据)。



交互式提示

机器人基础模型的 「提示时代」 已经到来。研究团队展示了交互式提示的实战:带着机器人走到不同地方,让人们直接用语言提出新任务。机器人能够完成多种令人惊喜的操作。



实时推理

通过模型、系统与实现层面的优化,DreamZero 实现了 每个动作块 150ms 的实时推理,支持 7Hz 闭环控制。结合异步推理与动作块平滑,执行过程更加流畅、响应迅速。研究团队对比了 16 / 4 / 1 个扩散步数的效果:步数越少延迟越低,而 DreamZero-Flash 即便在单步推理下也能保持性能。研究团队还展示了动作块平滑与异步推理对执行质量的影响。



DreamZero (16 diffusion step) + async & action chunk smoothing

零样本泛化能走多远? 研究团队持续对 DreamZero 进行压力测试:在从未训练过的任务、从未见过的环境中探索能力。从扇汉堡、按电梯按钮,到敲木琴、摇铃鼓,不断涌现出令人惊讶的新能力。

DreamZero 只是开始 —— 它代表了基于视频世界模型的新一代机器人基础模型浪潮。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他26岁拼命追一34岁有病、不能生、还穷的女人,所有人都说他疯了

他26岁拼命追一34岁有病、不能生、还穷的女人,所有人都说他疯了

南权先生
2026-02-09 15:56:02
昨晚!天津突然诞生一位大富翁!

昨晚!天津突然诞生一位大富翁!

天津人
2026-02-09 11:32:33
字母哥新队友!托马斯将与雄鹿签约 场均20+得分手却被篮网裁掉

字母哥新队友!托马斯将与雄鹿签约 场均20+得分手却被篮网裁掉

罗说NBA
2026-02-09 06:08:03
TikTok被欧盟认定:存在“上瘾式”设计 或将面临数十亿美元罚款 TikTok回应:“完全错误且毫无依据”

TikTok被欧盟认定:存在“上瘾式”设计 或将面临数十亿美元罚款 TikTok回应:“完全错误且毫无依据”

闪电新闻
2026-02-08 11:38:09
慈禧喝人乳十五年,奶娘临死大笑道破:老佛爷喝的从不是人乳

慈禧喝人乳十五年,奶娘临死大笑道破:老佛爷喝的从不是人乳

历史人文2
2026-02-06 19:54:48
本土标王诞生!拜合拉木将加盟蓉城,转会费超杨希仅次于拉唐

本土标王诞生!拜合拉木将加盟蓉城,转会费超杨希仅次于拉唐

奥拜尔
2026-02-09 12:49:01
具俊晔洗白失败!葛斯齐曝猛料,韩国综艺实锤 S家让大S背1年黑锅

具俊晔洗白失败!葛斯齐曝猛料,韩国综艺实锤 S家让大S背1年黑锅

TVB的四小花
2026-02-06 20:41:33
身材和舞姿都是顶流,就问谁不喜欢?

身材和舞姿都是顶流,就问谁不喜欢?

贵圈真乱
2026-02-02 12:07:25
调查发现:晨起大量饮水者,用不了3个月,身体或迎来这5变化!

调查发现:晨起大量饮水者,用不了3个月,身体或迎来这5变化!

小胡军事爱好
2025-11-27 10:46:30
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
萝莉岛文件核爆:中本聪就是爱泼斯坦?

萝莉岛文件核爆:中本聪就是爱泼斯坦?

星辰故事屋
2026-02-08 17:13:15
央八首播!51集谍战大剧来袭,收视率连续霸榜,央视没有看走眼

央八首播!51集谍战大剧来袭,收视率连续霸榜,央视没有看走眼

阿乐乐电影v
2026-02-09 15:39:19
广东外援更新:麦考尔萨姆纳留队康复,奎因返美,萨林杰将被买断

广东外援更新:麦考尔萨姆纳留队康复,奎因返美,萨林杰将被买断

二爷台球解说
2026-02-09 10:15:35
2026 央视重磅谍战剧《千里江山图》来袭 坚守信仰书写热血传奇

2026 央视重磅谍战剧《千里江山图》来袭 坚守信仰书写热血传奇

草莓解说体育
2026-02-09 15:23:46
日本不想打也得打,美司令曾明确发话:介入台海,日本定派兵上阵

日本不想打也得打,美司令曾明确发话:介入台海,日本定派兵上阵

你是我心中最美星空
2026-02-04 20:33:21
《太平年》越南网络引热议:吴越国如越南独立,中国将失GDP大省

《太平年》越南网络引热议:吴越国如越南独立,中国将失GDP大省

七彩论世
2026-02-06 00:00:15
男子操纵67个账户炒股5年狂赚5亿

男子操纵67个账户炒股5年狂赚5亿

企查查
2026-02-09 11:51:09
西安局领导班子调整

西安局领导班子调整

轨道世界
2026-02-08 18:02:33
内维尔:VAR抹杀了本赛季英超最精彩的瞬间之一,实在太扫兴了

内维尔:VAR抹杀了本赛季英超最精彩的瞬间之一,实在太扫兴了

懂球帝
2026-02-09 05:54:47
2026-02-09 16:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12275文章数 142564关注度
往期回顾 全部

科技要闻

热血渐凉:被耗尽的小米SU7 Ultra

头条要闻

自民党斩获316席 系战后首次单独获得超众议院2/3席位

头条要闻

自民党斩获316席 系战后首次单独获得超众议院2/3席位

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

李亚鹏暂停直播:将投入嫣然医院工作

财经要闻

文玩假拍骗局调查:3500元瓷瓶估值300万

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

本地
时尚
教育
艺术
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

2026最流行的5种发型,太适合过年了!

教育要闻

学雅思的好处与新航道雅思的领军地位

艺术要闻

布兰特的冬日,不只是风景,更是心底的一场!温柔雪

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版