网易首页 > 网易号 > 正文 申请入驻

训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

0
分享至

机器之心编辑部

近日,NVIDIA 发布的世界 - 动作模型 DreamZero,在两项颇具代表性的机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶。



DreamZero 核心思想是:在同一个模型里,同时预测未来视频和机器人动作。也就是说,DreamZero 让机器人在行动前,先在模型内部想象未来。

但问题也随之而来。

为什么这种边预测世界、边预测动作的设计,会带来如此显著的性能提升?它到底比传统策略模型或世界模型强在哪里?是真正的范式突破,还是数据与模型规模的胜利?

围绕这些问题,近期一篇颇具讨论度的分析文章《Why is DreamZero so good at robotics?》给出了一个更深入的解读:在训练一个通用机器人策略时,你的数据和模型架构需要具备哪些特征?这篇文章的解读,正在对以往的认知提出质疑。

文章作者是一位名叫 Chris Paxton 机器人与人工智能研究者,曾在 Hello Robot 负责具身智能(Embodied AI)方向的研究工作。此前,Paxton 在 NVIDIA Research 以及 Meta 旗下的基础人工智能研究机构 FAIR 工作过。



这篇文章从模型介绍、训练数据分布、模型主干规模、时间上下文长度,以及视频生成作为辅助监督信号等多个维度,拆解了 DreamZero 表现突出的可能原因。



文章地址:https://itcanthink.substack.com/p/why-is-dreamzero-so-good-at-robotics

接下来是文章主要内容。

DreamZero 是什么?



DreamZero 是 NVIDIA 提出的「世界 — 动作模型」(world-action model)。它借鉴了世界模型中的许多核心思想,尤其是视频生成对机器人任务有价值这一理念,但在关键设计上做了几处重要改动。其中最关键的一点是:它联合建模动作生成与视频生成。

通常来说,世界模型大致可以分为两类:

动作条件世界模型:学习状态与动作到下一状态的映射,即 x′=f (x,a)。其中 x 表示当前观测状态,a 表示动作。例如 V-JEPA 2 或近期 RISE 论文中的世界模型就属于这一类。

逆动力学世界模型(inverse dynamics world models):例如 NVIDIA 的 DreamGen 或 1X 的世界模型。这类方法先学习 x′=f (x),然后再通过一个逆动力学模型学习 a=g (x,x′)。

相比之下,DreamZero 更像一个传统的机器人策略模型,但它同时还会预测未来视频。因此,它学习的更接近于:(x′,a)=f (x)。

也就是说,它在同一个模型中同时预测未来状态和对应动作

我们也可以把它与传统的视觉 — 语言 — 动作模型(vision-language-action model)进行对比:DreamZero 不仅预测动作,还预测未来画面。这为模型提供了一种更丰富的监督信号,不仅告诉它该做什么,还告诉它世界接下来会变成什么样,从而帮助模型更好地学习环境演化的规律。

基准



RoboArena 是一个基于 Droid 构建的分布式真实世界基准测试。全球各地的评测者拥有相对相似的机器人和实验设置,并根据不同的自然语言指令,运行一系列开放式的机器人任务评测。

这意味着,从数据分布的角度来看,它在某种程度上属于 DreamZero 的分布内(in-distribution)场景。因为 DreamZero 本身就是在 Droid 数据上训练的,而 Droid 中包含了非常相似的任务和实验环境。但与此同时,这仍然是一个真实世界的评估环境,意味着会存在各种现实中的复杂性和变化;而且具体任务是由评测者自行选择的。

RoboArena 还是一个 head-to-head 式的比较基准,有点类似于在大模型发展中产生重要影响的 Chatbot Arena。



MolmoSpaces 是一个新的基准测试平台,具备高保真物理模拟能力和多样化、程序化生成的环境。

其中,MolmoSpaces-Bench 重点测试在多种受控变化条件下的任务表现,包括抓取(pick)、放置(place)、开合(open and close)等基础操作,以及这些操作的组合任务。

这是一个尚未接近性能饱和的新基准,也就是说,模型之间仍然存在明显差距,仍有较大提升空间。而 DreamZero 在这些测试中都取得了优异表现。

我们能从中学到什么?

我们可以具体对比一下 DreamZero 和 pi-0.5,因为 pi-0.5 是目前排名第二的模型。

训练数据方面

pi-0.5 使用了超过 1 万小时的真实机器人数据、视觉语言模型(VLM)数据,以及 Droid 数据集进行训练。而 DreamZero 则根据不同的模型版本(checkpoint),使用 DROID 数据或 AgiBot 数据进行训练。

训练数据的分布很可能在这里起到了至关重要的作用。可以注意到,在 DreamZero 的论文中,它在 AgiBot 数据集上的表现明显优于 pi-0.5(而 AgiBot 并不包含在 pi-0.5 的训练数据中);但在双方都使用过的 DROID-Franka 设置下,两者的性能差距则要小得多。



这似乎也在暗示:那额外的 1 万小时机器人数据,可能并不像人们想象中那样万能有效。

更关键的,或许不是数据量本身,而是是否在正确分布的机器人数据上进行预训练。在另一篇近期博客文章中,Physical Intelligence 展示了一个非常显著的结果:当模型在与目标任务分布高度一致的合作方数据上进行预训练时,性能会出现大幅提升



因此,也许从另一种机器人身上额外增加 1 万小时的数据,并不一定比使用手头那些廉价、充足的第一视角视频数据更有效。对于那些希望训练跨机体通用机器人大脑的研究者来说,这可能并不是一个好消息。换句话说,从不同机器人形态中获得的收益,可能并不会比单纯加入大量低成本的第一视角视频数据更多。

模型主干

首先是主干模型规模之差。

DreamZero 基于 Wan2.1-I2V-14B-480P 构建,是一个 140 亿参数的视频生成模型,相比之下,pi-0.5 基于 30 亿参数的开源视觉语言模型 PaliGemma 进行训练,参数规模差了将近 5 倍。

其次是信息输入方式不同。

DreamZero 最多可以接收 8 帧上下文输入,等于让模型看一个短视频片段。pi-0.5 只能输入单帧图像,每次决策只看当前一张照片。

在真实世界中,机器人任务几乎都具备几个典型特征:环境往往是部分可观测的,存在复杂的物理动态过程,并且高度依赖对时间连续性的理解。例如,一扇门可能刚刚被推开了一点、某个物体正在滑动、机械臂上一刻的速度和加速度都会影响下一步动作的结果。

如果模型只能看到单帧图像,它往往无法判断物体是在运动还是静止,也难以推断当前状态是否由之前的动作所引发,更无法理解惯性等物理效应。

而如果模型能够观察连续的多帧画面,比如 8 帧历史信息,它就能捕捉到运动趋势和状态变化,更容易学习到潜在的物理规律,从而在控制和决策上表现得更加稳定和准确。

模型规模

DreamZero 是一个体量巨大的模型,而论文中相当一部分工作其实是在解决如何让这个 140 亿参数的庞然大物实现实时运行。论文中的消融实验似乎表明,模型规模在性能表现上起到了非常关键的作用。



同时引入更长的历史信息、扩大模型规模,通常都会带来一个问题:模型更难训练,而且在低数据环境下更容易过拟合。与大语言模型不同,后者由于拥有海量数据,几乎不用担心过拟合问题。机器人领域本质上始终处于一个低数据环境中。即便是现在,DROID 数据集相比最小规模的 LLM 数据集,也依然小得多。

因此可以提出一个猜想:视频生成目标在这里充当了一种辅助损失(auxiliary loss)。它为 DreamZero 模型施加了一种结构约束,迫使模型学习某种内部的世界模型。与来自机器人动作的稀疏信号相比,视频预测提供了一种更强、更密集的监督信号。这可能使模型更容易适应那些它并未直接训练过的、多样化的 MolmoSpaces 环境。

最后的思考

仅凭这些论文,我们仍然无法得出全部结论。我们无法获得 Physical Intelligence 所使用的全部数据;NVIDIA 用于推理的 GB200 设备目前也并不容易获取。但对很多人来说,可以得出一个经验,也许我们并不需要此前认为那么多的数据,就能够在真实世界机器人任务中取得强劲表现。

最后,作者表示,接下来几周会推出一期 RoboPapers 播客节目,专门讨论 DreamZero;此外,下周也会发布一篇更深入的分析报告,感兴趣的读者可以关注一下。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗军方:24小时内共击落6架“赫尔墨斯”无人机

伊朗军方:24小时内共击落6架“赫尔墨斯”无人机

财联社
2026-03-04 00:39:05
罕见一致!美团、阿里、京东三大巨头联手,围剿外卖最大“毒瘤”

罕见一致!美团、阿里、京东三大巨头联手,围剿外卖最大“毒瘤”

离离言几许
2026-03-03 14:11:32
伊拉克武装参战!“发动28次袭击”

伊拉克武装参战!“发动28次袭击”

扬子晚报
2026-03-03 07:20:25
伊朗名将:战争很不幸但支持美国以色列!欢迎他们解放伊朗人民

伊朗名将:战争很不幸但支持美国以色列!欢迎他们解放伊朗人民

念洲
2026-03-03 08:44:39
“伊朗德黑兰飞乌鲁木齐航班进入中国领空 机舱内传来广播”视频热传 川航:未开通伊朗航线

“伊朗德黑兰飞乌鲁木齐航班进入中国领空 机舱内传来广播”视频热传 川航:未开通伊朗航线

闪电新闻
2026-03-02 17:29:47
争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

我爱英超
2026-03-03 11:43:31
迪丽热巴被困迪拜升级!工作人员直飞,只有她转机,网友再曝猛料

迪丽热巴被困迪拜升级!工作人员直飞,只有她转机,网友再曝猛料

林轻吟
2026-03-03 19:18:39
美国战机被击落,飞行员随身携带“血符”曝光:帮我联系美国,你将会有奖金

美国战机被击落,飞行员随身携带“血符”曝光:帮我联系美国,你将会有奖金

不掉线电波
2026-03-03 15:46:11
日本玩大了!P-3C首闯台岛咽喉,解放军当场翻脸,全程贴脸硬刚

日本玩大了!P-3C首闯台岛咽喉,解放军当场翻脸,全程贴脸硬刚

策略述
2026-03-03 20:07:32
海澜之家回应被暂停全军采购资格

海澜之家回应被暂停全军采购资格

中国能源网
2026-03-03 18:28:04
外甥大年初二理发 当晚舅舅去世 舅妈控告其杀人索赔100万

外甥大年初二理发 当晚舅舅去世 舅妈控告其杀人索赔100万

闪电新闻
2026-03-03 12:04:59
无警报、无生还!伊朗一枚导弹直穿防空,炸死科威特港口6名美军

无警报、无生还!伊朗一枚导弹直穿防空,炸死科威特港口6名美军

Nee看
2026-03-03 11:00:32
又有两国参战中东!关键时刻,美媒曝出消息:沙特把中国也骗了?

又有两国参战中东!关键时刻,美媒曝出消息:沙特把中国也骗了?

领悟看世界
2026-03-04 01:39:58
海外传来一条消息,国内还没有传开,但国外已经炸锅了!

海外传来一条消息,国内还没有传开,但国外已经炸锅了!

百态人间
2026-03-03 15:34:52
冲突升级! 美伊双方都“不惜代价” 日经重挫3% 韩股暴跌逾7% 美股期指集体下跌

冲突升级! 美伊双方都“不惜代价” 日经重挫3% 韩股暴跌逾7% 美股期指集体下跌

每日经济新闻
2026-03-03 16:43:24
祖国遭袭!戴头巾的伊朗女足球员集体拒唱国歌 有人微笑有人落泪

祖国遭袭!戴头巾的伊朗女足球员集体拒唱国歌 有人微笑有人落泪

风过乡
2026-03-03 12:57:39
暴跌40%,关店4000家!曾创神话的“零食界爱马仕”,卖不动了

暴跌40%,关店4000家!曾创神话的“零食界爱马仕”,卖不动了

好贤观史记
2026-03-02 20:17:10
伊朗承认是自己导弹误炸学校,致165名学生装丧生?

伊朗承认是自己导弹误炸学校,致165名学生装丧生?

雪中风车
2026-03-03 13:40:11
父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

健康之光
2026-03-03 17:35:03
第十三波反制!伊军对等斩首,76岁内塔死里逃生

第十三波反制!伊军对等斩首,76岁内塔死里逃生

书纪文谭
2026-03-03 16:20:57
2026-03-04 02:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12403文章数 142577关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

健康
数码
旅游
房产
游戏

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果发布新款MacBook Air:搭载M5芯片!售价8499元起

旅游要闻

好看好吃好玩儿!宝山罗店美兰西湖“宵遥游园会”燃情启幕

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

魔兽时光服:角色不平衡,玩家奇思妙想该数值,这个方法可行吗?

无障碍浏览 进入关怀版