R²D²：利用 NVIDIA 研究中心的工作流和世界基础模型训练通用机器人|多模态|nvidia

分享至

机器人领域的一大核心挑战在于如何让机器人掌握新任务，而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型（如NVIDIA Cosmos）以及数据生成蓝图（如Isaac GR00T-Mimic与GR00T-Dreams）来克服这一挑战。

本期 NVIDIA 机器人研究与开发摘要 (R²D²) 将介绍如何通过世界基础模型实现可扩展的合成数据生成与机器人模型训练工作流，具体包括：

DreamGenIsaac GR00T-Dreams blueprint的研究基础。
GR00T N1：开源基础模型，使机器人能够通过真实数据、人类演示和合成数据学习跨任务与形态的通用技能。
通过视频进行潜在动作预训练：无监督的学习方法，无需人工动作标注，就能从大规模视频中学习机器人相关动作。
仿真与现实协同训练：结合仿真环境与真实世界机器人数据的训练方法，可构建更具鲁棒性和适应性的机器人策略。

机器人世界基础模型

NVIDIA Cosmos 世界基础模型经过数百万小时真实世界数据训练，能够预测未来世界状态，并基于单张输入图像生成视频序列。这项技术使机器人和自动驾驶车辆具备预判未来事件的能力，这种预测能力对于合成数据生成流程至关重要，有助于快速创建多样化、高保真的训练数据。这一方法大幅加速了机器人的学习过程，提升了模型的鲁棒性，并将原本需要数月人工投入的开发时间缩短至仅数小时。

DreamGen

DreamGen 是一种合成数据生成流程。机器人学习需要收集大规模人类远程操作数据，成本高昂且耗费人力，而 DreamGen 就有助于解决这一问题，它是 Isaac GR00T-Dreams 的基础，这一蓝图可借助世界基础模型生成海量的合成机器人轨迹数据。

传统的机器人基础模型在面对每一项新任务和新环境时，都需要大量人工演示，这种方式不具备可扩展性。而基于仿真的替代方案则经常受到“仿真到现实”差距的困扰，且需要大量人工工程投入。

DreamGen 通过世界基础模型突破这些限制，仅需极少量人工干预即可生成高真实性、多样化的训练数据。该方法实现了机器人学习的规模化扩展，并能在不同行为模式、环境场景及机器人形态间实现泛化。

图 1. 通过 DreamGen 实现泛化

DreamGen 技术流程包含四个核心步骤：

1. 世界基础模型的后训练：

利用少量真实演示数据，将Cosmos-Predict2等世界基础模型适配至目标机器人。Cosmos-Predict2 能够通过文本生成高质量图像（文本到图像），并通过图像或视频生成视觉仿真内容（视频到世界）。

2. 生成合成视频：

基于经过后训练的模型，通过图像和语言提示，为新任务与新环境创建多样化、逼真的机器人视频。

3. 提取伪动作：

应用潜在动作模型或逆动力学模型 (IDM)，将这些视频转换为带标签的动作序列（神经轨迹）。

4. 训练机器人策略：

利用生成的合成轨迹训练视觉运动策略，使机器人能够执行新行为，并能泛化至未见过的场景。

图 2. DreamGen 工作流概览

DreamGen Bench

DreamGen Bench 是一个专门设计的基准测试，用于评估视频生成模型在适配特定机器人形态时的效果，同时考察这些模型对刚体物理规律的内化程度，以及向新物体、新行为和新环境的泛化能力。该基准测试对四个领先的世界基础模型进行测试，分别是 NVIDIA Cosmos、WAN 2.1、混元和 CogVideoX，并衡量两项关键指标：

指令遵循：评估生成视频是否准确反映任务指令（如"拿起洋葱"），采用 Qwen-VL-2.5 等视觉语言模型和人工标注进行双重验证。
物理规律遵循：通过 VideoCon-Physics 和 Qwen-VL-2.5 等工具量化物理真实性，确保视频符合真实世界物理规律。

如图 3 所示，我们发现，在 DreamGen 基准测试中得分较高的模型（即能够生成更真实且符合指令的合成数据的模型），在用于机器人真实操作任务的训练和测试时，也有更优的性能表现。这种正相关关系表明，投入研发更强大的世界基础模型，不仅能提升合成训练数据的质量，还能直接转化为实际应用中能力更强、适应性更优的机器人。

图 3. DreamGen Bench 与 RoboCasa 之间的性能正相关

Isaac GR00T-Dreams

基于 DreamGen 研究的 Isaac GR00T-Dreams，是一套用于生成大规模机器人动作合成轨迹数据集的工作流。这些数据集可用于实体机器人的训练，与收集真实世界动作数据相比，能节省大量时间和人力投入。

GR00T-Dreams 借助 Cosmos Predict2 世界基础模型和Cosmos Reason来为不同任务和环境生成数据。Cosmos Reason 模型包含多模态大型语言模型，能针对用户提示生成基于物理原理的响应。

通用机器人训练模型与工作流

视觉语言动作 (VLA) 模型可以通过世界基础模型生成的数据进行后训练，从而在未知环境中实现新的行为和操作。

NVIDIA 研究中心使用 GR00T-Dreams blueprint 生成合成训练数据，仅用 36 小时就开发出了GR00T N1的升级版本GR00T N1.5。如果采用人工收集数据的方式，这个过程需要近三个月时间。

GR00T N1 是全球首个面向通用人形机器人的开源基础模型，标志着机器人和 AI 领域的重大突破。该模型采用受人类认知启发的双系统架构，统一了视觉、语言和动作，使机器人能够理解指令、感知环境并执行复杂的多步骤任务。

GR00T N1 以通过视频进行潜在动作预训练 (LAPA) 等技术为基础，能够从无标签的人类视频中学习，同时它还采用了仿真与现实协同训练等方法，通过融合合成数据与真实世界数据来增强模型的泛化能力。本文后续将详细介绍 LAPA 和仿真与现实协同训练技术。通过整合这些创新成果，GR00T N1 不仅能够遵循指令、执行任务，更在复杂且不断变化的环境中，为通用人形机器人的能力设立了新标杆。

GR00T N1.5 是基于 GR00T N1 升级的通用人形机器人开源基础模型，其特点是采用了经过优化的视觉语言模型，该模型训练数据包括真实数据、仿真数据和 DreamGen 生成的合成数据的多样化组合。

通过架构优化与数据质量提升，GR00T N1.5 实现了三大核心突破：提升任务成功率、增强语言理解能力、增强对新物体与任务的泛化能力，从而成为更稳定可靠、适应性更强的先进机器人操作解决方案。

通过视频进行潜在动作预训练

通过视频进行潜在动作预训练 (LAPA) 是一种用于视觉-语言-动作 (VLA) 模型预训练的无监督方法，无需使用成本高昂且需人工标注的机器人动作数据。LAPA 不依赖大规模带标注的数据集，这类数据集的收集既昂贵又耗时，而是利用超过 181,000 个未标注的互联网视频来学习有效的特征表示。

这种方法在真实世界任务中，相比先进模型实现了 6.22% 的性能提升，且预训练效率提高了 30 倍以上，这使得具备可扩展性和稳健性的机器人学习变得更加便捷高效。

LAPA 工作流分为三个阶段：

潜在动作量化：Vector Quantized Variational AutoEncoder (VQ-VAE) 模型通过分析视频帧之间的转换，学习离散的“潜在动作”，从而构建一套基础行为词汇（例如抓取、倾倒）。潜在动作是低维度的习得表征，可概括复杂的机器人行为或运动，便于对高维度动作进行控制或模仿。
潜在预训练：利用行为克隆对 VLM 进行预训练，使其能基于视频观察结果和语言指令，预测第一阶段得到的这些潜在动作。行为克隆是一种模型学习方法，通过将观察结果映射到动作，利用演示数据中的示例来复制或模仿动作。
机器人后训练：之后，使用小型带标签数据集对预训练模型进行后训练，使其适配实体机器人，将潜在动作映射为物理指令。

图 4. 潜在动作预训练概览

仿真与现实协同训练工作流

机器人策略训练面临两大关键挑战：一是收集真实世界数据的成本高昂；二是存在“现实差距”，仅在仿真环境中训练的策略，往往难以在真实物理环境中良好运行。

仿真与现实协同训练工作将少量真实世界机器人演示数据与大量仿真数据相结合，有效解决了这些问题。这种方法能够训练出鲁棒策略，同时有效降低成本并弥合现实差距。

图 5. 仿真与现实协同训练工作流概览

该工作流的关键步骤如下：

任务与场景设置：搭建真实世界任务场景，并选择与任务无关的先验仿真数据集。
数据准备：在数据准备阶段，从实体机器人收集真实世界演示数据，同时生成额外的仿真演示数据。这些仿真数据既包括与真实任务高度匹配的、具有任务针对性的“digital cousins”数据，也包括多样化的、与任务无关的先验仿真数据。
协同训练参数调优：随后，将这些不同来源的数据按优化后的协同训练比例进行融合，重点在于对齐摄像头视角并最大化仿真数据的多样性（而非追求照片级真实感）。最后阶段包括批量采样，以及利用真实数据和仿真数据进行策略协同训练，最终得到可部署在机器人上的稳健策略。

图 6. 仿真与现实任务对比示意图

如图 7 所示，增加真实演示数据的数量，能提升仅使用真实数据训练策略，以及经过协同训练策略的成功率。即使使用 400 组真实演示数据，协同训练策略的表现仍始终优于仅用真实数据训练的策略，平均提升幅度达 38%。这表明，即便在数据充足的场景中，仿真与现实协同训练依然能带来显著成效。

图 7. 协同训练策略与纯真实数据策略性能对比图

生态系统应用

领先的机器人公司正在采用 NVIDIA 研究中心开发的工作流来加速研发进程。GR00T N 系列模型的早期采用者包括：

AeiRobot：应用该模型使工业机器人能够理解自然语言指令，完成复杂分拣放置任务。
Foxlink：利用模型提升工业机械臂的作业灵活性与操作效率。
光轮智能：通过模型验证合成数据，加速人形机器人在工厂场景的部署进程。
NEURA Robotics：评估模型性能以加速家庭自动化系统的研发。

开始开发

通过以下资源了解更多信息：

DREAMGEN：

项目网站：https://research.nvidia.com/labs/gear/dreamgen/
论文：https://arxiv.org/pdf/2505.12705
GitHub：https://github.com/nvidia/GR00T-dreams

Isaac GR00T-Dreams：

GitHub：https://github.com/nvidia/GR00T-dreams

Isaac GR00T N1.5：

项目网站：https://research.nvidia.com/labs/gear/gr00t-n1_5/
论文：https://arxiv.org/pdf/2503.14734
模型：https://huggingface.co/nvidia/GR00T-N1.5-3B
GitHub：https://github.com/NVIDIA/Isaac-GR00T

通过视频进行潜在动作预训练：

项目网站：https://latentactionpretraining.github.io/
论文：https://arxiv.org/abs/2410.11758
模型：https://huggingface.co/latent-action-pretraining/LAPA-7B-openx
GitHub：https://github.com/LatentActionPretraining/LAPA

仿真与现实协同训练：

项目网站：https://co-training.github.io/
论文：https://arxiv.org/pdf/2503.24361

NVIDIA Cosmos：

Cosmos Predict2：https://research.nvidia.com/labs/dir/cosmos-predict2/
Cosmos Reason：https://research.nvidia.com/labs/dir/cosmos-reason1/
Cosmos Transfer：https://research.nvidia.com/labs/dir/cosmos-transfer1/
Cosmos 基准测试：https://research.nvidia.com/labs/dir/pbench/

这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²)”的一部分，旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最新突破。

了解 NVIDIA 研究中心的更多信息：https://www.nvidia.cn/research/

立即注册 NVIDIA 机器人基础课程，即刻开始您的机器人技术之旅：https://www.nvidia.com/en-us/learn/learning-path/robotics/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.