加速通用人形机器人的开发：NVIDIA Isaac GR00T N1|gr|isaac|nvidia

加速通用人形机器人的开发：NVIDIA Isaac GR00T N1

分享至

人形机器人需要能够适应人类工作空间，处理重复性或高强度任务。然而，为真实世界的任务和不可预测的环境创建通用人形机器人是一项挑战。通常来说，这些任务中的每一个都需要一个专用的 AI 模型。由于需要大量特定于任务的数据、高昂的计算成本，且模型的泛化能力有限，针对每一个新的任务和环境，从零开始训练这些模型是一个非常繁琐的过程。

NVIDIA Isaac GR00T通过提供开源的 SimReady 数据、仿真框架（如NVIDIA Isaac Sim和Isaac Lab）、合成数据蓝图和预训练基础模型，能够帮助解决这些挑战并加速通用人形机器人的开发。

NVIDIA Isaac GR00T N1 的特点和优势

NVIDIA Isaac GR00T N1是世界上首个用于通用人形机器人推理和技能的开源基础模型。这个跨实体模型接受包括语言和图像在内的多模态输入，以便在各种不同的环境中执行操作任务。

GR00T N1 基于一个庞大的人形机器人数据集进行训练，训练数据还补充了通过NVIDIA Isaac GR00T Blueprint生成的合成数据，以及来自互联网的大量视频数据。它可以通过后训练适应特定的实体、任务和环境。现在，开发者可以通过 Hugging Face 上的开源 NVIDIA 物理 AI 数据集免费获得其中的部分数据。

视频 1. NVIDIA Isaac GR00T N1：用于人形机器人的开源基础模型

GR00T N1 使用一个模型和一组权重来实现人形机器人上的操作行为，例如 Fourier GR-1 和 1X Neo。它展示了在一系列任务中的强大泛化能力，包括用单臂或双臂抓取和操作物体，以及在双臂之间转移物品。

图 1. GR00T N1 用于物体操作

它还可以执行需要持续上下文理解和整合多种技能的复杂多步骤任务。这些功能可应用于物品搬运、包装和检查等各种使用场景中。

视频 2. NVIDIA Isaac GR00T N1 用于复杂操作任务

GR00T N1 2B 模型已经正式推出，这是 NVIDIA 一系列可完全定制模型中的首个模型。NVIDIA 将对这一系列模型进行预训练并发布。

GR00T N1 模型架构

受人类认知原理的启发，GR00T N1 基础模型采用双系统架构：

视觉-语言模型（系统 2）：这个系统基于 NVIDIA-Eagle 和 SmolLM-1.7B，是一个方法论思考系统。它通过视觉和语言指令解释环境，使机器人能够对其环境和指令进行推理，并规划正确的行动。
扩散 Transformer（系统 1）：这个动作模型生成连续动作以控制机器人的运动，将系统 2 制定的动作计划转化为精确、连续的机器人运动。

这两个系统紧密耦合，使它们在后训练期间可以一起优化。

图 2. GR00T N1 模型架构

GR00T N1 的预训练数据策略

训练像 GR00T N1 这样的通用模型需要一个强大的数据策略，该策略能够利用不同数据类型的互补优势。GR00T N1 的训练数据构成了一个金字塔结构，从底部到顶部，数据量逐渐减少，而针对具体实体的特定性则逐渐增强。

底层的数据集合了来自互联网的大规模数据和人类视频，提供了一个广泛的视觉和语言信息基础。这些数据集记录了人与物体的交互情况，有助于深入了解自然动作模式和任务语义。
中间层为由 NVIDIA Omniverse 平台生成的合成数据。
顶部是通过在各种平台上远程操作收集的真实机器人数据，能精准反映机器人的实际能力。

以人为中心的在线视频提供了关于人类与物体交互的有价值的信息，但缺乏机器人的电机控制信号。仿真数据通过 GPU 加速提供了无限的实时数据，填补了这一空白，但它面临仿真到现实的差距。

真实机器人数据弥合了这一差距，但成本高昂且耗时。通过结合这些多样化的数据并使用诸如潜在动作训练等技术，机器人可以从大规模、未标记的人类视频数据中学习而无需监督，从而形成一种强大的策略，增强机器人训练，提高 GR00T N1 的性能和适应性。

这种策略通过 NVIDIA Isaac GR00T Blueprint 得以实际应用。通过它，可以在短短 11 小时内生成超过 75 万个合成轨迹，相当于 6500 小时或九个月连续的人类演示数据。将这些合成数据与真实数据相结合后，与仅使用真实数据进行训练的情况相比，GR00T N1 的性能能够提升 40%。

利用 GR00T N1 进行开发

您可以按照以下步骤开始使用 GR00T N1：

数据准备：将您的机器人演示数据（视频、状态、动作）三元组格式化为与 Hugging Face LeRobot 格式兼容的 GR00T 数据集。
数据验证：使用验证脚本确保您的数据符合正确的格式。
后训练：使用 PyTorch 脚本，用您的自定义数据集对预训练的 GR00T N1 模型进行微调。
推理：将推理脚本连接到您的机器人控制器，以使用后训练的 GR00T N1 模型在目标硬件或仿真环境中执行动作。
评估：运行评估脚本以获取模型的任务成功率。

性能

GR00T N1 模型通过仿真和真实世界的基准测试进行评估，以检验其在不同的机器人实体和操作任务中的性能。仿真实验采用了三个不同的基准，而真实世界的测试则聚焦于使用 GR-1 人形机器人执行的桌面操作任务。

仿真基准测试

仿真实验使用了三个基准测试：两个来自先前研究的开源基准测试和一个模仿现实世界桌面操作任务的新套件，选择这些基准测试是为了在不同的机器人实体和多种操作任务中评估模型。

表 1. 每个任务使用 100 次演示的仿真基准测试平均成功率

现实基准测试

针对一系列需要精准物体操控、双手协调动作以及具备高级空间感知能力的操作任务，对这些模型进行了评估，这使得模型在复杂的交互操作中能够实现精细的控制。

表 2. 使用 GR-1 人形机器人在现实任务上的平均策略成功率

表 3. 使用 GR-1 人形机器人在真实任务上的平均策略成功率

与扩散策略基线相比，Isaac GR00T N1 模型展示了更平滑和流畅的运动，以及在抓取精度上的显著提高，特别是在使用较小的后训练数据集进行微调时。

进一步的结果表明，GR00T N1 不仅更有效地学习新任务，而且比基线方法更精确地遵循语言指令。

立即开始

您可以访问以下资源开始使用 GR00T N1：

NVIDIA Isaac GR00T-N1-2B 模型可以通过 Hugging Face 获取。

示例数据集和用于微调的 PyTorch 脚本可从 / NVIDIA/Isaac-GR00T 的 GitHub 代码库中获取。

有关该模型的更多信息，请参阅GR00T N1：用于通用人形机器人的开源基础模型白皮书：

https://arxiv.org/abs/2503.14734

该模型结合 NVIDIA Isaac GR00T 合成运动和数据生成管线，以及 Isaac Lab 和 Isaac Sim 等仿真框架，使您能够创建通用人形机器人。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.