智源具身多模态大脑RoboBrain，解锁机器人长程操作任务能力|邰智源|大模型|robobrain

分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel社区上线，价格实惠，灵活方便，支持在线微调训练模型，及和，并。

随着多模态大语言模型快速发展，其在通用任务中表现出色，但在具身场景长程操作任务上仍存在明显短板，例如难以拆解复杂指令、识别可操作区域及规划行动轨迹。对此，智源团队研发了RoboBrain—专为机器人操作设计的统一具身多模态模型。

RoboBrain基于ShareRobot数据集训练，该数据集包含102个场景、12种机器人本体等多维度信息。通过多阶段训练策略，RoboBrain实现任务规划、可操作区域感知和轨迹预测能力融合，将抽象指令转化为具体动作序列。

在多个具身场景基准测试中，RoboBrain取得领先性能，为机器人执行复杂长程操作任务提供了解决方案，推动通用人工智能在机器人领域的实际应用。目前已上线始智AI-wisemodel开源社区，欢迎体验。

模型地址

https://wisemodel.cn/models/BAAI/RoboBrain

01.

前言

近年来，多模态大语言模型（MLLMs）的快速发展显著推动了通用人工智能（AGI）的研究进程。通过利用互联网上的海量多模态数据并结合自监督学习技术，MLLMs 在视觉感知和理解人类语言指令方面展现出卓越的能力。然而，尽管 MLLMs 在通用任务中表现出色，其在具身场景中的应用仍面临巨大挑战，尤其是在长程操作任务（long-horizon manipulation tasks）中。

图1RoboBrain具备完成长程操作任务的三项核心能力：任务规划能力、可操作区域感知能力和轨迹预测能力。基于构建的ShareRobot数据和通用多模态数据，RoboBrain经过精心设计的多阶段训练，在多个具身场景基准中取得了最先进的性能，实现了从抽象指令理解到具象动作表达的认知跨越。

在具身场景中，长程操作任务是机器人执行复杂任务的核心能力之一。这类任务通常涉及多个步骤和长时间的交互，例如“在厨房中准备一杯茶”或“在仓库中完成物品分拣”。这些任务不仅要求机器人能够理解抽象指令，还需具备将指令转化为具体动作的能力。具体而言，长程操作任务的成功执行依赖于以下三种核心能力：

任务规划能力（Planning）

机器人需要将复杂的抽象指令分解为可执行的子任务，例如“提起茶壶并将水倒入杯子”需要分解为“接近茶壶并提起”、“将茶壶移动到壶嘴对准杯子的位置”以及“倾斜茶壶倒水”等步骤。

可操作区域感知能力（Affordance Perception）

机器人必须准确识别对象的可操作区域，例如茶壶的把手或壶嘴，以确保动作的精确性。

轨迹预测能力（Trajectory Prediction）

机器人需要根据任务指令预测从起点到目标位置的完整路径，例如从当前位置到茶壶把手的移动轨迹。

然而，现有 MLLMs 在这些方面存在显著不足。例如，面对“提起茶壶并将水倒入杯子”的任务，MLLMs 可能无法准确分解任务步骤，或无法识别茶壶的可抓取区域，甚至无法预测从起点到目标位置的完整路径。这些局限性主要源于当前缺乏专门为MLLMs和机器人长程操作任务设计的大规模、细粒度数据集。

为了填补这一空白，智源提出了ShareRobot——一个专门为机器人操作任务设计的高质量异构数据集。ShareRobot 标注了多维信息，包括任务规划、对象可操作区域和末端执行器轨迹，为机器人能力的提升提供了坚实基础。

基于ShareRobot，开发了RoboBrain，这是一个从抽象指令到具象表达的统一具身多模态大脑模型，旨在增强机器人在长程操作任务中的能力。通过精心设计的数据比例、多阶段训练策略以及长视频和高分辨率图像输入，RoboBrain 实现了从抽象任务指令到具象动作表达的认知跨越，展现了其在机器人实际应用中的潜力。

主要贡献总结如下：

1、提出了RoboBrain，一个为机器人操作设计的统一具身多模态大脑模型，实现了任务规划-可操作区域感知-轨迹预测的三维能力融合，通过将抽象指令（如"准备一杯茶"）映射为具象动作序列（如抓取、对准、倾倒与相应的可操作区域与轨迹），增强了其在具身长程操作任务中的能力。

2、精心设计了机器人数据与通用多模态数据的训练数据比例，采用多阶段训练策略，并结合长视频和高分辨率图像输入，使RoboBrain具备了长历史帧记忆和高分辨率图像感知能力，进一步增强了其在场景感知和操作规划中的能力。

3、提出了ShareRobot，一个大规模、高质量、细粒度的异构数据集，包含102个场景、跨12种机器人本体、107种原子任务以及百万级问答对，标注了包括任务规划、对象可操作区域和末端执行器轨迹的多维信息，填补了现有数据的不足。

4、综合实验结果表明，RoboBrain 在多种具身场景基准测试中实现了最先进的性能，展现了其在机器人实际应用中的潜力。

图2ShareRobot数据集的生成过程。数据集标注了多维信息，包括任务规划、对象可操作区域和末端执行器轨迹。任务规划首先通过原子任务进行标注，然后通过构建问答对进行增强。可操作区域和轨迹根据具体指令在图像上进行标注。

02.

ShareRobot：具身大脑的数据基石

为了实现具身大脑从抽象任务指令到具象动作表达的转化能力，智源开发了名为 ShareRobot的一个大规模、高质量、细粒度的异构数据集，专门用于机器人操作任务，旨在提升具身大脑在任务规划、可操作区域感知和轨迹预测方面的能力。

ShareRobot具备了以下的特点：

大规模。ShareRobot 包含1,028,060 个问答对，是当前最大的开源任务规划、可操作区域感知和轨迹预测数据集，能够支持机器人模型从抽象任务指令到具象动作表达的深入理解。

高质量。在从Open-X-Embodiment 数据集中筛选数据时，制定了严格的筛选标准，包括高分辨率、准确的描述、任务执行成功状态、可见的可操作区域以及清晰的运动轨迹。基于这些标准，验证了51,403 个实例，确保了数据的质量。

细粒度。与Open X-Embodiment 数据集仅提供高层任务描述不同，ShareRobot 中的每个数据点都包含与单帧图像关联的详细低层规划指令。这种细粒度标注增强了模型在正确时刻精确执行任务的能力。

多样化。与RoboVQA等数据集有限的场景相比，ShareRobot 包含 102 个场景、12 种机器人形态和 107 种原子任务类型。这种多样性使MLLMs能够从多样化的现实场景中学习，增强其在长程任务规划中的鲁棒性。

易扩展。数据生成流程设计具有高度可扩展性，能够随着新机器人形态、任务类型和环境的发展轻松扩展，确保 ShareRobot 数据集能够支持日益复杂的操作任务。

图3ShareRobot数据集的多样性。数据集包括 (a) 23个数据源，(b) 12种跨本体数据和 (c) 107种原子任务类型。

03.

RoboBrain：具身多模态大模型

智源的目标是让具身多模态大脑模型能够理解抽象指令，同时具备任务规划、输出对象可操作区域和操作轨迹的能力，从而促进模型实现从抽象任务指令到具象动作表达的认知跨越。因此，基于ShareRobot和其他机器人数据，以及大规模的开源多模态数据，采用多阶段训练策略来开发这样一种具身多模态大模型RoboBrain。

3.1 模型架构

RoboBrain由三个模块组成：用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。在推理时，模型首先会感知视觉输入并根据输入的指令，分解为一系列可执行的子任务，然后执行可操作区域感知和轨迹预测。RoboBrain的推理流程如图4所示。

基座模型。利用LLaVA作为RoboBrain的基础架构，主要包括三个模块：视觉编码器（ViT）、投影层（Projector）和大语言模型（LLM），采用SigLIP、MLP和Qwen2.5-7B-Instruct。给定图像或视频作为视觉输入，ViT将其编码为视觉特征，然后通过Projector映射到LLM的语义空间，生成视觉标记序列。最后，LLM基于人类语言指令和视觉标记序列以自回归方式生成可执行的子任务序列。

图4RoboBrain的模型架构。单图、多图和视频结合文本指令输入到模型中，以训练基座大脑模型。此外，通过A-LoRA和T-LoRA对RoboBrain进行微调，以赋予RoboBrain可操作区域感知和轨迹预测的能力。在推理时，模型首先会感知视觉输入并根据输入的指令，分解为一系列可执行的子任务，然后执行可操作区域感知和轨迹预测。

A-LoRA模块。智源将可操作区域建模为2D边界框，表示末端执行器与物体接触的区域。在基座模型的基础上添加了针对可操作区域感知的LoRA模块，以赋予模型基于指令输出2D边界框的能力。

T-LoRA模块。智源将轨迹定义为一系列2D坐标，表示末端执行器或手在整个过程中的运动路径。在基座模型的基础上添加了轨迹预测的LoRA模块，以赋予模型基于指令输出一系列2D坐标点的能力。

图5RoboBrain每个训练阶段的详细配置

3.2 模型训练

智源将训练过程分为两个阶段：Phase1和Phase2。Phase1专注于通用多模态能力的训练，旨在开发一个具备强大多模态数据理解和指令跟随能力的基础多模态大语言模型；Phase2则专注于增强具身大脑的三大核心能力，即任务规划能力（Planning）、可操作区域感知能力（Affordance Perception）和轨迹预测能力（Trajectory Prediction）。

在Phase1中，构建了一个具备通用多模态理解和视觉指令跟随能力的基础模型，这为增强模型在Phase2的三个核心能力奠定了基础。首先，智源利用 LCS-558K 数据集的图像-文本数据训练Projector，以对齐视觉特征和语言模型的语义特征。

接着，使用400万高质量的图像-文本数据对模型进行整体训练，以提升其多模态通用知识理解能力。最后，进一步使用320万单图像数据和160万来自 LLaVA-OneVision的数据进行训练，旨在增强 RoboBrain 的指令跟随能力，并提升其对高分辨率图像和视频的理解能力。

在Phase2中，在Phase1构建的强大基础模型之上，进一步开发了一个更强大的机器人操作规划模型。具体来说，希望RoboBrain能够理解复杂的抽象指令，支持历史帧信息和高分辨率图像的感知，并输出对象可操作区域，同时预测潜在的操作轨迹。

为此，智源收集了130万条机器人数据，以提升模型的机器人操作规划能力。这些数据主要来源于 RoboVQA-800K、MMScan-224K、3RScan-43K、ScanQA-25K、SQA3D-26K以及本文提出的ShareRobot-200K子集。这些数据集包含了大量场景扫描图像数据、长视频数据和高分辨率数据，能够提升模型感知多样化环境的能力。

此外，ShareRobot数据集中细粒度的高质量规划数据进一步增强了RoboBrain的机器人操作规划能力。为了缓解灾难性遗忘问题，从Phase1中筛选了约170万条高质量的图像-文本数据，并与Phase2收集的机器人数据混合进行训练，从而对模型进行整体微调。

随后，智源进一步增强了模型根据指令感知对象可操作区域和预测操作轨迹的能力，利用ShareRobot数据集中标注的可操作区域和轨迹数据，通过引入 LoRA 模块进行训练，以实现模型感知可操作区域和预测轨迹的能力。

通过这一系列精心设计的训练策略，RoboBrain在任务规划、可操作区域感知和轨迹预测方面展现出了强大的能力，为具身大脑的实际应用提供了有力支持。

04.

实验结果

任务规划。选取了RoboVQA、OpenEQA以及从ShareRobot数据集中提取的测试集作为任务规划能力的评估基准，并与当前6个领先的MLLMs进行对比，包括GPT-4V，Claude3，LLaVA1.5，LLaVA-OneVision-7b，Qwen2-VL-7b和RoboMamba。

实验结果表明，RoboBrain在3个基准中均超越了所有基线模型，尤其在OpenEQA和ShareRobot上表现尤为突出，这得益于RoboBrain在机器人理解任务和长视频感知中的优秀能力。在RoboVQA中，RoboBrain的BLEU-4分数超过第二名18.75分，展示了其在复杂长程任务规划中的能力。

可操作区域感知。采用平均精度（AP）指标来评估模型的可操作区域感知性能，该指标综合了不同阈值设置下的精度-召回曲线。在AGD20K可操作区域感知测试集上，RoboBrain的表现显著优于其他模型，分别超越Qwen2-VL和LLaVA-NeXT14.6分和17.3分，验证了其在理解指令和物体物理属性方面的能力。

轨迹预测。为评估真实轨迹与预测轨迹之间的相似性，采用了离散 Fréchet 距离（DFD）、Hausdorff 距离（HD）和均方根误差（RMSE）三项指标进行综合评估。通过对模型不同变体的比较，RoboBrain 在 DFD、HD 和 RMSE 指标上均表现出显著改进，尤其是最终模型的误差较基线模型分别下降了 42.9%、94.2% 和 31.6%，进一步验证了其在轨迹预测任务中的高精度和稳定性。

总体而言，RoboBrain 在任务规划、可操作区域感知和轨迹预测等多个评估任务中均展现了卓越的性能，充分证明了其在机器人操作规划中的强大能力。这些实验结果不仅凸显了 RoboBrain 的技术优势，也为其在具身场景中的广泛应用提供了有力支持，展现了其在未来机器人领域的巨大潜力。

图6RoboBrain在3个具身任务规划基准中均超越了所有基线模型，展示了其在复杂长程任务规划中的能力。

图7RoboBrain在可操作区域预测上的性能。RoboBrain 的表现显著优于其他模型，分别超越 Qwen2-VL 和 LLaVA-NeXT 14.6分和17.3分，验证了其在理解物体物理属性方面的能力。

图8RoboBrain在轨迹预测上的性能。最终模型的误差较基线模型分别下降了 42.9%、94.2% 和 31.6%，进一步验证了其在轨迹预测任务中的高精度和稳定性。

05.

可视化

图9展示了RoboBrain在多轮对话中的推理过程。RoboBrain能够解读人类指令和视觉图像，以生成基于实时图像反馈的行动计划和评估。此外，它还可以预测每一步的轨迹并感知相应的可操作区域。

图9RoboBrain在多轮对话中的推理过程。

图10展示了 RoboBrain 在多个机器人任务中的任务规划结果，包括“浇灌植物（Water plants）”“将锅放入抽屉（Put the pot in the drawer）”以及“将相同颜色的积木分类到不同角落（Cluster blocks of the same color into different corners）”三个任务。RoboBrain成功完成了详细且正确的规划，不仅为每个任务生成了详细的规划步骤，还为每一步提供了相应的解释和推理依据。

从这些案例中可以看出，RoboBrain 能够有效利用环境信息和交互对象的状态——无论是从第一人称还是第三人称视角捕捉的图像——生成针对不同类型机器人操作任务的任务规划。以“将相同颜色的积木分类到不同角落”任务为例，RoboBrain 不仅在第1步和第2步中分析了桌面上每种颜色积木的数量，还在第3步“将积木移动到指定位置形成集群”中提供了详细的子步骤规划。

具体来说，它将四种不同颜色的积木分别规划到“左上角”“右上角”“左下角”和“右下角”四个目标位置。这一任务规划案例充分展示了 RoboBrain 在任务泛化能力的卓越表现，同时也验证了ShareRobot数据集以及多阶段训练策略的有效性。

图11展示了 RoboBrain在可操作区域感知方面的可视化结果。每个子图下方的文字描述了任务指令，而红色边界框则代表 RoboBrain 模型预测的可操作区域。结果表明，RoboBrain 能够基于人类指令和视觉信息，有效地提供合理的可操作区域。

例如，在“用瓶子喝水（drink with the bottle）”的指令下，RoboBrain 能够判断瓶盖处于关闭状态，从而为瓶盖区域提供可操作信息。这充分体现了 RoboBrain 在理解抽象指令方面的强大能力。

图11 RoboBrain在可操作区域感知中的案例

在图12中，展示了RoboBrain基于起点生成的轨迹预测可视化结果。图中，红色到紫色的渐变曲线代表真实轨迹，而绿色到蓝色的渐变曲线则表示 RoboBrain 预测的轨迹。

为清晰起见，图中省略了路径点。这些案例表明，无论末端执行器的轨迹复杂度如何，RoboBrain 都能基于视觉观察和任务指令准确预测 2D 轨迹。这些预测与真实轨迹的结构高度一致，且具备可执行性。

此外，RoboBrain的预测通常能够捕捉轨迹的关键特征，从而生成比真实轨迹更平滑、更高效的路径。这种优化可能源于机器人实际轨迹中存在的固有性质，例如在类似操作场景下可能包含冗余路径点。

通过从大规模具身数据集中学习，并结合大语言模型的推理能力，RoboBrain 能够推断出高效且优化的执行路径。第三行的可视化结果进一步表明，RoboBrain 避免了过拟合问题，能够在不同场景中表现出良好的泛化能力，生成既可行又合理的轨迹。

图12 RoboBrain在轨迹预测中的案例

06.

结论

在本文中，智源针对MLLMs在具身场景中的局限性，特别是长程操作任务的挑战，提出了ShareRobot——一个高质量、细粒度的异构数据集。ShareRobot 涵盖了任务规划、对象可操作区域以及末端执行器轨迹等多维信息的精细标注，为机器人能力的提升提供了坚实基础。

基于这一数据集，开发了RoboBrain，这是一个能实现从抽象指令理解到具象动作表达的统一具身多模态大脑模型。RoboBrain通过融合通用多模态数据和机器人数据，采用多阶段训练策略，并结合长视频和高分辨率图像输入，显著增强了机器人在复杂任务中的感知和规划能力。

RoboBrain 的核心创新在于其实现了任务规划、可操作区域感知和轨迹预测的三维能力融合。通过将抽象指令（如“准备一杯茶”）映射为具象动作序列（如抓取、对准、倾倒及相应的可操作区域与轨迹），RoboBrain 在具身长程操作规划任务中展现了卓越的性能。

此外，智源精心设计了机器人数据与通用多模态数据的训练比例，采用多阶段训练策略，使 RoboBrain 具备了长历史帧记忆和高分辨率图像感知能力，进一步提升了其在场景感知和操作规划中的表现。

大量实验结果表明，RoboBrain 在多种具身场景基准测试中均实现了最先进的性能，充分验证了其在机器人实际应用中的潜力。未来，智源将进一步优化 RoboBrain 的各项能力，提升其作为具身大脑模型的泛化性和鲁棒性，并将其应用于更广泛的真实场景中，为机器人技术的发展提供更强有力的支持。

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.