RoboTracer让机器人理解复杂空间指令，开放世界也能精确行动|轨迹|尺度|模态|sft|真实世界

RoboTracer让机器人理解复杂空间指令，开放世界也能精确行动

2025-12-31 13:52:44　来源: 机器之心Pro

河北举报

分享至

本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申，主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大学计算机学院研究员、助理教授仉尚航。

我们希望具身机器人真正走进真实世界，尤其走进每个人的家里，帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控：物体种类多、摆放杂、随时会变化，这让机器人在三维物理世界中「看懂并做好」变得更难。

想象一下你下班回到家，对家用服务机器人说：「按从左到右的顺序给每盆花浇水；喷壶要在每朵花上方 1–5 厘米处停住再浇，这样更均匀。」（如下图）

对人来说这很自然，但对机器人来说，难点不在「浇水」本身，而在指令里隐含了大量空间约束：既有定性的（从左到右、在上方），也有定量的（1–5 厘米）。在杂乱的开放世界场景中，让机器人稳定遵循这些约束，哪怕对目前最先进的视觉 - 语言 - 动作模型（VLA）也依然是挑战。

一个直接的突破口是：让视觉 - 语言模型（VLM）生成一条满足这些空间约束的 3D 位置序列 ——空间轨迹（Spatial Trace）。它相当于一座桥梁：既能把「指令在 3D 空间中如何被理解与执行」的过程表达清楚，也能进一步用来指导机器人生成可执行的动作轨迹。但空间轨迹生成本质上非常困难，因为它需要在 3D 场景里进行多步、带真实尺度约束的推理，并且每一步都要同时具备两种关键能力：

3D 空间指代：理解指令中的各种空间关系，并在 3D 场景中准确指代定位相关物体（例如按「从左到右」依次找到每盆花）。
3D 空间度量：理解现实世界的绝对尺度并做计算（例如估计花的物理高度，确定其上方 1–5 厘米对应的具体 3D 位置）。

遗憾的是，现有很多 VLM 工作主要集中在 2D 空间推理或 2D 视觉轨迹生成：一方面往往弱化了轨迹生成最关键的「多步推理」过程，尤其缺少对中间关键对象的显式建模，容易导致结果次优；另一方面输出多停留在 2D 像素坐标，缺乏 3D 指代定位与绝对尺度理解。这也造成了 2D 视觉轨迹与 3D 空间轨迹之间的根本鸿沟。

为了解决这一问题，北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。RoboTracer 通过全参数微调（SFT）强化空间信息的精准理解（空间感知 / 度量 / 指代），并进一步用强化学习微调（RFT）提升推理与泛化能力，最终在开放世界场景中实现可用的 3D 空间轨迹生成

论文链接：https://arxiv.org/pdf/2512.13660
论文标题：RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
项目主页：https://zhoues.github.io/RoboTracer/
代码仓库：https://github.com/Zhoues/RoboTracer
评测链接：https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench

下面是真机实拍的机器人浇花过程，包含多步、带真实尺度约束的推理

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率，刷新了当前最先进水平。而在研究者提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上，RFT 训练后的 RoboTracer 更是领先所有其他模型，比 Gemini-2.5-Pro 高出 36% 的平均准确率，优势显著。

更关键的是，RoboTracer 直接做到「开箱即用」：可以灵活集成到不同类型的机器人上，比如 UR5 机械臂、G1 仿人机器人等，在真实环境中完成复杂、动态、多步骤任务，让机器人真正做到「听得懂、看得清、动得准」。

RoboTracer 是什么？

RoboTracer 是一个三维空间理解与推理能力的多模态大模型，其拥有单独的图片编码器和支持任意多几何输入（绝对深度图，相机内参）的空间编码器。该模型具备较完备的空间感知推理能力，不仅仅可以回答各种空间感知类问答，无论是「哪个物体在左边？」这样的定性问题，还是「这个物体高度是多少？」这样的定量问题，并且还预测当前场景的尺度缩放因子；更厉害的是，它还可以基于 3D 空间指代和 3D 空间度量进行，复杂的组合式推理，最终准确生成精确的空间轨迹（如上图，逐一从左到右确定每一盆花的 3D 位置及其高度）。

RoboTracer 的核心是什么？

为什么相较于以往的方法，RoboTracer 不仅可以精确的感知空间，而且又可以根据多个空间关系组合泛化进行带真实尺度约束的推理呢？其关键因素在于以下几点：

解耦 (u, v, d) 表达增强多任务学习

传统方法直接回归 (x, y, z) 坐标，往往要求模型强行根据单目图片预测复杂的相机几何信息（比如相机内参），导致训练难、精度低。RoboTracer 提出了一种符合具身场景的解法：利用 (u, v, d) 进行解耦表达。这种表示法利用图像像素 (u, v) 和深度 d，结合已知的相机内参，轻松换算真实 3D 坐标。其核心优势在于：

1. 降低学习门槛：不用让 VLM「硬学」复杂的相机几何信息，训练更简单，精度也更高。

2. 数据复用能力更强：(u, v, d) 很容易投影到更低维的任务上 —— 去掉 d 就变成 2D 轨迹；只保留起点 / 终点，又能构造成 2D/3D 的空间指代数据。

通用空间编码器与尺度解码器提升绝对尺度感知

想要精准定位物体、测量距离，模型必须理解「真实世界的尺寸」。但很多只用 RGB 训练的VLM 缺少绝对尺度概念，因此距离 / 尺寸容易估不准。为了解决这一点，研究者加入两个关键模块：

1. 尺度解码器：将

token直接回归成一个数值尺度因子，把「尺度不变的特征」与「真实世界的绝对长度」对应起来。相比分类损失，用回归损失监督更能提升对三维真实尺度的感知。

2. 通用空间编码器：借助前馈式三维度量几何模型提供的强几何先验，显著增强模型的空间与尺度理解。它还能按需融合不同几何信息（如相机内参、位姿、深度）：几何信息越多，空间表示越精细。该设计带来两点好处：（1）训练更灵活：通过灵活输入增强，把不同数据集中带尺度标注的信息用起来，提升空间学习效果（2）推理更自适应：无需重新训练或改结构，就能融合当前可用的几何信息。

SFT 增强感知，RFT 搭配过程奖励提升推理

RoboTracer 采用两阶段训练策略，其中 SFT 阶段针对性地提升模型的单步 3D 空间理解 / 空间度量 / 空间指代能力；RFT 阶段不仅关注最终轨迹结果的奖励，还创新性地设计度量敏感过程奖励，这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤（如 3D 指代、3D 度量和尺度预测）的质量。最终，模型增强了多步、带真实尺度约束的推理，实现了对复杂空间约束任务的空间轨迹规划。

提出 TraceSpatial 数据集

教一个多模态大模型从0到1学会生成空间轨迹

为了支持前述的 SFT 和 RFT 训练，研究团队构建了一个大规模、高质量、带真实尺度的数据集 ——TraceSpatial，具有以下几个核心特点：

场景多样：覆盖室内外和桌面环境，包含物体和末端执行器两种分别为中心的空间轨迹，后者包含 3 种不同的单臂 / 双臂机器人构型。
维度丰富：包含大量尺度相关数据（占 48.2%），还附带详细的多步推理过程（最高有 9 步），为复杂空间轨迹生成提供支持。
规模庞大：共包含 450 万个样本、3000 万个问答对，目前最大 3D 空间数据集。
精细标注：每个物体都配有层级式描述，从「花」这类种类类别，到像「左数第一个盆花」这样的精确空间指代，确保在复杂场景中也能清晰用文字表述。同时包含大量绝对尺度的几何信息标注（比如相机内参、深度图）以支持灵活的输入增强。
高质量筛选：数据经过严格筛选，确保标注准确、语义清晰。
易于扩展：支持从多种来源生成空间轨迹数据，包括 2D 图像、3D 扫描数据和机器人操纵视频，具备高度扩展性。

RoboTracer 到底有多厉害

空间理解 / 空间度量 / 空间指代

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率，取得了当前最先进水平，比 Gemini-2.5-Pro 高出 11% 的平均准确率

空间轨迹评测

RFT 训练后的 RoboTracer 在研究者们提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上更是领先所有其他模型，比 Gemini-2.5-Pro 高出 36% 的平均准确率

下面展示一些 RoboTracer 与其它模型输出结果的可视化样例，不难发现目前的 VLM 都理解空间关系并且生成 2D 轨迹，但是由于绝对深度预测不精确导致生成的空间轨迹往往浮空或者碰撞，而 RoboTracer 可以较为精确地预测，而且更多的几何输入预测结果更精确。

仿真与真机实验

在空间操控的机械臂仿真评测中，RoboTracer 的表现远超现有的视觉 - 语言 - 动作（VLA）系统。不仅在模拟环境中成功率遥遥领先，面对开放世界中需要多步、带真实尺度约束的推理的复杂任务，唯有 RoboTracer 能够完成

更多的实验结果，可视化展示（包括更多的杂乱场景下的真机 Demo 视频的空间轨迹生成结果）详见论文和主页。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.