网易首页 > 网易号 > 正文 申请入驻

RoboTracer让机器人理解复杂空间指令,开放世界也能精确行动

0
分享至



本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大学计算机学院研究员、助理教授仉尚航。

我们希望具身机器人真正走进真实世界,尤其走进每个人的家里,帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控:物体种类多、摆放杂、随时会变化,这让机器人在三维物理世界中「看懂并做好」变得更难。

想象一下你下班回到家,对家用服务机器人说: 「按从左到右的顺序给每盆花浇水;喷壶要在每朵花上方 1–5 厘米处停住再浇,这样更均匀。」(如下图)



对人来说这很自然,但对机器人来说,难点不在「浇水」本身,而在指令里隐含了大量空间约束:既有定性的(从左到右、在上方),也有定量的(1–5 厘米)。在杂乱的开放世界场景中,让机器人稳定遵循这些约束,哪怕对目前最先进的视觉 - 语言 - 动作模型(VLA)也依然是挑战。

一个直接的突破口是:让视觉 - 语言模型(VLM)生成一条满足这些空间约束的 3D 位置序列 ——空间轨迹(Spatial Trace)。它相当于一座桥梁:既能把「指令在 3D 空间中如何被理解与执行」的过程表达清楚,也能进一步用来指导机器人生成可执行的动作轨迹。但空间轨迹生成本质上非常困难,因为它需要在 3D 场景里进行多步、带真实尺度约束的推理,并且每一步都要同时具备两种关键能力:

  • 3D 空间指代:理解指令中的各种空间关系,并在 3D 场景中准确指代定位相关物体(例如按「从左到右」依次找到每盆花)。
  • 3D 空间度量:理解现实世界的绝对尺度并做计算(例如估计花的物理高度,确定其上方 1–5 厘米对应的具体 3D 位置)。

遗憾的是,现有很多 VLM 工作主要集中在 2D 空间推理或 2D 视觉轨迹生成:一方面往往弱化了轨迹生成最关键的「多步推理」过程,尤其缺少对中间关键对象的显式建模,容易导致结果次优;另一方面输出多停留在 2D 像素坐标,缺乏 3D 指代定位与绝对尺度理解。这也造成了 2D 视觉轨迹与 3D 空间轨迹之间的根本鸿沟。

为了解决这一问题,北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。RoboTracer 通过全参数微调(SFT)强化空间信息的精准理解(空间感知 / 度量 / 指代),并进一步用强化学习微调(RFT)提升推理与泛化能力,最终在开放世界场景中实现可用的 3D 空间轨迹生成



  • 论文链接:https://arxiv.org/pdf/2512.13660
  • 论文标题:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
  • 项目主页:https://zhoues.github.io/RoboTracer/
  • 代码仓库:https://github.com/Zhoues/RoboTracer
  • 评测链接:https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench

下面是真机实拍的机器人浇花过程,包含多步、带真实尺度约束的推理

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率,刷新了当前最先进水平。而在研究者提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上,RFT 训练后的 RoboTracer 更是领先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均准确率,优势显著。

更关键的是,RoboTracer 直接做到「开箱即用」:可以灵活集成到不同类型的机器人上,比如 UR5 机械臂、G1 仿人机器人等,在真实环境中完成复杂、动态、多步骤任务,让机器人真正做到「听得懂、看得清、动得准」。

RoboTracer 是什么?



RoboTracer 是一个三维空间理解与推理能力的多模态大模型,其拥有单独的图片编码器和支持任意多几何输入(绝对深度图,相机内参)的空间编码器。该模型具备较完备的空间感知推理能力,不仅仅可以回答各种空间感知类问答,无论是「哪个物体在左边?」这样的定性问题,还是「这个物体高度是多少?」这样的定量问题,并且还预测当前场景的尺度缩放因子;更厉害的是,它还可以基于 3D 空间指代和 3D 空间度量进行,复杂的组合式推理,最终准确生成精确的空间轨迹(如上图,逐一从左到右确定每一盆花的 3D 位置及其高度)。

RoboTracer 的核心是什么?

为什么相较于以往的方法,RoboTracer 不仅可以精确的感知空间,而且又可以根据多个空间关系组合泛化进行带真实尺度约束的推理呢?其关键因素在于以下几点:

解耦 (u, v, d) 表达增强多任务学习

传统方法直接回归 (x, y, z) 坐标,往往要求模型强行根据单目图片预测复杂的相机几何信息(比如相机内参),导致训练难、精度低。RoboTracer 提出了一种符合具身场景的解法:利用 (u, v, d) 进行解耦表达。这种表示法利用图像像素 (u, v) 和深度 d,结合已知的相机内参,轻松换算真实 3D 坐标。其核心优势在于:

1. 降低学习门槛:不用让 VLM「硬学」复杂的相机几何信息,训练更简单,精度也更高。

2. 数据复用能力更强:(u, v, d) 很容易投影到更低维的任务上 —— 去掉 d 就变成 2D 轨迹;只保留起点 / 终点,又能构造成 2D/3D 的空间指代数据。

通用空间编码器与尺度解码器提升绝对尺度感知

想要精准定位物体、测量距离,模型必须理解「真实世界的尺寸」。但很多只用 RGB 训练的VLM 缺少绝对尺度概念,因此距离 / 尺寸容易估不准。为了解决这一点,研究者加入两个关键模块:

1. 尺度解码器:将

token直接回归成一个数值尺度因子,把「尺度不变的特征」与「真实世界的绝对长度」对应起来。相比分类损失,用回归损失监督更能提升对三维真实尺度的感知。

2. 通用空间编码器:借助前馈式三维度量几何模型提供的强几何先验,显著增强模型的空间与尺度理解。它还能按需融合不同几何信息(如相机内参、位姿、深度):几何信息越多,空间表示越精细。该设计带来两点好处:(1)训练更灵活:通过灵活输入增强,把不同数据集中带尺度标注的信息用起来,提升空间学习效果(2)推理更自适应:无需重新训练或改结构,就能融合当前可用的几何信息。

SFT 增强感知,RFT 搭配过程奖励提升推理

RoboTracer 采用两阶段训练策略,其中 SFT 阶段针对性地提升模型的单步 3D 空间理解 / 空间度量 / 空间指代能力;RFT 阶段不仅关注最终轨迹结果的奖励,还创新性地设计度量敏感过程奖励,这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤(如 3D 指代、3D 度量和尺度预测)的质量。最终,模型增强了多步、带真实尺度约束的推理,实现了对复杂空间约束任务的空间轨迹规划。

提出 TraceSpatial 数据集

教一个多模态大模型从0到1学会生成空间轨迹



为了支持前述的 SFT 和 RFT 训练,研究团队构建了一个大规模、高质量、带真实尺度的数据集 ——TraceSpatial,具有以下几个核心特点:

  • 场景多样:覆盖室内外和桌面环境,包含物体和末端执行器两种分别为中心的空间轨迹,后者包含 3 种不同的单臂 / 双臂机器人构型。
  • 维度丰富:包含大量尺度相关数据(占 48.2%),还附带详细的多步推理过程(最高有 9 步),为复杂空间轨迹生成提供支持。
  • 规模庞大:共包含 450 万个样本、3000 万个问答对,目前最大 3D 空间数据集。
  • 精细标注:每个物体都配有层级式描述,从「花」这类种类类别,到像「左数第一个盆花」这样的精确空间指代,确保在复杂场景中也能清晰用文字表述。同时包含大量绝对尺度的几何信息标注(比如相机内参、深度图)以支持灵活的输入增强。
  • 高质量筛选:数据经过严格筛选,确保标注准确、语义清晰。
  • 易于扩展:支持从多种来源生成空间轨迹数据,包括 2D 图像、3D 扫描数据和机器人操纵视频,具备高度扩展性。

RoboTracer 到底有多厉害

空间理解 / 空间度量 / 空间指代

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率,取得了当前最先进水平,比 Gemini-2.5-Pro 高出 11% 的平均准确率





空间轨迹评测

RFT 训练后的 RoboTracer 在研究者们提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上更是领先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均准确率



下面展示一些 RoboTracer 与其它模型输出结果的可视化样例,不难发现目前的 VLM 都理解空间关系并且生成 2D 轨迹,但是由于绝对深度预测不精确导致生成的空间轨迹往往浮空或者碰撞,而 RoboTracer 可以较为精确地预测,而且更多的几何输入预测结果更精确。



仿真与真机实验

在空间操控的机械臂仿真评测中,RoboTracer 的表现远超现有的视觉 - 语言 - 动作(VLA)系统。不仅在模拟环境中成功率遥遥领先,面对开放世界中需要多步、带真实尺度约束的推理的复杂任务,唯有 RoboTracer 能够完成





更多的实验结果,可视化展示(包括更多的杂乱场景下的真机 Demo 视频的空间轨迹生成结果)详见论文和主页。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
苹果 Max 新品正式开售,3999 元起!

苹果 Max 新品正式开售,3999 元起!

科技堡垒
2026-03-26 11:36:39
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
中国无人装甲车最新画面曝光,模块化武器系统可按需切换

中国无人装甲车最新画面曝光,模块化武器系统可按需切换

IT之家
2026-03-26 22:00:05
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

好消息!电动车、摩托、三轮、四轮车松绑,不禁不罚路权全面放开

复转这些年
2026-03-26 09:38:31
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
2026-03-26 22:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
亲子
家居
军事航空

上新|| 她们说,找到了自己的人生裙子!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

你好,我是馒头,快开门!

家居要闻

傍海而居 静观蝴蝶海

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版