网易首页 > 网易号 > 正文 申请入驻

RoboTracer让机器人理解复杂空间指令,开放世界也能精确行动

0
分享至



本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大学计算机学院研究员、助理教授仉尚航。

我们希望具身机器人真正走进真实世界,尤其走进每个人的家里,帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控:物体种类多、摆放杂、随时会变化,这让机器人在三维物理世界中「看懂并做好」变得更难。

想象一下你下班回到家,对家用服务机器人说: 「按从左到右的顺序给每盆花浇水;喷壶要在每朵花上方 1–5 厘米处停住再浇,这样更均匀。」(如下图)



对人来说这很自然,但对机器人来说,难点不在「浇水」本身,而在指令里隐含了大量空间约束:既有定性的(从左到右、在上方),也有定量的(1–5 厘米)。在杂乱的开放世界场景中,让机器人稳定遵循这些约束,哪怕对目前最先进的视觉 - 语言 - 动作模型(VLA)也依然是挑战。

一个直接的突破口是:让视觉 - 语言模型(VLM)生成一条满足这些空间约束的 3D 位置序列 ——空间轨迹(Spatial Trace)。它相当于一座桥梁:既能把「指令在 3D 空间中如何被理解与执行」的过程表达清楚,也能进一步用来指导机器人生成可执行的动作轨迹。但空间轨迹生成本质上非常困难,因为它需要在 3D 场景里进行多步、带真实尺度约束的推理,并且每一步都要同时具备两种关键能力:

  • 3D 空间指代:理解指令中的各种空间关系,并在 3D 场景中准确指代定位相关物体(例如按「从左到右」依次找到每盆花)。
  • 3D 空间度量:理解现实世界的绝对尺度并做计算(例如估计花的物理高度,确定其上方 1–5 厘米对应的具体 3D 位置)。

遗憾的是,现有很多 VLM 工作主要集中在 2D 空间推理或 2D 视觉轨迹生成:一方面往往弱化了轨迹生成最关键的「多步推理」过程,尤其缺少对中间关键对象的显式建模,容易导致结果次优;另一方面输出多停留在 2D 像素坐标,缺乏 3D 指代定位与绝对尺度理解。这也造成了 2D 视觉轨迹与 3D 空间轨迹之间的根本鸿沟。

为了解决这一问题,北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。RoboTracer 通过全参数微调(SFT)强化空间信息的精准理解(空间感知 / 度量 / 指代),并进一步用强化学习微调(RFT)提升推理与泛化能力,最终在开放世界场景中实现可用的 3D 空间轨迹生成



  • 论文链接:https://arxiv.org/pdf/2512.13660
  • 论文标题:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
  • 项目主页:https://zhoues.github.io/RoboTracer/
  • 代码仓库:https://github.com/Zhoues/RoboTracer
  • 评测链接:https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench

下面是真机实拍的机器人浇花过程,包含多步、带真实尺度约束的推理

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率,刷新了当前最先进水平。而在研究者提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上,RFT 训练后的 RoboTracer 更是领先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均准确率,优势显著。

更关键的是,RoboTracer 直接做到「开箱即用」:可以灵活集成到不同类型的机器人上,比如 UR5 机械臂、G1 仿人机器人等,在真实环境中完成复杂、动态、多步骤任务,让机器人真正做到「听得懂、看得清、动得准」。

RoboTracer 是什么?



RoboTracer 是一个三维空间理解与推理能力的多模态大模型,其拥有单独的图片编码器和支持任意多几何输入(绝对深度图,相机内参)的空间编码器。该模型具备较完备的空间感知推理能力,不仅仅可以回答各种空间感知类问答,无论是「哪个物体在左边?」这样的定性问题,还是「这个物体高度是多少?」这样的定量问题,并且还预测当前场景的尺度缩放因子;更厉害的是,它还可以基于 3D 空间指代和 3D 空间度量进行,复杂的组合式推理,最终准确生成精确的空间轨迹(如上图,逐一从左到右确定每一盆花的 3D 位置及其高度)。

RoboTracer 的核心是什么?

为什么相较于以往的方法,RoboTracer 不仅可以精确的感知空间,而且又可以根据多个空间关系组合泛化进行带真实尺度约束的推理呢?其关键因素在于以下几点:

解耦 (u, v, d) 表达增强多任务学习

传统方法直接回归 (x, y, z) 坐标,往往要求模型强行根据单目图片预测复杂的相机几何信息(比如相机内参),导致训练难、精度低。RoboTracer 提出了一种符合具身场景的解法:利用 (u, v, d) 进行解耦表达。这种表示法利用图像像素 (u, v) 和深度 d,结合已知的相机内参,轻松换算真实 3D 坐标。其核心优势在于:

1. 降低学习门槛:不用让 VLM「硬学」复杂的相机几何信息,训练更简单,精度也更高。

2. 数据复用能力更强:(u, v, d) 很容易投影到更低维的任务上 —— 去掉 d 就变成 2D 轨迹;只保留起点 / 终点,又能构造成 2D/3D 的空间指代数据。

通用空间编码器与尺度解码器提升绝对尺度感知

想要精准定位物体、测量距离,模型必须理解「真实世界的尺寸」。但很多只用 RGB 训练的VLM 缺少绝对尺度概念,因此距离 / 尺寸容易估不准。为了解决这一点,研究者加入两个关键模块:

1. 尺度解码器:将

token直接回归成一个数值尺度因子,把「尺度不变的特征」与「真实世界的绝对长度」对应起来。相比分类损失,用回归损失监督更能提升对三维真实尺度的感知。

2. 通用空间编码器:借助前馈式三维度量几何模型提供的强几何先验,显著增强模型的空间与尺度理解。它还能按需融合不同几何信息(如相机内参、位姿、深度):几何信息越多,空间表示越精细。该设计带来两点好处:(1)训练更灵活:通过灵活输入增强,把不同数据集中带尺度标注的信息用起来,提升空间学习效果(2)推理更自适应:无需重新训练或改结构,就能融合当前可用的几何信息。

SFT 增强感知,RFT 搭配过程奖励提升推理

RoboTracer 采用两阶段训练策略,其中 SFT 阶段针对性地提升模型的单步 3D 空间理解 / 空间度量 / 空间指代能力;RFT 阶段不仅关注最终轨迹结果的奖励,还创新性地设计度量敏感过程奖励,这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤(如 3D 指代、3D 度量和尺度预测)的质量。最终,模型增强了多步、带真实尺度约束的推理,实现了对复杂空间约束任务的空间轨迹规划。

提出 TraceSpatial 数据集

教一个多模态大模型从0到1学会生成空间轨迹



为了支持前述的 SFT 和 RFT 训练,研究团队构建了一个大规模、高质量、带真实尺度的数据集 ——TraceSpatial,具有以下几个核心特点:

  • 场景多样:覆盖室内外和桌面环境,包含物体和末端执行器两种分别为中心的空间轨迹,后者包含 3 种不同的单臂 / 双臂机器人构型。
  • 维度丰富:包含大量尺度相关数据(占 48.2%),还附带详细的多步推理过程(最高有 9 步),为复杂空间轨迹生成提供支持。
  • 规模庞大:共包含 450 万个样本、3000 万个问答对,目前最大 3D 空间数据集。
  • 精细标注:每个物体都配有层级式描述,从「花」这类种类类别,到像「左数第一个盆花」这样的精确空间指代,确保在复杂场景中也能清晰用文字表述。同时包含大量绝对尺度的几何信息标注(比如相机内参、深度图)以支持灵活的输入增强。
  • 高质量筛选:数据经过严格筛选,确保标注准确、语义清晰。
  • 易于扩展:支持从多种来源生成空间轨迹数据,包括 2D 图像、3D 扫描数据和机器人操纵视频,具备高度扩展性。

RoboTracer 到底有多厉害

空间理解 / 空间度量 / 空间指代

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率,取得了当前最先进水平,比 Gemini-2.5-Pro 高出 11% 的平均准确率





空间轨迹评测

RFT 训练后的 RoboTracer 在研究者们提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上更是领先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均准确率



下面展示一些 RoboTracer 与其它模型输出结果的可视化样例,不难发现目前的 VLM 都理解空间关系并且生成 2D 轨迹,但是由于绝对深度预测不精确导致生成的空间轨迹往往浮空或者碰撞,而 RoboTracer 可以较为精确地预测,而且更多的几何输入预测结果更精确。



仿真与真机实验

在空间操控的机械臂仿真评测中,RoboTracer 的表现远超现有的视觉 - 语言 - 动作(VLA)系统。不仅在模拟环境中成功率遥遥领先,面对开放世界中需要多步、带真实尺度约束的推理的复杂任务,唯有 RoboTracer 能够完成





更多的实验结果,可视化展示(包括更多的杂乱场景下的真机 Demo 视频的空间轨迹生成结果)详见论文和主页。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
何猷君婚礼誓词表白奚梦瑶:没有你,我可能早就崩溃,爬不出来了;两人领证近7年于法国举行婚礼,预计9月之后在中国澳门举办答谢礼

何猷君婚礼誓词表白奚梦瑶:没有你,我可能早就崩溃,爬不出来了;两人领证近7年于法国举行婚礼,预计9月之后在中国澳门举办答谢礼

极目新闻
2026-06-03 20:15:39
两桩喜事大快人心!中国狠狠出口恶气,一改往日温和主动亮剑

两桩喜事大快人心!中国狠狠出口恶气,一改往日温和主动亮剑

共工之锚
2026-06-04 13:57:21
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
车圈大地震!放弃华为智驾,赛力斯联手字节造车

车圈大地震!放弃华为智驾,赛力斯联手字节造车

蒋东文
2026-06-02 20:44:55
高市突然强硬!日本宣布攻克稀土磁铁,外媒:稀土牌恐将失效?

高市突然强硬!日本宣布攻克稀土磁铁,外媒:稀土牌恐将失效?

疯狂小菠萝
2026-06-04 15:21:55
释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

释永信老照片曝光!21岁的他推着师傅去医院看病,看起来老实本分

火山詩话
2026-06-02 06:21:21
6月4日,人社部关于2026年上调退休人员养老金的通知公布了吗?

6月4日,人社部关于2026年上调退休人员养老金的通知公布了吗?

社保小达人
2026-06-04 10:58:33
又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

健康科普365
2026-06-01 21:55:03
理想汽车又一车型爆发!

理想汽车又一车型爆发!

电动知家
2026-06-04 11:47:19
九亿少女滥交得病了

九亿少女滥交得病了

毒舌扒姨太
2026-06-04 22:46:58
王守业贪污1.6亿,2005年“双规”后却被放出,他叫嚣:我摆平了

王守业贪污1.6亿,2005年“双规”后却被放出,他叫嚣:我摆平了

帝哥说史
2026-06-02 21:40:03
从井冈山到东北:那个曾经让教员爱不释手的军事鬼才到底有多能打

从井冈山到东北:那个曾经让教员爱不释手的军事鬼才到底有多能打

浪子说
2026-06-04 00:05:03
6月1日起每月发300元,连发4个月!国家强制发,符合条件就能领

6月1日起每月发300元,连发4个月!国家强制发,符合条件就能领

李博世财经
2026-06-04 14:21:32
一篇论文都没有也能当外籍院士 “俄罗斯工程院”是什么货?

一篇论文都没有也能当外籍院士 “俄罗斯工程院”是什么货?

紫京讲谈
2026-06-03 20:04:02
广州最该整治的,不是电鸡,是网约车!

广州最该整治的,不是电鸡,是网约车!

广州PLUS
2026-06-04 18:54:44
曼城主席:我说服过很多次瓜帅留下,但这次我完全没挽留

曼城主席:我说服过很多次瓜帅留下,但这次我完全没挽留

懂球帝
2026-06-04 21:08:53
云南一女生露腰拍照发现蚂蟥钻进皮肤,揪出后伤口持续流血5小时,留下三处伤口;景区:雨季会有蚂蟥,游玩最好穿长袖长袜,避免暴露衣服

云南一女生露腰拍照发现蚂蟥钻进皮肤,揪出后伤口持续流血5小时,留下三处伤口;景区:雨季会有蚂蟥,游玩最好穿长袖长袜,避免暴露衣服

三湘都市报
2026-06-04 13:27:23
原来重复到极致就是天赋!网友:一理通百理明,像在高山上滚雪球

原来重复到极致就是天赋!网友:一理通百理明,像在高山上滚雪球

另子维爱读史
2026-06-04 22:19:16
高校生死倒计时:7年窗口,生源腰斩——不转型,就等死 !

高校生死倒计时:7年窗口,生源腰斩——不转型,就等死 !

霹雳炮
2026-06-03 22:43:05
北京协和专家:2块钱的维生素B12,是失眠的顶尖药,便宜又管用!

北京协和专家:2块钱的维生素B12,是失眠的顶尖药,便宜又管用!

王医生健康讲坛
2026-05-26 21:50:06
2026-06-05 00:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13172文章数 142660关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

挪威发现满载中国瓷器的沉船:曾被撞击 瓷器保存完好

头条要闻

挪威发现满载中国瓷器的沉船:曾被撞击 瓷器保存完好

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

手机
家居
数码
本地
公开课

手机要闻

关海涛:在马来西亚市场,每三台折叠屏中有一台是荣耀折叠屏手机

家居要闻

220平对味儿家 空间情绪宅

数码要闻

乔思伯推出TM-280屏显一体式水冷散热器,499元

本地新闻

用杨柳青年画的方式,打开天津

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版