网易首页 > 网易号 > 正文 申请入驻

RoboTracer让机器人理解复杂空间指令,开放世界也能精确行动

0
分享至



本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大学计算机学院研究员、助理教授仉尚航。

我们希望具身机器人真正走进真实世界,尤其走进每个人的家里,帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控:物体种类多、摆放杂、随时会变化,这让机器人在三维物理世界中「看懂并做好」变得更难。

想象一下你下班回到家,对家用服务机器人说: 「按从左到右的顺序给每盆花浇水;喷壶要在每朵花上方 1–5 厘米处停住再浇,这样更均匀。」(如下图)



对人来说这很自然,但对机器人来说,难点不在「浇水」本身,而在指令里隐含了大量空间约束:既有定性的(从左到右、在上方),也有定量的(1–5 厘米)。在杂乱的开放世界场景中,让机器人稳定遵循这些约束,哪怕对目前最先进的视觉 - 语言 - 动作模型(VLA)也依然是挑战。

一个直接的突破口是:让视觉 - 语言模型(VLM)生成一条满足这些空间约束的 3D 位置序列 ——空间轨迹(Spatial Trace)。它相当于一座桥梁:既能把「指令在 3D 空间中如何被理解与执行」的过程表达清楚,也能进一步用来指导机器人生成可执行的动作轨迹。但空间轨迹生成本质上非常困难,因为它需要在 3D 场景里进行多步、带真实尺度约束的推理,并且每一步都要同时具备两种关键能力:

  • 3D 空间指代:理解指令中的各种空间关系,并在 3D 场景中准确指代定位相关物体(例如按「从左到右」依次找到每盆花)。
  • 3D 空间度量:理解现实世界的绝对尺度并做计算(例如估计花的物理高度,确定其上方 1–5 厘米对应的具体 3D 位置)。

遗憾的是,现有很多 VLM 工作主要集中在 2D 空间推理或 2D 视觉轨迹生成:一方面往往弱化了轨迹生成最关键的「多步推理」过程,尤其缺少对中间关键对象的显式建模,容易导致结果次优;另一方面输出多停留在 2D 像素坐标,缺乏 3D 指代定位与绝对尺度理解。这也造成了 2D 视觉轨迹与 3D 空间轨迹之间的根本鸿沟。

为了解决这一问题,北京航空航天大学、北京智源人工智能研究院、北京大学等机构联合推出了具备 3D 空间理解与推理能力的多模态大模型 ——RoboTracer。RoboTracer 通过全参数微调(SFT)强化空间信息的精准理解(空间感知 / 度量 / 指代),并进一步用强化学习微调(RFT)提升推理与泛化能力,最终在开放世界场景中实现可用的 3D 空间轨迹生成



  • 论文链接:https://arxiv.org/pdf/2512.13660
  • 论文标题:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
  • 项目主页:https://zhoues.github.io/RoboTracer/
  • 代码仓库:https://github.com/Zhoues/RoboTracer
  • 评测链接:https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench

下面是真机实拍的机器人浇花过程,包含多步、带真实尺度约束的推理

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率,刷新了当前最先进水平。而在研究者提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上,RFT 训练后的 RoboTracer 更是领先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均准确率,优势显著。

更关键的是,RoboTracer 直接做到「开箱即用」:可以灵活集成到不同类型的机器人上,比如 UR5 机械臂、G1 仿人机器人等,在真实环境中完成复杂、动态、多步骤任务,让机器人真正做到「听得懂、看得清、动得准」。

RoboTracer 是什么?



RoboTracer 是一个三维空间理解与推理能力的多模态大模型,其拥有单独的图片编码器和支持任意多几何输入(绝对深度图,相机内参)的空间编码器。该模型具备较完备的空间感知推理能力,不仅仅可以回答各种空间感知类问答,无论是「哪个物体在左边?」这样的定性问题,还是「这个物体高度是多少?」这样的定量问题,并且还预测当前场景的尺度缩放因子;更厉害的是,它还可以基于 3D 空间指代和 3D 空间度量进行,复杂的组合式推理,最终准确生成精确的空间轨迹(如上图,逐一从左到右确定每一盆花的 3D 位置及其高度)。

RoboTracer 的核心是什么?

为什么相较于以往的方法,RoboTracer 不仅可以精确的感知空间,而且又可以根据多个空间关系组合泛化进行带真实尺度约束的推理呢?其关键因素在于以下几点:

解耦 (u, v, d) 表达增强多任务学习

传统方法直接回归 (x, y, z) 坐标,往往要求模型强行根据单目图片预测复杂的相机几何信息(比如相机内参),导致训练难、精度低。RoboTracer 提出了一种符合具身场景的解法:利用 (u, v, d) 进行解耦表达。这种表示法利用图像像素 (u, v) 和深度 d,结合已知的相机内参,轻松换算真实 3D 坐标。其核心优势在于:

1. 降低学习门槛:不用让 VLM「硬学」复杂的相机几何信息,训练更简单,精度也更高。

2. 数据复用能力更强:(u, v, d) 很容易投影到更低维的任务上 —— 去掉 d 就变成 2D 轨迹;只保留起点 / 终点,又能构造成 2D/3D 的空间指代数据。

通用空间编码器与尺度解码器提升绝对尺度感知

想要精准定位物体、测量距离,模型必须理解「真实世界的尺寸」。但很多只用 RGB 训练的VLM 缺少绝对尺度概念,因此距离 / 尺寸容易估不准。为了解决这一点,研究者加入两个关键模块:

1. 尺度解码器:将

token直接回归成一个数值尺度因子,把「尺度不变的特征」与「真实世界的绝对长度」对应起来。相比分类损失,用回归损失监督更能提升对三维真实尺度的感知。

2. 通用空间编码器:借助前馈式三维度量几何模型提供的强几何先验,显著增强模型的空间与尺度理解。它还能按需融合不同几何信息(如相机内参、位姿、深度):几何信息越多,空间表示越精细。该设计带来两点好处:(1)训练更灵活:通过灵活输入增强,把不同数据集中带尺度标注的信息用起来,提升空间学习效果(2)推理更自适应:无需重新训练或改结构,就能融合当前可用的几何信息。

SFT 增强感知,RFT 搭配过程奖励提升推理

RoboTracer 采用两阶段训练策略,其中 SFT 阶段针对性地提升模型的单步 3D 空间理解 / 空间度量 / 空间指代能力;RFT 阶段不仅关注最终轨迹结果的奖励,还创新性地设计度量敏感过程奖励,这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤(如 3D 指代、3D 度量和尺度预测)的质量。最终,模型增强了多步、带真实尺度约束的推理,实现了对复杂空间约束任务的空间轨迹规划。

提出 TraceSpatial 数据集

教一个多模态大模型从0到1学会生成空间轨迹



为了支持前述的 SFT 和 RFT 训练,研究团队构建了一个大规模、高质量、带真实尺度的数据集 ——TraceSpatial,具有以下几个核心特点:

  • 场景多样:覆盖室内外和桌面环境,包含物体和末端执行器两种分别为中心的空间轨迹,后者包含 3 种不同的单臂 / 双臂机器人构型。
  • 维度丰富:包含大量尺度相关数据(占 48.2%),还附带详细的多步推理过程(最高有 9 步),为复杂空间轨迹生成提供支持。
  • 规模庞大:共包含 450 万个样本、3000 万个问答对,目前最大 3D 空间数据集。
  • 精细标注:每个物体都配有层级式描述,从「花」这类种类类别,到像「左数第一个盆花」这样的精确空间指代,确保在复杂场景中也能清晰用文字表述。同时包含大量绝对尺度的几何信息标注(比如相机内参、深度图)以支持灵活的输入增强。
  • 高质量筛选:数据经过严格筛选,确保标注准确、语义清晰。
  • 易于扩展:支持从多种来源生成空间轨迹数据,包括 2D 图像、3D 扫描数据和机器人操纵视频,具备高度扩展性。

RoboTracer 到底有多厉害

空间理解 / 空间度量 / 空间指代

SFT 训练下的 RoboTracer 在空间理解 / 空间度量 / 空间指代任务中达到了79.1% 的平均成功率,取得了当前最先进水平,比 Gemini-2.5-Pro 高出 11% 的平均准确率





空间轨迹评测

RFT 训练后的 RoboTracer 在研究者们提出的高难度空间轨迹生成任务评测基准TraceSpatial-Bench上更是领先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均准确率



下面展示一些 RoboTracer 与其它模型输出结果的可视化样例,不难发现目前的 VLM 都理解空间关系并且生成 2D 轨迹,但是由于绝对深度预测不精确导致生成的空间轨迹往往浮空或者碰撞,而 RoboTracer 可以较为精确地预测,而且更多的几何输入预测结果更精确。



仿真与真机实验

在空间操控的机械臂仿真评测中,RoboTracer 的表现远超现有的视觉 - 语言 - 动作(VLA)系统。不仅在模拟环境中成功率遥遥领先,面对开放世界中需要多步、带真实尺度约束的推理的复杂任务,唯有 RoboTracer 能够完成





更多的实验结果,可视化展示(包括更多的杂乱场景下的真机 Demo 视频的空间轨迹生成结果)详见论文和主页。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
北漂女高管辞职当守岛人:27天不花钱,颠覆了对车、房的物质执念,精神自由无价

北漂女高管辞职当守岛人:27天不花钱,颠覆了对车、房的物质执念,精神自由无价

大风新闻
2026-02-14 15:17:08
电影《匿杀》实时票房破5亿

电影《匿杀》实时票房破5亿

界面新闻
2026-02-14 18:43:07
96年考上大学向舅舅借1000被拒,全村连夜凑钱,20年后让乡亲落泪

96年考上大学向舅舅借1000被拒,全村连夜凑钱,20年后让乡亲落泪

浩舞默画
2025-10-04 06:40:03
韩国短道再起内讧!场下又亲又抱秀友情,场上阴招毁掉夺金大热门

韩国短道再起内讧!场下又亲又抱秀友情,场上阴招毁掉夺金大热门

杨华评论
2026-02-16 00:17:28
抗美援朝:志愿军为何没有使用AK-47步枪?

抗美援朝:志愿军为何没有使用AK-47步枪?

范烽舍长
2026-02-15 23:05:15
高人预测:若不出意外,春节以后,国内将迎来5个变化,很现实

高人预测:若不出意外,春节以后,国内将迎来5个变化,很现实

白浅娱乐聊
2026-02-15 20:17:31
高云翔现状:45岁发福不刮胡,定居天津有新家庭,今生活天差地别

高云翔现状:45岁发福不刮胡,定居天津有新家庭,今生活天差地别

查尔菲的笔记
2026-02-14 18:04:28
张碧晨首度晒娃!女儿都这么大了,网友喊话赵丽颖:赶快定娃娃亲

张碧晨首度晒娃!女儿都这么大了,网友喊话赵丽颖:赶快定娃娃亲

八卦王者
2026-02-14 11:48:01
体操冠军傅佳丽跳楼后续:曾被勒索4万礼金,逢年过节都要送礼

体操冠军傅佳丽跳楼后续:曾被勒索4万礼金,逢年过节都要送礼

复转小能手
2026-02-13 20:23:52
588万平方公里!沙俄抢走的中国故土,如今竟成为世界最大荒原

588万平方公里!沙俄抢走的中国故土,如今竟成为世界最大荒原

白色得季节
2025-12-30 21:08:45
我预测,2026年将迎来一场大变革

我预测,2026年将迎来一场大变革

别人都叫我阿腈
2026-02-14 00:41:32
千问宣布再发3天25元免单卡,每人可领10张

千问宣布再发3天25元免单卡,每人可领10张

观察者网
2026-02-14 20:46:18
哈登的骑士之憾:四次递补被弃,联盟“黑手”若隐若现?

哈登的骑士之憾:四次递补被弃,联盟“黑手”若隐若现?

魔血獄苼
2026-02-16 00:47:13
黄金有没有可能突然暴跌,让我们一下子被套牢30年呢?

黄金有没有可能突然暴跌,让我们一下子被套牢30年呢?

流苏晚晴
2026-02-15 18:08:01
AI服务器4倍大牛股被罚1000万,将终止上市

AI服务器4倍大牛股被罚1000万,将终止上市

21世纪经济报道
2026-02-15 20:43:32
为何动物都怕鹅?有鹅的地方没有蛇?鹅的真实面貌超出大家的想象

为何动物都怕鹅?有鹅的地方没有蛇?鹅的真实面貌超出大家的想象

番外行
2026-02-12 17:33:03
惨败!1月轿车销量排名,燃油车霸榜前二十,新能源仅2款车破万

惨败!1月轿车销量排名,燃油车霸榜前二十,新能源仅2款车破万

趣味萌宠的日常
2026-02-13 05:50:23
TVB前小花摆摊卖鸡爪不到一年,宣布放弃带货,选择报名去修行!

TVB前小花摆摊卖鸡爪不到一年,宣布放弃带货,选择报名去修行!

我爱追港剧
2026-02-14 22:54:33
跟王毅谈了一个小时后,鲁比奥做出决定,取消和欧盟领导人的会晤

跟王毅谈了一个小时后,鲁比奥做出决定,取消和欧盟领导人的会晤

东极妙严
2026-02-14 18:04:06
2026-02-16 01:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

时尚
本地
手机
公开课
军事航空

多巴胺失宠了?过年这样穿彩色时髦又减龄

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

荣耀Magic V6真机现身,圆形Deco、红色机身

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版