你让家里的服务机器人给阳台的花浇水,特意嘱咐“从左到右,每个花盆上方1-5厘米处浇”。
结果机器人要么把水浇到花盆外,要么离花太近溅一身泥这场景是不是很熟悉?家庭服务机器人走进生活的最大拦路虎,其实是“看不懂”真实空间里的各种规矩。
![]()
日常生活里的空间要求远比想象中复杂。
就拿浇花来说,“从左到右”是定性的位置约束,“1-5厘米”是定量的距离限制,机器人得同时搞定这两件事才能不出错。
家庭环境本来就乱。
![]()
遥控器可能压在杂志下,拖鞋东一只西一只,机器人面对的不是实验室里整齐的货架,而是随时变化的“随机场景”。
传统模型直接输出(x,y,z)坐标,就像蒙着眼睛扔飞镖,训练难、精度低,更别提理解“上方”“旁边”这些模糊但常用的空间词了。
正是这些痛点,催生出了RoboTracer。
![]()
它的核心任务很明确,生成带空间约束的3D位置序列,也就是“空间轨迹”,让机器人知道每一步该往哪动、动多远。
RoboTracer的“三维智慧”,如何让机器人“看懂”真实空间
RoboTracer的聪明之处,先从“看”开始。
本来想直接让模型学3D坐标,后来发现分开处理更高效,先算图像上的像素位置(u,v),再结合深度信息(d),最后用相机参数换算成真实世界的3D坐标。
![]()
这种解耦设计让训练难度降了不少,精度反而提上去了。
光看懂还不够,还得有“尺度感”。
你说“5厘米”,机器人得知道这到底多长。
RoboTracer里有个“尺度解码器”,专门把抽象的特征转换成具体数值。
比如看到一个杯子,它能估算出高度,再结合指令里的“5厘米”,就知道该离多远操作。
这种对“绝对尺度”的理解,是之前模型最缺的能力。
![]()
训练方法也有讲究。
团队分了两步走,先通过SFT(监督微调)让模型打好基础,学会单步的空间理解,比如“哪个物体在左边”“距离多远”,再用RFT(强化微调)加过程奖励,监督中间每一步的推理质量。
就像教孩子搭积木,不光看结果对不对,还要纠正每一步的摆放位置,这样复杂任务也能稳稳完成。
实际测试里,RoboTracer的表现挺亮眼。
在空间理解相关任务里,SFT训练后平均成功率接近八成,刷新了现有水平,加上RFT后,在专门的TraceSpatial-Bench评测中,准确率比Gemini-2.5-Pro高出36%。
![]()
最直观的是对比视频,别的模型生成的轨迹要么飘在半空,要么撞到花盆,而RoboTracer规划的路线能精准停在花盆上方5厘米,从左到右挨个浇过去,稳得像老手。
更重要的是它“开箱即用”。
不管是UR5机械臂还是G1仿人机器人,都能直接集成这个模型。
在开放世界测试里,只有RoboTracer能完成“先把书放到书架第三层,再把杯子放在书旁边10厘米处”这种多步空间任务。
![]()
家庭服务机器人市场需求一直很大,但技术总差临门一脚。
这次RoboTracer的突破,不是简单提升性能,而是找到了一种让机器人“理解真实空间”的新范式。
未来它不光能浇花、收纳,说不定还能帮老人取药、给孩子整理书包只要涉及空间操作,它都有可能派上用场。
当然,这只是开始。
![]()
模型还需要在更多复杂场景里打磨,比如应对光线变化、透明物体这些难题。
但至少现在,我们看到了服务机器人真正走进家庭的希望。
毕竟,能“看懂”空间的机器人,才算是真正有了“动手能力”。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.