蚂蚁具身研究首次亮相！就解决了机器人「看」透明玻璃这些难题|算法|点云|真实世界

分享至

编辑｜冷猫

众所周知，「具身智能」是连接数字世界和现实世界的桥梁。

真正的「具身智能」，是全面自主决策自主行动的通用机器人，需要建立在对物理世界完全理解的基础上。

空间视觉感知是自动驾驶、机器人操作等真实世界应用的底层能力，核心目标只有一个：让机器能够理解并参与三维环境中的交互

这类机器人大多都以 RGB-D 相机获取真实世界视觉和深度信息，这是行业内综合了成本，精度，以及实用性后普遍的选择。

但物理世界是极为复杂的，要想让这些自主执行任务的机器人卡壳，只需要简单的一块玻璃。

家务机器人撞玻璃的翻车场面

对机器来说，玻璃几乎是世界里的幻影。人类会下意识地把反射、折射进行判断，但机器人并没有这种生活经验。玻璃这类又透明又反光的物体，恰好屏蔽了 RGB-D 相机获取的全部特征，深度和像素点都很难准确识别。

随着自动驾驶和智能机器人离我们的生活越来越近，这个现象已经逐渐成为一个亟需解决的痛点。

令人欣喜的是，我们发现刚刚开源的全新具身智能感知模型 LingBot-Depth，非常针对性的解决了机器人识别真实世界的「玻璃问题」。

LingBot-Depth 是蚂蚁灵波科技开源的高精度空间感知模型，可在不更换硬件的前提下显著提升透明、反光等复杂材质场景的深度输出质量，给机器人一双看清三维空间的眼睛。

LingBot-Depth 在传统深度传感器易失效的复杂场景中，仍可输出具备真实尺度的高精度深度结果

令人振奋的是，从技术报告来看，这一模型在深度精度和像素覆盖率方面均优于业界顶级的深度相机。

项目链接: https://technology.robbyant.com/lingbot-depth
HuggingFace 链接：https://huggingface.co/robbyant/lingbot-depth
技术报告链接：https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

超海量真实场景与崭新的训练范式

简单来讲，RGB-D 相机在复杂、多变的物理环境中，却频频暴露出难以回避的短板。

尤其是在面对透明或高反光材质，例如玻璃、镜面、不锈钢表面等等，深度相机发射的主动光信号往往无法形成稳定、可靠的回波，导致深度测量值缺失或异常，最终在深度图中表现为大面积空洞、噪声密集以及物体边缘的严重断裂。

即便是最先进的商用传感器，在一些挑战性场景中也难以满足获取稠密、像素级对齐的几何信息的需求。

LingBot-Depth 能将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果。

除了透明与反光场景外，在强逆光、极暗光或明暗对比极端的场景下，RGB 图像与深度信息之间的对齐关系更容易失效，深度图的稳定性和一致性显著下降。

更关键的是，感知层面的不可靠会被层层放大，直接影响后续的规划与控制：不完整的深度图会导致机器人误判空间，边缘破碎会影响抓取位姿的计算，而噪声与空洞则可能引发对障碍物距离的系统性偏差。这些问题最终体现为抓取失败、动作犹豫、路径规划异常，甚至是不可接受的碰撞风险，成为制约机器人从「能演示」走向「可长期落地」的关键瓶颈。

双线并行的数据集

过去解决方案很难达到令人满意的效果，核心原因就是数据。巧妇难为无米之炊，RGB-D 数据比仅包含 RGB 的数据要少得多。

更致命的是，现有的大多数 RGB-D 数据集，在设计之初就刻意回避了真实世界中最棘手的成像条件，这类数据过于干净，要么选择纹理丰富、反射少的理想场景；要么干脆依赖渲染引擎，生成近乎完美的深度图。它们几乎不包含真实传感过程中自然出现的深度空洞、回波缺失和异常噪声，彻底回避了真实世界感知的痛点问题。

为了解决这一根本性瓶颈，LingBot-Depth 从数据分布本身入手，系统性地重构了 RGB-D 训练数据的来源与生成方式。其核心思路只有一个：尽可能保留真实世界传感过程自然产生的深度缺失模式。

具体来看，蚂蚁灵波构建了一套双路径并行的数据筛选与生成流程。一条路径基于自建高质量 3D 资产，走合成仿真路线；另一条路径则来自真实世界，通过可扩展的 RGB-D 采集系统，使用奥比中光等工业级深度相机直接采集现实场景数据。

由此，模型训练数据被明确划分为两类子集：来自合成路径的 LingBot Depth-S，以及来自真实采集路径的 LingBot Depth-R

与现有方法直接输出完美深度图不同，LingBot-Depth 在合成流水线中刻意模拟了真实主动式 RGB-D 相机的成像过程。研究团队在 Blender 中同时渲染 RGB 图像、精确深度图以及带有斑点结构的灰度立体图像对，并使用半全局匹配（SGM）算法生成深度结果，从而引入与真实传感器高度相似的采集伪影。立体基线、焦距等关键参数均通过随机采样生成，以覆盖多样化的成像几何条件。

数据生成管线的一条合成数据样本。每个样本包含一幅 RGB 图像、一幅渲染得到的理想深度图、一对带有散斑图案的立体图像、对应的真实视差图，以及通过半全局匹配（SGM）计算得到的模拟传感器深度图，用以逼近真实世界主动式深度相机所产生的成像伪影。

此前一些尝试模拟不完美深度测量的工作，数据规模普遍偏小；而部分依赖机器人仿真器的数据集，则在视觉保真度上仍与真实世界存在明显差距。相比之下，LingBot-Depth 的数据构建方式，更接近真实传感器在复杂物理环境中的「所见即所得」。

蚂蚁灵波团队在真实世界 RGB-D 采集数据在不同场景类别下的分布情况。

在此基础上，除了自行构建的320 万条数据外，蚂蚁灵波还使用了一些开源数据集作为训练数据，最终共构建了1000 万条用于掩码深度建模的训练样本，覆盖了从理想条件到复杂现实环境的多种深度缺失模式。

数据管道整理的 MDM 数据概览。展示了共计 210 万真实采集样本及模拟采集样本，同时展示了 RGB-D 输入和对应的 GT 深度图。

具身智能感知能力的上限，很大程度上不取决于模型结构，而取决于是否敢于直面真实世界的「不完美」。 LingBot-Depth，正是从数据这一最底层的环节，补上了数据集中被忽略的一块短板。

崭新的思路 —— 掩码深度建模

传感器输出的像素与深度信息的不完整是能够进行优化的，将不一致的数据作为噪声剔除，随后通过算法修补，在计算机视觉和深度学习领域已经是历史悠久的研究方向。

而 LingBot-Depth 创新性地提出了一个全新的思路：与其将这些传感器故障视为需要丢弃的噪声，不如将其作为有益的学习信号加以利用。

在这个思路的指引下，掩码深度建模方法（Masked Depth Modeling, MDM）应运而生，构建了 LingBot-Depth 的根基，通过算法对传感器输出进行增强，使机器人获得更完整、更稳定、更可用的深度图。

MDM 预训练方法利用 RGB-D 传感器中自然缺失的深度测量值作为掩码，以学习度量尺度下完整且精确的深度表示。由此产生的 LingBot-Depth 模型可作为强大的空间感知先验，用于下游应用，包括 3D 点追踪和灵巧抓取。

整体框架仍然沿用了近年来视觉领域中行之有效的编码器–解码器范式，但学习目标是：在 RGB-D 输入条件下，预测稠密、像素级对齐的场景深度。

与传统 MAE 方法最大的不同在于，MDM 并不依赖人为构造的随机掩码。相反，它直接利用 RGB-D 相机在真实世界中天然产生的深度缺失区域 —— 也就是那些由透明、反光、弱纹理等复杂成像条件引发的「孔洞」，作为训练时的掩码信号。

这一转变看似简单，却极具挑战性。因为这些自然掩码并非随机分布，而是高度集中在视觉和几何最模糊的位置，其重建难度远高于随机丢弃的 patch。换句话说，模型必须真正理解 RGB 外观与几何结构之间的关系。

为此，MDM 在架构上明确引入了一个关键约束：RGB 信息始终完整可见，深度信息则存在真实缺失。模型被迫在「完整的视觉上下文」和「残缺的几何观测」之间建立联合推理能力。

MDM 框架示意图。对应于传感器缺失测量的深度标记会被掩码，ViT 编码器基于上下文标记（即 RGB 图像）以及剩余未被掩码的深度标记，学习联合 Embedding 表示。在解码阶段，潜在的深度标记被丢弃，解码器仅依赖潜在的上下文标记重建完整的深度图。右下角展示了一幅未被掩码的深度图，作为参考。

面向 RGB-D 的 ViT 设计

在具体实现上，LingBot-Depth 采用了标准的 ViT-Large 作为编码器主干，但对输入建模方式进行了针对 RGB-D 场景的定制。

RGB 图像与深度图通过两套独立的补丁嵌入层进行处理，分别生成在同一空间网格上对齐的 RGB token 和深度 token。这种设计使得 Transformer 的自注意力机制能够在同一空间位置上，同时建模外观语义与几何线索的交互关系。

此外，为避免不同模态在注意力计算中「混淆身份」，模型还显式引入了模态嵌入，与二维空间位置编码共同构成每个 token 的位置信息。这种处理方式，使得 ViT 能够在统一的序列中区分这是「 RGB 信息」还是「深度信息」，同时保留空间一致性。

利用深度缺陷，而不是回避它

在掩码策略上，MDM 并未简单地对所有缺失深度一刀切。考虑到真实 RGB-D 数据中，完全没有深度缺失的样本同样具有重要价值，模型采用了一种基于补丁统计的自适应掩码策略：

对深度值完全缺失的 patch，必然作为掩码；
对同时包含有效与无效测量的 patch，提高其被掩码的概率；
若仍未达到目标掩码比例，再从完全有效的深度 patch 中进行随机补充。

这一策略的核心目标，是在保证训练难度的同时，尽可能保留「不完美但有信息量」的深度观测，让模型学会在真实、不干净的数据分布下进行推理。

这也正是 LingBot-Depth 在方法层面最具启发性的地方，它开创性地尝试让模型理解噪声背后的物理与视觉规律。

领先的精度，落地的性能

LingBot-Depth 让模型在预训练阶段就直面不完整、带噪声的深度世界，会显著增强它对真实三维结构的理解能力，并在多个下游任务中持续受益。

专业对口：深度补全

MDM 的核心思想，是在深度存在大量缺失和噪声的情况下，让模型学会利用 RGB 上下文和残余深度信息去「脑补」完整的几何结构。因此，第一个被检验的任务，自然是深度补全（Depth Completion）。

研究团队将基于 MDM 预训练得到的模型 LingBot-Depth，与多种当前主流方法（如 OMNI-DC、PromptDA、PriorDA）进行了正面对比，并设计了两种极具现实意义的评测协议。

区块级深度缺失：模拟深度相机的「翻车现场」

在第一种协议中，研究团队通过随机抹掉真实深度图中的成块区域，来模拟真实传感器中常见的深度丢失现象；同时，还人为加入高斯噪声和类似 Kinect 的散粒噪声，以还原量化误差、光子噪声等传感器伪影。

结果非常直接：在所有数据集、所有难度级别下，LingBot-Depth 均稳定超越全部对比方法。

深度补全结果。（a）在 iBims、NYUv2 和 DIODE 数据集上，采用四个难度级别的区块级深度掩码进行评估。（b）在 ETH3D 数据集上，使用稀疏 SfM 深度输入进行评估。

尤其是在「极端」条件下，其 RMSE 相比此前表现最好的 PromptDA 仍有显著下降，说明模型并不是靠「记住干净数据」，而是真正学会了在结构严重缺失、测量高度不可靠的情况下恢复合理的三维形状。

稀疏 SfM 深度：更复杂的现实问题

第二种协议进一步拉高了难度：输入不再是密集但有缺失的深度图，而是极度稀疏的 SfM / SLAM 点云。在很多真实应用中，当深度相机不可用时，这是获取几何信息的唯一途径。从定性结果来看，它生成的深度边界更加清晰，结构连续性更强，尤其在遮挡严重或观测稀疏的区域，优势尤为明显。

不止补全：单目深度估计

深度补全之外，蚂蚁灵波研究团队进一步追问一个更本质的问题：如果模型在预训练阶段学会了 RGB 与深度之间的对应关系，这种能力是否能迁移到「只有一张 RGB 图像」的单目深度估计任务中？

为此，他们将 LingBot-Depth 的 RGB 编码器作为预训练主干，替代目前广泛使用的 DINOv2，用于初始化 MoGe 模型。

需要注意的是，在这一设置下，模型在推理阶段完全不再接触深度输入 —— 深度分支和解码器被全部移除，考察的是「几何理解是否已内化进编码器」。

在四个基准数据集上的深度补全方法定性对比。对于每个数据集，依次展示了 RGB 输入、稀疏 / 被掩码的深度输入，以及 OMNI-DC、PromptDA、PriorDA 和 LingBot-Depth 方法的预测结果。可以看到，LingBot-Depth 在深度边界上更加清晰、结构更加完整，尤其是在存在严重遮挡或观测极为稀疏的区域，优势尤为明显。

使用不同预训练主干网络（DINOv2 与 MDM 方法）的 MoGe 单目深度估计结果。在 10 个多样化的基准数据集上，从仿射不变、尺度不变以及视差不变三类评价指标出发，系统评估了深度预测和点云映射的精度表现。

实验结果给出了肯定答案：

在多个测试数据集上，基于 MDM 预训练的编码器稳定地优于 DINOv2 初始化的模型，并且表现出更好的泛化能力。

这说明，这一方法的确是一种能够将三维几何知识压缩进视觉表示中的预训练机制

总体而言，LingBot-Depth 依托真实复杂场景数据进行训练，使模型能够覆盖更多透明、反光和极端光照等长尾情况，因而具备更稳定的泛化能力；同时，其对深度空洞与噪声的有效修复，显著提升了深度图的完整性与边界质量。

落地，已就绪

性能再强，我们当然也不希望它只停留在实验室里。毕竟，「跑分」从来不是终点 —— 只有那些真正走进真实场景、能够稳定支撑工业生产和机器人应用的模型，才是行业值得拥抱的模型。

三维世界的稳定追踪

为了检验模型实际落地的能力，LingBot-Depth 被进一步接入到在线三维追踪任务SpatialTrackerV2中，来看其是否真的能够支撑更复杂、更长链路的几何应用。

相机追踪与场景重建结果。从左到右依次为：RGB 输入图像、原始传感器深度图、模型生成的精细深度图、估计得到的相机轨迹，以及最终重建的场景几何结构。

结果首先体现在相机追踪上。在包含大量玻璃与反光表面的室内场景中，替换为 LingBot-Depth 补全后的深度图后，输出的相机轨迹明显更加平滑、连续且稳定。

动态三维点追踪结果。上：目标物体上的查询点；中：被持续追踪的三维轨迹（按时间以彩虹色编码）；下：对应的深度图结果。

更进一步，动态三维追踪具有十足的可靠性。基于 LingBot-Depth 输出的深度，SpatialTrackerV2 能够恢复出连贯一致的三维运动路径，彩色轨迹在空间中呈现出清晰的结构与稳定的时序关系。

从应用角度来看，LingBot-Depth 已经具备作为基础感知能力直接嵌入现有三维系统的成熟度

真实灵巧手的实战验证

要验证 LingBot-Depth 是否真正具备真实世界可用性，最直接、也最有说服力的方式，便是将其直接接入真实的灵巧抓取系统进行实机验证

验证系统由 Rokae XMate-SR5 机械臂 + X Hand-1 灵巧手和 Orbbec RGB-D 相机组成，深度图先被转为点云，再用于预测抓取姿态。

抓取实验的定性结果。左图：包含机械臂、灵巧手和深度相机的硬件系统示意。右图：四个目标物体的 RGB 图像、原始传感器深度图，以及 LingBot-Depth 方法生成的精细深度图。对于反光物体（钢杯）和透明物体（玻璃杯、收纳盒），原始深度图严重缺失，而 LingBot-Depth 的方法能够生成完整且几何上准确的深度图。

抓取姿态生成与真实世界执行。上图：将预测的抓取姿态以灵巧手形式叠加在由精细深度重建的点云上进行渲染。下图：机器人系统在每个目标物体上成功执行抓取的场景。

结果非常直观：在包含透明、反光物体的真实场景中，使用原始传感器深度时，部分物体（如透明收纳盒）因深度大面积缺失完全无法抓取；而使用 LingBot-Depth 补全后的深度，系统能够恢复合理几何结构，抓取成功率显著提升

灵巧手抓取反光不锈钢杯

灵巧手抓取透明玻璃杯

在真正的灵巧手交互中，借助 LingBot-Depth 的能力抓起反光的不锈钢杯和完全透明的玻璃杯完全不在话下，轻而易举。

此外， LingBot-Depth 在蚂蚁灵波团队的努力下，已经完成了模型的轻量化，并完全做好了落地的应用准备

首先，LingBot-Depth 模型的部署非常灵活：它无需更换现有的 RGB-D 或 3D 相机硬件，就能作为算法增强模块直接嵌入现有系统，大幅降低升级成本和工程门槛。

同时，模型完全开源、可复现，便于研究者和产业团队快速进行验证、二次训练和工程化集成，加速从实验室到真实场景的落地应用。

总结

具身智能具备识别复杂光照环境，甚至精准捕捉透明，反光材质物体的能力，就已标志着通用级具身智能落地的一大障碍的突破。

归根结底，具身智能的发展不仅是算法迭代的赛跑，更是对行业认知和落地能力的考验。

LingBot-Depth 展示了一种思路的升级：面对真实世界的复杂性，在硬件受限的情况下，如何运用算法与数据、模型与物理认知的深度融合，来提升对真实世界的感知能力，是未来通用具身智能的核心方向。

蚂蚁灵波将 LingBot-Depth完全开源，用户可以通过开源仓库获取模型权重、推理代码、评测脚本与使用文档，快速上手实验与验证；如需面向具体相机型号或机器人平台进行工程集成和性能调优，也可以对接官方的合作与技术支持渠道。

开放与可落地的策略，将深刻影响人工智能向现实价值转化的速度和格局。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.