来源:专知
![]()
状态估计是具身感知的基本组成部分。为了实现安全导航,我们认为机器人(特别是自动驾驶车辆,AV)必须具备检测、跟踪和预测所有目标类别的能力,而非仅限于训练阶段所见类别。在本论文中,我们从三个互补的维度研究开放世界 3D 感知:(i) 用于离线数据整理的长尾识别;(ii) 通过少样本多模态示例实现模型对新概念的快速适配;(iii) 用于快速反应式控制的底层 3D 运动理解。
当代自动驾驶基准测试推动了利用大规模数据训练 3D 检测项的技术发展。值得注意的是,尽管先前的研究在少数常见类别(如行人和汽车)的 3D 目标检测上已近乎达到饱和,但在识别长尾分布中的诸多稀有类别(如障碍物碎片和婴儿推车)时仍然面临挑战。这一局限性对于离线场景挖掘尤为关键,因为识别稀有但关系到安全的关键事件至关重要。研究表明,通过将 RGB 图像与 LiDAR(激光雷达)进行多模态融合,可以显著提升精细化尾部类别的识别准确率;仅凭稀疏的 LiDAR 几何信息难以识别这些精细类别,这表明多模态线索对于长尾 3D 检测至关重要。为此,我们研究了一种简单的后期融合(late-fusion)框架,该框架对独立训练的单模态 LiDAR 和 RGB 检测器进行集成。重要的是,这种构建方式允许我们利用大规模单模态数据集(包含更多稀有类别示例)来训练更强大的 RGB 检测器,这与以往需要配对多模态数据的流行方法不同。虽然此类模型提升了稀有类别的检测精度,但开放世界感知仍需在有限的监督下适配不断演进的新概念。
在互联网规模数据集上训练的视觉语言模型(VLMs)的出现,挑战了开放世界感知的传统定义。我们在这些基座模型(Foundation Models)的背景下重新审视了少样本目标检测(FSOD)。例如,GroundingDINO 等模型的零样本预测在 COCO 数据集上的表现已经优于最先进的少样本检测器(48 AP vs. 33 AP),但其与分布外(OOD)目标域之间仍存在失配(misalignment)。例如,互联网上的卡车(如皮卡)在定义上可能与自动驾驶场景中的卡车(如半挂卡车)存在差异。因此,我们将少样本识别重新定义为:利用少量示例将基座模型与目标概念进行对齐。这些示例可以自然地呈现为多模态形式,结合文本和视觉线索,类似于人类标注者学习标注新类别的过程。具体而言,我们提出了“基座少样本目标检测”(Foundational FSOD)基准协议,旨在评估那些在任意外部数据上预训练、并利用每类 $K$ 个多模态示例进行适配的检测器。结合长尾检测,Foundational FSOD 能够为场景挖掘实现稀有及定义模糊类别的可扩展发现。
最后,除语义识别和离线发现之外,机器人端的开放世界感知系统必须支持快速、反应式的决策制定。在安全关键场景中,我们认为准确的 3D 运动估计对于避障机动比显式分类更为重要。因此,我们研究了 LiDAR 场景流(Scene Flow),该任务旨在估计连续点云之间逐点的 3D 运动。此前的方法虽然达到了厘米级精度,但通常仅在单一传感器上训练,限制了泛化能力。相比之下,我们学习了能够跨越不同且未见过的 LiDAR 传感器进行迁移的运动先验。虽然以往在 LiDAR 分割和检测领域的研究表明,朴素的多数据集训练会降低性能,但我们发现这一传统认知并不适用于运动估计:场景流模型在无需改变架构的情况下,能从跨数据集训练中显著获益。我们的分析表明,底层运动线索对传感器配置的敏感度较低;事实上,在高速运动物体(如高速公路数据集)上训练的模型,即便跨越不同数据集,在高速物体上的表现依然良好。基于这一见解,我们提出了 UniFlow,这是一个简单的前馈模型,通过在具有多种传感器布局的多个大规模场景流数据集上进行联合训练。UniFlow 在 Waymo 和 nuScenes 上创下了新的性能纪录,分别比前序工作提升了 5.1% 和 35.2%,并能泛化至 TruckScenes 和 AEVAScenes 等未见数据集。
![]()
![]()
https://www.zhuanzhiai.com/vip/6b830645680dff3b8706a453af85e939
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.