网易首页 > 网易号 > 正文 申请入驻

【CMU博士论文】迈向可扩展的开放世界三维感知

0
分享至

来源:专知


状态估计是具身感知的基本组成部分。为了实现安全导航,我们认为机器人(特别是自动驾驶车辆,AV)必须具备检测、跟踪和预测所有目标类别的能力,而非仅限于训练阶段所见类别。在本论文中,我们从三个互补的维度研究开放世界 3D 感知:(i) 用于离线数据整理的长尾识别;(ii) 通过少样本多模态示例实现模型对新概念的快速适配;(iii) 用于快速反应式控制的底层 3D 运动理解。

当代自动驾驶基准测试推动了利用大规模数据训练 3D 检测项的技术发展。值得注意的是,尽管先前的研究在少数常见类别(如行人和汽车)的 3D 目标检测上已近乎达到饱和,但在识别长尾分布中的诸多稀有类别(如障碍物碎片和婴儿推车)时仍然面临挑战。这一局限性对于离线场景挖掘尤为关键,因为识别稀有但关系到安全的关键事件至关重要。研究表明,通过将 RGB 图像与 LiDAR(激光雷达)进行多模态融合,可以显著提升精细化尾部类别的识别准确率;仅凭稀疏的 LiDAR 几何信息难以识别这些精细类别,这表明多模态线索对于长尾 3D 检测至关重要。为此,我们研究了一种简单的后期融合(late-fusion)框架,该框架对独立训练的单模态 LiDAR 和 RGB 检测器进行集成。重要的是,这种构建方式允许我们利用大规模单模态数据集(包含更多稀有类别示例)来训练更强大的 RGB 检测器,这与以往需要配对多模态数据的流行方法不同。虽然此类模型提升了稀有类别的检测精度,但开放世界感知仍需在有限的监督下适配不断演进的新概念。

在互联网规模数据集上训练的视觉语言模型(VLMs)的出现,挑战了开放世界感知的传统定义。我们在这些基座模型(Foundation Models)的背景下重新审视了少样本目标检测(FSOD)。例如,GroundingDINO 等模型的零样本预测在 COCO 数据集上的表现已经优于最先进的少样本检测器(48 AP vs. 33 AP),但其与分布外(OOD)目标域之间仍存在失配(misalignment)。例如,互联网上的卡车(如皮卡)在定义上可能与自动驾驶场景中的卡车(如半挂卡车)存在差异。因此,我们将少样本识别重新定义为:利用少量示例将基座模型与目标概念进行对齐。这些示例可以自然地呈现为多模态形式,结合文本和视觉线索,类似于人类标注者学习标注新类别的过程。具体而言,我们提出了“基座少样本目标检测”(Foundational FSOD)基准协议,旨在评估那些在任意外部数据上预训练、并利用每类 $K$ 个多模态示例进行适配的检测器。结合长尾检测,Foundational FSOD 能够为场景挖掘实现稀有及定义模糊类别的可扩展发现。

最后,除语义识别和离线发现之外,机器人端的开放世界感知系统必须支持快速、反应式的决策制定。在安全关键场景中,我们认为准确的 3D 运动估计对于避障机动比显式分类更为重要。因此,我们研究了 LiDAR 场景流(Scene Flow),该任务旨在估计连续点云之间逐点的 3D 运动。此前的方法虽然达到了厘米级精度,但通常仅在单一传感器上训练,限制了泛化能力。相比之下,我们学习了能够跨越不同且未见过的 LiDAR 传感器进行迁移的运动先验。虽然以往在 LiDAR 分割和检测领域的研究表明,朴素的多数据集训练会降低性能,但我们发现这一传统认知并不适用于运动估计:场景流模型在无需改变架构的情况下,能从跨数据集训练中显著获益。我们的分析表明,底层运动线索对传感器配置的敏感度较低;事实上,在高速运动物体(如高速公路数据集)上训练的模型,即便跨越不同数据集,在高速物体上的表现依然良好。基于这一见解,我们提出了 UniFlow,这是一个简单的前馈模型,通过在具有多种传感器布局的多个大规模场景流数据集上进行联合训练。UniFlow 在 Waymo 和 nuScenes 上创下了新的性能纪录,分别比前序工作提升了 5.1% 和 35.2%,并能泛化至 TruckScenes 和 AEVAScenes 等未见数据集。



https://www.zhuanzhiai.com/vip/6b830645680dff3b8706a453af85e939


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗议长:对美不信任仍未完全化解 敦促美方对等履约

伊朗议长:对美不信任仍未完全化解 敦促美方对等履约

环球网资讯
2026-04-19 10:55:53
四艘中资超级油轮顺利通过美军封锁区引发强烈冲击

四艘中资超级油轮顺利通过美军封锁区引发强烈冲击

阿尔法34号
2026-04-19 07:04:28
赔了夫人又折兵!以为能“毁掉”全红婵,不料自己先被扒个底朝天

赔了夫人又折兵!以为能“毁掉”全红婵,不料自己先被扒个底朝天

乐享人生风雨
2026-04-15 20:41:09
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
要同居了?太阳报:汉密尔顿和卡戴珊被拍到一起购买家居用品

要同居了?太阳报:汉密尔顿和卡戴珊被拍到一起购买家居用品

懂球帝
2026-04-17 14:04:19
军采暂停名单敲响警钟:信创产业合规泡沫亟待破局

军采暂停名单敲响警钟:信创产业合规泡沫亟待破局

生活新鲜市
2026-04-19 10:11:59
40岁李小萌太丰满,穿抹胸裙都兜不住好身材,难怪直男都喜欢她

40岁李小萌太丰满,穿抹胸裙都兜不住好身材,难怪直男都喜欢她

蓓小西
2026-04-19 09:00:52
民进党吴峥狂言“我就是台独又怎样”,被当场怼到哑口无言!

民进党吴峥狂言“我就是台独又怎样”,被当场怼到哑口无言!

荆楚寰宇文枢
2026-04-19 23:40:53
离谱!iPhone 忠诚度飙到 96.4%,创历史新高

离谱!iPhone 忠诚度飙到 96.4%,创历史新高

新浪财经
2026-04-18 18:47:00
赢球挨骂!曼城王牌全场隐身,成球队最大拖油瓶

赢球挨骂!曼城王牌全场隐身,成球队最大拖油瓶

奶盖熊本熊
2026-04-20 01:52:31
Temu的溃败,给跨境电商敲响警钟

Temu的溃败,给跨境电商敲响警钟

止戈见闻
2026-04-18 11:35:21
广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

今日搞笑分享
2026-04-06 17:55:16
美军袭击一艘伊朗商船 迫使其返航

美军袭击一艘伊朗商船 迫使其返航

财联社
2026-04-20 01:22:09
我陪寡妇王姐爬山,她小声说:你做我老公,我什么都给你

我陪寡妇王姐爬山,她小声说:你做我老公,我什么都给你

i书与房
2026-04-18 21:46:27
白酒帝国的黄昏:珍酒李渡和华致酒行全面“塌房”

白酒帝国的黄昏:珍酒李渡和华致酒行全面“塌房”

深水财经社
2026-04-19 22:00:06
博士生过剩,高校装不下了

博士生过剩,高校装不下了

麦可思研究
2026-04-19 17:10:25
“外军飞机就在旁边……”南部沿海一线,飞行员最新披露!

“外军飞机就在旁边……”南部沿海一线,飞行员最新披露!

环球网资讯
2026-04-19 09:53:02
真子公主低调庆祝孩子1周岁生日,离开王室5年未回日本,比哈里狠

真子公主低调庆祝孩子1周岁生日,离开王室5年未回日本,比哈里狠

毒舌小红帽
2026-04-19 21:42:56
世界台联一心促成中国德比?赵心童:我与晖哥比赛会刷新收视纪录

世界台联一心促成中国德比?赵心童:我与晖哥比赛会刷新收视纪录

杨华评论
2026-04-20 00:51:00
5月1日起,10类行为全国严查!谁碰谁倒霉

5月1日起,10类行为全国严查!谁碰谁倒霉

石辰搞笑日常
2026-04-19 01:06:37
2026-04-20 04:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2919462文章数 6775关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

健康
游戏
数码
本地
公开课

干细胞抗衰4大误区,90%的人都中招

如何将ZH-1火力最大化?《战舰世界》15.3版本造船厂加点攻略

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版