网易首页 > 网易号 > 正文 申请入驻

3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!

0
分享至

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室,第一作者为北京大学博士生周啸宇,通讯作者为博士生导师王勇涛副研究员。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV等顶会上有多项重量级成果发表,多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项,和国内外知名高校、科研机构广泛开展合作。

本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果AutoOcc。针对开放自动驾驶场景,该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架,无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线,并展现优秀的通用性和泛化能力,论文已被ICCV 2025 录用为 Highlight。

  • 论文标题:AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
  • 论文链接:
  • https://arxiv.org/abs/2502.04981

论文概述

三维语义占据栅格近年来在自动驾驶与具身智能领域受到了广泛关注。然而,如何从原始传感器数据中低成本地自动生成精确且完整的语义占据标注,仍是一个极具挑战性的问题。

本文提出了 AutoOcc,一个无需人工标注、不依赖预设类别的全自动开放式 3D 语义占据标注框架。AutoOcc 利用视觉-语言模型(VLM)生成的语义注意力图对场景进行描述并动态扩展语义列表,并通过自估计光流模块在时序渲染中识别并处理动态物体。

我们还提出了具有开放语义感知的 3D 高斯表示(VL-GS),能够实现自动驾驶场景的完整三维几何和语义建模,在表征效率、准确性和感知能力上表现突出。

充分的实验表明,AutoOcc 优于现有的三维语义占据栅格自动化标注和预测方法,并在跨数据集评估中展现出卓越的零样本泛化能力。

3D 真值标注困境:从人工成本到闭集感知

语义 3D 占据栅格(Occupancy)作为一种融合几何与语义信息的建模方法,逐渐成为复杂场景理解的重要技术。然而,传统的人工标注管线需要高昂的人力和时间成本,并且在极端环境下存在误标注等问题。当前有监督的占据栅格预测方法高度依赖大规模人工标注的数据集与有监督训练机制,不仅成本高昂,且泛化能力有限,严重制约了其在实际场景中的推广与应用。

现有自动化与半自动化语义占据栅格真值标注方法普遍依赖LiDAR点云及人工预标注的 2D 或 3D 真值。同时,这些方法依赖多阶段后处理,耗时冗长。部分基于自监督的估计方法虽在一定程度上降低了标注依赖,但是难以生成完整且一致的场景语义占据表示,三维一致性难以保障,且缺乏良好的跨场景、跨数据集泛化能力。

图1现有三维语义占据栅格真值标注管线与 AutoOcc 的对比

AutoOcc:视觉中心的 Open-Ended 3D 真值标注管线

为了解决这些关键问题,本文提出了 AutoOcc,一个高效、高质量的 Open-ended 三维语义占据栅格真值生成框架。AutoOcc 基于视觉语言模型和视觉基础模型,从多视图场景重建的视角出发,无需任何人类标注即可超越现有 Occupancy 标注和预测管线,并展现良好的通用性和泛化能力。AutoOcc 的整体架构如下图所示:

图2AutoOcc 三维语义占据栅格真值标注管线

AutoOcc 以环视驾驶场景的图像序列为输入,通过设定的固定文本提示,检索场景中可能存在的所有语义类型的物体。AutoOcc 还支持 LiDAR 点云作为可选输入,用于提供更强的几何先验约束。

表1AutoOcc 与现有占据栅格真值标注管线比较

a、 视觉-语言引导的语义先验

人工标注需要高昂的人力成本和时间开销。相比之下,视觉语言模型(VLMs)提供了高效且低成本的开放语义感知能力。然而,当前的 VLMs 与视觉基础模型(VFMs)仍主要适用于单帧 2D 图像任务,难以有效处理多模态交互与多视图一致性问题,从而导致三维语义歧义,且缺乏对整体三维空间的全局理解。

为此,我们提出一种以语义注意力图为核心的引导框架,并通过场景重建消解语义与几何歧义,从而实现三维语义与几何信息的协同一致表达。具体地,我们采用统一的提示词「找出场景中的所有物体」,并通过 VLM 生成语义注意力图。

我们将这些语义类别对应的注意力栅格化为动态更新的特征图,并构建了一个可动态更新的查询列表,用于整合 VLMs 生成的语义信息。我们接着将语义注意力特征输入预训练分割模型,在感兴趣区域生成多个候选掩码,并进一步融合为实例级候选掩码,选取与语义注意力查询嵌入相似度最高的掩码作为输出结果。

b、 具有语义-几何感知的 VL-GS

尽管视觉-语言模型引导提供了语义先验信息,直接用这些信息生成三维占据真值标注仍面临三大核心挑战:1)多视角间的 2D 语义冲突导致简单的 2D-to-3D 投影出现对齐误差与语义歧义;2)深度估计误差可能导致三维的几何扭曲;3)驾驶场景的高速动态物体干扰语义与几何的时空一致性。

为了克服这些挑战,我们首次从三维重建的视角出发构建语义占据栅格真值标注管线。具体地,我们提出了 VL-GS,这是一种具有语义-几何感知的 3D 表征方法,通过融合基于注意力的先验与可微渲染,实现高效场景重建,并保持语义与几何在三维空间中的一致性。

VL-GS 的核心在于具备语义感知能力的可扩展高斯,通过视觉语言模型生成的语义注意力图提供先验引导,并在多视图重建过程中平滑语义歧义,优化实例的几何细节。我们引入自估计光流模块,结合时间感知的动态高斯,有效捕捉并重建场景中的动态物体。AutoOcc 可以将 VL-GS 按任意体素尺度 splatting 到体素网格中,并依据高斯的占据范围与不透明度进行加权,确定每个体素的语义标签。

图3具有语义-几何感知的 VL-GS

实验结果


我们使用 2 个基准自动驾驶数据集来评估模型的性能。其中,Occ3D-nuScenes 用于与现有占据栅格真值标注方法在特定语义类别上进行性能对比,SemanticKITTI用于验证方法在跨数据集与未知类别上的零样本泛化能力。AutoOcc 在环视驾驶数据集 Occ3D-nuScenes 上与现有最先进的方法比较结果如下表所示:

表2语义占据栅格真值标注性能比较

实验结果表明 AutoOcc 超越了现有单模态和多模态的语义占据栅格预测和真值生成模型。相比于基于点云体素化和语义投影的离线语义占据标注流程,我们的方法展现出更强的鲁棒性和开放式语义标注能力。

在跨数据集与未知类别上的零样本泛化能力评估中,AutoOcc 也取得了显著的泛化性优势,能够实现 Open-Ended 开放词汇三维语义感知。

表3跨数据集零样本泛化性能比较

如下图定性实验结果所示,AutoOcc 能够在时间序列上保持语义和几何的三维一致性,准确捕捉动态物体的运动状态,并在极端天气条件下(如雨天、雾天、黑夜)实现完整的语义占据标注。AutoOcc 的标注结果可以达到甚至超越人工标注真值水平。例如,在因雨水导致反光的路面区域,AutoOcc 可以成功重建并生成正确的语义-几何占据。

图4AutoOcc 定性实验结果比较

图5AutoOcc 与人工标注在极端天气下的比较

我们还进一步评估了 AutoOcc 与现有标注框架的模型效率。结果表明,我们的方法在计算开销上具备显著优势,在提升标注性能的同时降低内存和时间开销。相比之下,基于稠密体素和点云的场景表示存在冗余的计算成本。AutoOcc 实现了效率与灵活性的良好平衡,支持开放式语义占据标注与场景感知重建,且无需依赖人工标注。

表4模型效率评估

结论


本文提出了 AutoOcc,一个以视觉为核心的自动化开放语义三维占据栅格标注管线,融合了视觉语言模型引导的可微 3D 高斯技术。我们的方法提供了多视图重建视角下的数据标注思路。在无需任何人工标注的前提下,AutoOcc 在开放 3D 语义占据栅格真值标注任务中达到当前最先进水平。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
第二次“递出橄榄枝”?立陶宛总理表态:愿将“台湾代表处”改名

第二次“递出橄榄枝”?立陶宛总理表态:愿将“台湾代表处”改名

老好人的愤怒
2026-03-27 00:37:31
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

曝张雪峰倒下30分钟后才被发现,饮食习惯糟糕,一口气吃8根雪糕

古希腊掌管松饼的神
2026-03-25 11:08:46
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
A股“分红王”来了,拟10股派70元

A股“分红王”来了,拟10股派70元

数据宝
2026-03-26 22:16:46
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
金正恩对韩国换了称呼,敏感时刻,平壤迎来一位贵客,铁三角成型

金正恩对韩国换了称呼,敏感时刻,平壤迎来一位贵客,铁三角成型

共工之锚
2026-03-27 01:01:31
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
罗德里或告别曼城,索要40万英镑周薪被拒,皇马有望再迎金球先生

罗德里或告别曼城,索要40万英镑周薪被拒,皇马有望再迎金球先生

夏侯看英超
2026-03-27 00:16:04
涉嫌骗取贷款超6.6亿元 犯罪嫌疑人潜逃境外3年后被押解回国 已查实造成银行损失6699余万元

涉嫌骗取贷款超6.6亿元 犯罪嫌疑人潜逃境外3年后被押解回国 已查实造成银行损失6699余万元

每日经济新闻
2026-03-26 19:38:27
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
伊朗通过中间人回应美15点停火提议,提出明确前提条件

伊朗通过中间人回应美15点停火提议,提出明确前提条件

界面新闻
2026-03-26 22:39:04
19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

我爱英超
2026-03-26 18:48:21
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
油价调整:注意,预计下调120元/吨,油价突破下调红线!

油价调整:注意,预计下调120元/吨,油价突破下调红线!

金投网
2026-03-26 11:16:05
湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

GA环球建筑
2026-03-26 14:10:54
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

爱意随风起呀
2026-03-26 16:51:41
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
2026-03-27 01:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
房产
时尚
亲子
军事航空

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

400万人爱过的女孩,被黄谣网暴180天后

亲子要闻

看看把孩子吓得哈哈哈

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版