![]()
第一作者为北京通用人工智能研究院(BIGAI)研究员陈以新,合作者来自 BIGAI、北京大学、清华大学、北京邮电大学、北京理工大学,通讯作者为 BIGAI 研究员黄思远。
在具身智能、机器人与增强现实等方向持续推进的今天,3D 场景理解能力正成为空间智能的核心基础设施。然而,一个长期存在却始终未被解决的问题是:
当高质量 3D 标注数据日益稀缺,我们能否用「海量」互联网视频构建高精度、可扩展的真实场景数据,提升 3D 场景理解的多任务表现?
近期,来自北京通用人工智能研究院的研究团队在被 CVPR 2026 高分接收的论文中,系统性地回答了这一问题。
![]()
- 论文链接: https://arxiv.org/abs/2604.01907
- 项目主页:https://sv-pp.github.io/
- 数据链接:https://huggingface.co/datasets/bigai/SceneVersepp
![]()
图 1 SceneVerse++ 总览:从无标注互联网视频出发,经自动化引擎生成的数据可用于提升 3D 检测、空间 VQA 与 VLN 等下游任务的模型表现。
研究团队提出了一整套面向 3D 场景理解的自动化数据引擎,从无标注视频出发,依次完成数据预处理与筛选、结构化建图(SfM)、稠密重建、实例分割、语义描述生成,并进一步派生出空间问答(Spatial VQA)与视觉语言导航(VLN)所需的结构化数据。
基于该数据引擎,团队构建了迄今最大规模的真实室内 3D 场景数据集 SceneVerse++,共 6687 个场景,在场景数量、场景面积、物体种类与物体数量上均显著超越 ScanNet、ARKitScenes 与 MultiScan 等既有真实数据集。
在三项代表性下游任务,3D 目标检测与实例分割、3D 空间视觉问答(VQA)、3D 视觉语言导航(VLN)上,SceneVerse++ 均带来显著的零样本与微调性能提升,并首次系统揭示了自动化数据生成流程中各子模块对下游任务的关键影响。
这项研究不仅交付了一个可直接使用的数据集,更重要的是为「用互联网规模的无标注数据驱动 3D 空间智能」提供了可复现的路线图和未来发展方向。
3D 场景理解的最大瓶颈:真实、高质量且多样的数据
3D 场景理解是具身智能、机器人与增强现实的共同基础,近年来从几何感知(深度估计、相机位姿估计)到语义理解(3D 目标检测、实例分割),再到高层推理(3D 视觉定位、空间推理)都取得了显著进展。
然而与 2D 数据不同,高质量 3D 场景数据的获取与标注代价极高:通常需要 RGB-D 设备或 LiDAR 采集、三维重建、再人工标注场景结构与类别。
自 ScanNet 以来,3D 场景数据的规模并未真正出现量级上的飞跃;后续工作或以精度为代价提升场景数量(如 ARKitScenes),或在有限规模上提升质量(如 ScanNet++)。模型持续迭代,数据却面临瓶颈,成为制约 3D 场景理解发展的核心矛盾。
本文的核心观点是:用精心设计的自动化数据引擎,从无标注视频中恢复与现有数据集同样的 3D 场景表示,并生成可直接用于训练的多任务标注。
SceneVerse++:来自互联网视频的真实 3D 场景数据集
研究团队聚焦于静态室内场景,把互联网上的 Room Tour 视频作为原始素材。相较于传统扫描数据,这类视频具有更强的多样性与规模潜力,同时也带来了更复杂的建模挑战。
整个数据管线由以下模块组成:
- 镜头切分与过滤:使用 TransNetV2 对长视频进行镜头检测,剔除过短片段、纯黑屏、画面噪声、人物主体以及室外场景,保留适合 3D 重建的室内内容;
- 基于视差的关键帧抽取:相较于均匀采样,采用基于视差的关键帧选择,既保证三角化稳定,又控制冗余,对长视频尤其友好;
- 密集像素匹配与全局光束法平差:通过密集像素匹配 + BA 得到稳健的相机位姿与稀疏点云;并针对 300 帧以上的长视频引入了优化的伪轨迹像素与相对图像相似度策略,有效缓解像素匹配模型的假阳性偏差;
- 质量把关:对空间覆盖过小、内容过空或 SfM 结果异常的场景进行过滤。为确保下游任务的数据质量,采用人工复核(每个场景 10 秒以内),代价可控。
最终,从 8217 段互联网视频出发,团队得到6687 个真实室内 3D 场景,规模已超越同类真实数据集,并且由于素材来自长视频,SceneVerse++ 天然包含多楼层、多房间、大范围的复杂场景,这是传统房间级或实验室级扫描数据所不具备的。
![]()
图 2 SceneVerse++ 与 ScanNet、ARKitScenes、MultiScan 的统计对比:在场景数量、场景面积、物体类别数与物体数量四项指标上全面领先。
核心模块一:自动化 3D 重建与实例分割数据引擎
仅有 SfM 稀疏点云并不足以支撑下游任务。团队在 SfM 之上设计了一套同时兼顾质量与效率的稠密重建 + 实例分割管线(如图 3)。
核心目标是解决一个基础问题:如何从普通视频中,自动恢复一个「完整且带标注」的 3D 场景?
![]()
图 3 数据生成管线总览:左上为基于度量深度的稠密重建,左下为 2D→3D 掩码提升与语义标签生成,右侧为最终的重建网格与实例分割结果。
- 稠密重建:以 SfM 稀疏点为先验,通过 Prior Depth Anything 预测稠密度量深度图,随后在 TSDF 表示下完成融合,得到水密网格;并以半径 / 统计滤波去除浮点噪声。相比端到端方法,该流水线在保持稳定几何质量的同时,显著降低了大场景的计算开销。
- 实例分割:先用在每一帧获得 2D 分割掩码,再基于相邻帧视图一致性 + 空间一致性将 2D 掩码聚合到 3D 空间;最后用 DescribeAnything 与 Qwen-VL 自动生成实例的文本描述与 ScanNet 类别标签。这套 2D→3D 提升方案在避免重复实例的同时,摆脱了对每场景优化的重度依赖。
核心模块二:面向空间 VQA 的结构化问答生成
在 3D 场景理解之上,团队希望进一步推动大模型的空间推理能力:这些数据,能不能直接用来训练模型的「空间理解能力」?
基于 SceneVerse++ 的几何 + 语义标注,他们构建了 3D 场景图(scene graph):每个节点表示一个 3D 物体实例,边表示成对空间关系。结合 VLM-3R 的任务模板,自动生成七类空间问答样本,涵盖:
- 物体计数、物体尺寸(Object Counting / Object Size)
- 相对距离、相对方向、绝对距离(Relative Distance / Relative Direction / Absolute Distance)
- 房间尺寸(Room Size)
- 路线规划(Route Planning)
管线输出总计632K 条空间 VQA 样本(391K 多选题 + 241K 填数题),可直接用于 VSI-Bench 格式下的训练与评估。
核心模块三:从真实 Room Tour 视频到可训练的 VLN 数据
视觉语言导航(VLN)任务的目标,是让智能体「看着画面,听着指令,在环境中移动」。 现实问题是:真实视频虽然丰富,却并不天然适合做导航数据。
真实的 Room Tour 视频最接近人类自然探索方式,但其相机轨迹充满冗余旋转、回头看、非前向视角等非导航行为,与 R2R 这类基准中的短路径 - 目标导向轨迹存在显著差异。
![]()
图 4 VLN 数据生成三段式管线:路径预处理 → 动作编码 → 指令生成。
团队据此设计了三阶段流水线:
- 路径预处理:移除冗余局部旋转、切分过长路径为若干子路径,使其适合生成自然语言指令;
- 动作编码:从 SfM 相机位姿投影到地面坐标,离散化为 R2R 风格的前进步长(25/50/75 cm)与旋转角度(15°/30°/45°),并过滤掉「只看不走」的动作;
- 指令生成:以 Chain-of-Thought 方式让 VLM 先描述局部动作,再生成整段路径的自然语言指令;每条轨迹生成三种风格化的指令以增强多样性。
该管线最终在 SceneVerse++ 上产出9631 条轨迹、平均长度 12.8 米、平均 15 步,共 7189 个不同场景下的 21567 条指令,为 VLN 研究提供了大规模、高质量的真实视频轨迹资源。
实验结果:三项任务全面提升,首次系统量化数据引擎的价值
1. 3D 目标检测与实例分割
作者以SpatialLM(基于 MLLM,原始模型在 12000+ 室内合成场景上预训练)作为 3D 目标检测代表,以Mask3D(基于图分割 segment 的实例分割模型)作为 3D 实例分割代表,分别在 ARKitScenes 与 ScanNet 两个真实世界基准上进行零样本与微调评估,所有模型架构保持一致。
(a) 3D 目标检测:如表 1 所示,SceneVerse++ 作为预训练数据在 ScanNet 零样本上取得 F1@30.9 的表现,更关键的是,在 ScanNet 上完成微调后,SceneVerse++ 预训练模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4,较 SpatialLM 原合成预训练 + ScanNet 微调的 38.0 / 28.7 分别提升 +20.6 / +16.7 分,表明互联网真实视频比合成数据更能提供贴合真实世界分布的初始化;同时,仅在 ScanNet 上训练(无预训练)仅得 F1@0.25 = 2.9,表明连接 3D 编码器与 MLLM 的适配器必须依赖大规模预训练。
![]()
表 1 SpatialLM 在 3D 目标检测上的评估:在相同模型结构下,SceneVerse++ 预训练 + ScanNet 微调取得 F1@0.25 = 58.6 / F1@0.5 = 45.4,相对基线大幅领先。
(b) 3D 实例分割:如表 2 所示,单独用 SceneVerse++ 预训练的 Mask3D 难以迁移到 ScanNet(AP25 仅 15.4),但在 ScanNet 上微调后,各项指标均有提升(AP25 36.1 → 38.5,AP 22.8 → 23.6)。这一差异揭示了一个关键现象:Mask3D 严重依赖基于图分割预计算的 segment,对传感器、重建流程的分布漂移高度敏感;相比之下,SpatialLM 这类直接作用于体素 / RGB 的模型表现出更稳健的可扩展性。
![]()
表 2 Mask3D 在 3D 实例分割上的评估:SceneVerse++ 预训练 + ScanNet 微调相比从头训练提升 +2.4/+1.1/+0.8 (AP25/AP50/AP),但仅用 SceneVerse++ 预训练难以零样本迁移,反映了该模型对数据特定偏差的强依赖。
2. 3D 空间视觉问答
3D 空间视觉问答的评估在VSI-Bench上进行,作者在Qwen2.5-VL-3B / 7B两个规模上用 LoRA 微调,训练数据分为四组对照:
(1) 零样本(-);
(2) 仅 SceneVerse++(SV++,202K 样本);
(3) 仅 VLM-3R 的 ScanNet+ScanNet++ 数据(SN, SN++,206K,域内);
(4) 两者合并训练(All)。
同时在全集与 ARKitScenes 子集上分别报告结果,后者对 SV++ 与 SN/SN++ 均为域外,便于比较跨域泛化能力。
![]()
表 3 VSI-Bench 结果(各类任务准确率 %):SV++ 相较零样本在 3B / 7B 上平均提升 +14.9 / +9.8;与 SN,SN++ 合并后在全集与 ARKit 子集上同时登顶。
- 生成数据对于空间推理能力有普遍增强:Qwen2.5-VL-3B 全集平均从 27.9 → 42.8(+14.9),7B 从 36.6 → 46.4(+9.8);在物体计数 Obj.Cnt.(25.2 → 61.8)、物体尺寸 Obj.Size(16.5 → 49.8)、相对距离 Rel.Dist.(37.2 → 49.3)上均有大幅跃升,证明互联网视频生成数据与仿真室内扫描数据在空间推理能力上的提升效果相当。
- 跨域泛化显著:在 ARKitScenes 子集(对 SV++ 与 SN/SN++ 均是域外)上,SV++ 与 SN,SN++ 表现相当甚至略优(3B:48.0 vs. 49.0;7B:49.1 vs. 48.8),说明互联网视频提供的先验对真实场景具有良好泛化性。
- 类别差异:SceneVerse++ 在相对距离(Rel.Dist.),相对方向(Rel.Dir.) 等通用空间知识类别上提升最明显;在物体计数(Obj.Cnt.)、房间尺寸(Room Size) 等依赖域特定分布的类别上弱于 SN/SN++,这与图 2 中场景 / 物体分布差异吻合。
- 训练动态揭示过拟合风险:作者可视化训练过程发现,域内训练和测试(SN,SN++) 在训练后期仍在全集上持续上升,而域外训练和测试则在一个拐点后趋稳,反映出 SN,SN++ 容易过拟合到域内特有线索,这与同期工作关于 VSI-Bench 非视觉捷径的分析一致。
![]()
图 5 训练过程对比:上为在全集上的测试,下为在 ARKitScenes 子集测试,发现域内训练和测试(上)呈现过拟合现象。
3. 3D 视觉语言导航
评估基于标准Room-to-Room (R2R)基准(Matterport3D 环境),所有实验使用相同训练轮次以确保公平。指标包含SR(成功率)、OS(Oracle 成功率)、SPL(路径长度加权成功率)、Dist(距目标距离)、PL(轨迹长度)。
作者进一步对数据管线中的两个核心模块进行消融:TR(轨迹优化,Trajectory Refinement)与 IE(指令增强,Instruction Enrichment)。
![]()
表 4 在 R2R 基准上的 VLN 评估:SceneVerse++ 预训练 + R2R 微调将 SR 从 0.088 提升至 0.228;去除 TR 或 IE 任一模块均导致显著下降。
- 真实视频显著提升导航能力:仅用 SceneVerse++ 预训练就能在 R2R 零样本将 SR 从 0.088 提升至 0.107;由于真实视频包含丰富的自由探索行为,PL 从 5.22 激增至 14.1,反映其轨迹更复杂、更贴近真实人类运动。
- 微调后全面提升:SceneVerse++ 预训练 + R2R 微调达到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65,相较无预训练基线(SR 0.088)绝对提升 +14.0 个百分点(+159%);同时 Dist 下降、SPL 提升,证明大规模真实视频先验显著改善了导航效率与路径合理性。
- 朴素混合不是最优:直接把 R2R 与 SceneVerse++ 混合训练(R2R+SV++)仅得 SR 0.188,低于先 SV++ 预训练、再 R2R 微调的 0.228,说明真实视频与仿真环境存在视觉域差,需要通过预训练 → 微调的两阶段策略弥合。
- 轨迹优化(TR)不可或缺:w/o TR 时,SR 从 0.228 降至 0.177(-5.1%),PL 也偏离 R2R 范式(11.95 vs. 11.64);缺少对原始冗余回头轨迹的清洗,模型难以学到目标导向的导航模式。
- 指令增强(IE)更为关键:w/o IE 下降幅度更大 —— 零样本 SR 仅 0.022,微调后也只有 0.074;缺少 CoT + 多样化指令生成,模型几乎无法把视觉动作与自然语言对齐。
结论:原始互联网视频不能直接用于 VLN 训练,必须配合任务对齐的数据处理(TR + IE);数据质量的提升比单纯堆量更能带来性能收益。
更重要的启示:自动化数据引擎应当被视作一等研究对象
除发布数据集之外,本文还系统性讨论了当前「从互联网视频到 3D 任务数据」管线中的若干共性问题:
- 模型的可扩展性 (scalable) 差异:直接作用于原始模态的模型(3D 体素、RGB-MLLM)在扩大数据规模时表现更稳健;依赖任务特定中间表示(如预计算分割 segments)的模型对分布漂移更敏感。
- 基准偏差与公平评估:现有基准可能包含固有偏差,无法真实反映模型能力。未来评估应更强调零样本测试、减少数据污染,并开发更能衡量 in-the-wild 3D 理解与泛化能力的基准。
- 子模块协同的重要性:SfM、实例分割、语言落地等子模块往往在小规模基准上训练,组合后会产生误差累积。未来子模块的开发和评估不应只看单任务指标,还应把其对自动化数据管线的贡献作为重要的衡量指标。
总结:迈向 3D 空间智能的「数据基建」
本文通过 SceneVerse++ 展示了用精心设计的自动化数据引擎从互联网视频中规模化生成高质量 3D 场景理解数据的可行性。该工作同时覆盖了低层感知(检测 / 分割)、空间推理(VQA)与具身导航(VLN)三大代表性任务,在多个真实基准上都取得了显著且稳健的性能提升。
研究团队进一步指出了未来 3D 空间智能发展的关键方向,包括继续扩大互联网视频的规模与多样性,提升子模块(SfM、重建、分割、grounding)在 in-the-wild 视频上的鲁棒性与协同性,构建更公平的评估体系以衡量模型的真实 3D 理解能力。
在 3D 数据长期稀缺的背景下,利用「无标注视频」将是推动具身智能体、3D VLM 以及下一代空间基础模型的关键路径。
感兴趣的读者可访问项目主页https://sv-pp.github.io/获取更多实验细节与可视化资源。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.