NVIDIA与POSTECH联合提出MV-SAM：利用Pointmap引导实现3D一致的多视图交互式分割|显式|英伟达

NVIDIA与POSTECH联合提出MV-SAM：利用Pointmap引导实现3D一致的多视图交互式分割

2026-04-29 08:25:21　来源: 将门创投

北京举报

分享至

目前，可提示分割（Promptable Segmentation）已经成为视觉交互系统的重要基础功能，用户可以通过点击、框选或文本提示快速提取目标区域。然而，当任务从单帧图像扩展到多视图或视频场景时，模型不仅要分得准，还要在不同视角下保持几何一致性，这对现有 2D 基础模型提出了更高要求。近期，NVIDIA 与 POSTECH 团队联合提出了 MV-SAM 模型，尝试在不依赖 3D 掩码标注的条件下实现多视图一致分割。该方法的核心思路是利用视觉几何模型生成的点图（Pointmaps），将 2D 预训练特征直接提升到 3D 空间，并通过 3D 位置提示完成跨视图传播。MV-SAM 的关键创新在于，它丢弃了像传统方法那样逐场景优化的范式，而是以零样本推理方式实现了更稳健的跨视图分割一致性。

论文标题： MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance 论文链接： https://arxiv.org/abs/2601.17866 项目主页： https://jaesung-choe.github.io/mv_sam/index.html

一、研究背景

在游戏开发、机器人导航、增强现实等应用中，多视图分割需要同时满足交互性和 3D 一致性。尽管 SAM[1]等 2D 方法已经在一些场景中证明了其具有很强的泛化能力，但想直接从 2D 场景迁移到 3D 场景仍存在一些局限性。

（1）缺乏对 3D 空间的感知能力：现有 2D 分割模型与视频分割模型大多依赖时间连续性或显式跟踪机制，当物体发生遮挡、重现或大视角变化时，跨视图一致性容易下降。

（2）2D 提示和 3D 几何解耦：传统 3D 表示通常与图像域分离，2D 点映射到 3D 往往要经过额外投影或渲染流程，计算开销大且易受遮挡误差影响。

（3）逐场景优化成本高：当前不少方法依赖 Neural Fields 或 3D Gaussian Splatting[2] 对每个新场景单独优化，难以满足交互式场景的实时需求。

（4）3D 标注数据稀缺：大规模、精确的多视图 3D 掩码数据难以获取，这使得直接监督训练通用 3D 分割模型不太可行。

围绕上述问题，本文提出的MV-SAM 采用了先几何重建，再特征提升，再统一解码的思路，将 2D 基础模型能力和 3D 空间结构进行有效结合。

二、本文方法

MV-SAM 的目标是在给定输入图像集合和少量种子提示的条件下，预测全场景一致性掩码。方法核心是把每个像素对应到 3D 点图坐标，再通过 3D 位置嵌入把提示信息传播到所有视角，进而实现跨视图的一致分割。

上图展示了 MV-SAM 的整体流程。模型先从输入图像恢复点图，再把图像特征与 3D 位置嵌入融合，最后通过轻量解码器输出每个视角的掩码。这种设计避免了显式 3D 表示空间中的重训练，保留了 2D 预训练特征的泛化优势。

2.1 预处理阶段与点图构建

在预处理阶段，模型先通过视觉几何网络重建点图。在每个视角中，点图的 3D 点与像素位置形成一一对应关系，因此任意的 2D 提示都可以直接映射到 3D 坐标上，无需额外的投射流程。同时，模型会直接生成置信度图，其中表示该点几何重建的可靠程度。

随后，模型采用预训练 SAM2-Video 编码器提取图像嵌入（如上图所示）。借助点图索引，每个特征向量都可以获得对应的 3D 坐标，为后续跨视图提示传播提供几何锚点。

2.2 3D 位置嵌入与提示编码

为了让模型具备 3D 一致性建模能力，MV-SAM 使用统一世界坐标而非逐帧的 2D 位置编码。考虑到不同场景的点图尺度差异，模型先对坐标做 Z-score 标准化。设点集均值和标准差分别为与，具体计算过程如下：

通过上述标准化后的坐标再通过正弦位置嵌入映射到高维表示：

其中为傅里叶基频率。对于用户给定的 3D 种子提示，模型会根据正负属性叠加不同的学习嵌入。设、分别表示正负提示嵌入，最后的位置嵌入计算过程如下：

这样的设计使提示不再局限于单帧像素坐标，而是直接进入可跨视图复用的 3D 语义空间。

2.3 置信度感知与点嵌入聚合

视觉几何模型在纹理缺失和遮挡区域很可能会预测得到一些不稳定的坐标。为此，MV-SAM 引入了一种置信度感知嵌入策略，通过设置阈值来区分高置信点与低置信点，并分别叠加学习向量和。最终的 3D 位置嵌入可以通过下面的公式计算得到：

最终送入解码器的点嵌入由图像特征和由置信度修正后的 3D 位置嵌入相加得到：

这一步的作用是让模型在可靠区域内更多的利用空间信息，在不可靠的区域降低纹理缺失和遮挡的干扰。

2.4 掩码解码器与训练损失

MV-SAM 使用一个轻量的双向 Transformer 作为解码器，不同于 SAM2-Video 中的时序记忆传播机制，这里采用了单视图注意力策略，每一帧的点嵌入作为 Query，所有参考帧的 3D 提示嵌入作为 Key 和 Value：

这种设计天然对帧顺序不敏感，能够在随机多视图输入下保持稳定的特征输出。作者也指出，MV-SAM 与 SAM2-Video 的核心差异不在于是否使用 Transformer，而在于提示传播机制。SAM2-Video 主要依赖记忆模块将历史掩码向后传播，MV-SAM 则直接在统一的 3D 坐标系中传播提示语义，这使得模型在视角大幅变化时更加稳定。在训练阶段，模型仅使用单视图数据集 SA-1B，不依赖多视图的掩码监督。监督目标由 Focal Loss 与 Dice Loss 组成：

在训练阶段，模型会先从真实 2D 掩码中随机采样稀疏或稠密提示，促使模型在不同提示密度下都能保持较好的鲁棒性。

三、实验结果

本文的实验分别在 ScanNet++（室内）、uCo3D（物体中心）与 DL3DV（室外）等数据集上进行，并同时考察视频顺序输入与随机多视图输入两种设置，来验证其跨场景泛化能力。为了保证公平性，对比实验使用完全相同的提示采样策略。在主实验里，每个目标通常采样 10 个正提示和 2 个负提示，正提示来自目标区域内部，负提示来自背景区域。

3.1 与 SAM2-Video 进行对比

作者首先在 ScanNet++、uCo3D 与 DL3DV 三个数据集上进行了对比实验，下表结果显示 MV-SAM 在多视图设置下的平均 mIoU 为 70.5%，而 SAM2-Video 为 65.0%。这说明仅依赖时序连续性的机制在随机视角条件下很容易失效，而本文方法采用的显式 3D 提示传播更稳健。

下图展示的定性结果进一步表明，当物体在不同视图之间出现大位姿变化或遮挡时，SAM2-Video 更容易出现掩码空洞和部件缺失，而 MV-SAM 仍能保持目标完整性，这验证了点图引导的 3D 位置嵌入在遮挡场景中的有效性。

从更加细粒度的指标来看，MV-SAM 在三类数据上都实现了稳定提升。例如在 DL3DV 的多视图设置下，mIoU 从 64.2 提升到 75.0，mAcc 从 78.6 提升到 92.0，提升幅度更加明显。该结果也侧面说明，在视角跨度更大、场景更开放的户外数据中，3D 位置约束更有价值。

3.2 在 NVOS 和 SPIn-NeRF 基准上进行实验

作者还在 NVOS 与 SPIn-NeRF 两个多视图分割基准上进行了实验，实验结果如下表所示，其中 MV-SAM 的 mIoU 分别达到 92.1% 与 92.9%，显著优于 SAM2-Video，并接近需要逐场景长时优化的方法。该结果说明 MV-SAM 在效率和性能之间取得了更好的平衡。

下图进一步展示了点图带来的几何分离优势，即使目标与背景在 2D 颜色上接近，模型仍可借助 3D 空间位置将其区分开来。这也是 MV-SAM 能在零样本条件下接近优化式方法表现的关键原因之一。

3.3 消融实验

本文的消融实验结果如下表所示，引入置信度感知嵌入可带来约 7.7% 的性能提升，说明在几何不确定区域进行可靠性建模非常关键。与此同时，当位置编码从 2D 切换到 3D 后，mIoU 从 18.3% 提升到 52.2%，证明了跨视图任务中几何一致的坐标体系的必要性。实验还指出，直接采用 3D 卷积网络并没有优于2D 强特征 + 3D 的提升方案，这说明在点图尺度不一致场景下，Transformer 结构对非度量几何更具适配性。

消融实验还比较了单视图注意力与全视图注意力。结果显示，在帧数较少时两者性能接近，但随着帧数增大，全视图注意力会因 token 长度增长而明显退化。单视图注意力因 token 结构稳定，扩展到更多视图时更加可靠。

3.4 跨数据泛化与训练数据规模分析

作者进一步比较了不同训练数据的配置对模型泛化性能的影响。实验结果如下表所示，小规模多视图数据集更容易产生域内强域外弱的现象。例如在 uCo3D 数据集训练后在 uCo3D 测试集可达 0.910 mIoU，但迁移到 ScanNet++ 上时性能仅为 0.194。

相比之下，使用大规模单视图 SA-1B 训练的 MV-SAM 在两个目标域都表现稳定。在 ScanNet++ 上达到 0.489 mIoU，接近域内训练的 0.510，在 uCo3D 上达到 0.877，也接近域内训练的 0.910。这一结果表明，数据规模和数据的多样性在该任务中更加关键。

四、总结

本文介绍的 MV-SAM 给出了一个高效的多视图可提示分割方案。MV-SAM通过点图建立了从 2D 像素到 3D 坐标的一一对应关系，再结合 3D 位置嵌入和置信度感知机制，实现了跨视图一致的掩码传播。与依赖逐场景优化的方法相比，MV-SAM 在推理效率上更具工程可用性，在多个基准上也展现出了稳定的竞争力。整体来看，MV-SAM 证明了在2D 基础模型上加入一些几何引导策略在多视图分割领域的技术可行性。本文作者同时指出，该方法仍依赖底层点图质量。在深度对齐不准、纹理极弱或结构噪声较重的场景中，几何误差仍然可能传递到最终的分割结果上。未来可以考虑结合更稳定的几何估计模型和长序列注意力机制来进一步提升模型性能和稳定性。

参考

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In Proceedings of the IEEE/CVF international conference on computer vision, pages 4015–4026, 2023.

[2] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, and George Drettakis. 3d gaussian splatting for real-time radiance field rendering. ACM Trans. Graph., 42(4):139–1, 2023.

Illustration generated by AI.

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.