网易首页 > 网易号 > 正文 申请入驻

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】浙江大学与港大团队推出「Prior Depth Anything」,把稀疏的深度传感器数据与AI完整深度图融合,一键补洞、降噪、提分辨率,让手机、车载、AR眼镜都能实时获得精确三维视觉。无需额外训练,就能直接提升VGGT等3D模型的深度质量,零样本刷新多项深度补全、超分、修复纪录。

深度感知,即让机器拥有「三维视觉」,是当今计算机科学和机器人领域的基石。

它赋予了自动驾驶系统判断安全距离的能力,让AR/VR头显能准确感知物理空间,也为工业自动化提供了精准操作的保障。

尽管单目深度估计(MDE)模型取得了重大进展,能够进行完整和详细的深度预测,但预测的深度是相对的,缺乏精确的度量信息。

另一方面,深度测量技术,如运动结构(SfM)或深度传感器,提供了精确但往往不完整和粗略的度量信息。


浙江大学和香港大学的研究团队提出了一个创新框架Prior Depth Anything,融合了深度测量中精确但不完整的度量信息与深度预测中相对但完整的几何结构。


论文链接:https://arxiv.org/pdf/2505.10565

项目链接:https://github.com/SpatialVision/Prior-Depth-Anything

Prior Depth Anything提出逐步整合来自度量测量(准确度量)和相对预测(完整性和精细细节)的补充信息,以生成密集和细粒度的度量深度图。

该方法通过粗到细的流程,先用像素级度量对齐将深度预测与先验融合,再利用条件化单目深度估计模型(conditioned-MDE)优化结果。

模型在7个真实数据集上实现了出色的零样本迁移,可处理深度补全、超分辨率和修复任务,甚至能应对混合先验情况,并支持测试时切换预测模型,提供灵活的精度-效率权衡。

得益于对不同形式深度图的适应能力,Prior Depth Anything还能直接用于优化VGGT的输出,无需任何训练即可提升VGGT输出的精度。


通过对不同模型的输出进行了定性比较,Prior Depth Anything始终优于以前的方法,提供了更丰富的细节、更清晰的边界和更准确的指标

现有的方法主要集中在特定的、有限的先验,限制了它们在现实场景的使用。而Prior Depth Anything则对任意形式的深度先验都有令人印象深刻的鲁棒性。

通过对不同模型的输出进行了定性比较,Prior Depth Anything始终优于以前的方法,提供了更丰富的细节、更清晰的边界和更准确的指标。


Prior Depth Anything

给定一张RGB图像及其对应的度量深度先验,基于先验的单目深度估计以I和D_prior作为输入,旨在输出详细、完整且度量精确的深度图

如前文所述,通过不同测量技术得到的深度先验通常会显示各种形式的不完整性。为了用一个统一框架处理各种先验,该方法将D_prior中有效位置坐标统一表示为,其中N代表有效深度值的个数。


粗度量对齐

如图所示,不同类型的深度先验呈现出不同的缺失模式(例如稀疏点、低分辨率网格或不规则孔洞)。

这种稀疏性和不完整性的差异限制了模型对各种先验的泛化能力。为了解决这个问题,该方法提出预填充缺失区域,将所有先验转换为一个共享的中间域,从而减小它们之间的差距。

然而,以往方法中使用的基于插值的填充保留了像素级度量信息,但忽略了几何结构,导致填充区域出现显著误差。

另一方面,全局对齐通过缩放相对深度预测来匹配先验,它保持了预测的精细结构,但丢失了关键的像素度量细节。

为了解决这些挑战,该方法提出了像素级度量对齐,它在像素层面将几何预测与度量先验对齐,从而同时保留预测的结构和原始的度量信息。

细结构精炼

尽管预填充的粗略密集深度在度量上通常是准确的,但这种无参数方法对深度先验中的噪声很敏感。一个位于模糊边缘上的噪声像素就可能扰乱所有依赖其作为支撑点的填充区域。

为了解决这些误差,该方法进一步隐式利用MDE模型捕捉RGB图像中精确几何结构的能力,学习纠正先验中的噪声并生成细化的深度图。

度量条件

具体来说,该方法将预填充先验D_prior作为额外条件结合到预训练的MDE模型中。在RGB图像的指导下,训练条件化的MDE模型用于纠正D_prior中潜在噪声和错误。

为此,该方法引入一个与RGB输入层平行的条件卷积层,如图2-2所示。通过将条件层初始化为零,模型可以自然地继承预训练MDE模型的能力。

几何条件

除了利用MDE模型从RGB输入中捕捉几何结构的固有能力外,该方法还结合了现有的深度预测作为外部几何条件,以帮助细化粗略的预填充先验。从冻结的MDE模型获得的深度预测D_pred也通过零初始化的卷积层传递到条件MDE模型中。

实验结果

在表 2中定量评估了模型处理具有挑战性的未知混合先验的能力。就绝对性能而言,Prior Depth Anything的所有版本都优于对比基线。更重要的是,其受新模式深度先验的影响较小。


例如,与表 3中仅使用稀疏点的设置相比,添加缺失区域或低分辨率只导致了轻微的性能下降(1.96→2.01,在 NYUv2 上为 3.08)。


相比之下,Omni-DC (2.63→2.86, 3.81) 和 Marigold-DC (2.13→2.26, 3.82) 则表现出更大的下降。这些结果凸显了该方法对于不同先验输入的鲁棒性。

Zero-shot深度补全

表 3展示了使用不同种类和稀疏性水平的稀疏点作为先验时的零样本深度补全结果。

相比于Omni-DC和Marigold-DC(这些模型是专门为深度补全设计的,并依赖于复杂且耗时的结构),Prior Depth Anything凭借更简单、更高效的设计实现了更好的整体性能。

Zero-shot深度超分辨率

表 4展示了深度图超分辨率的结果。


在那些通过下采样创建低分辨率图的基准测试中(例如NYUv2、ScanNet 等),Prior Depth Anything取得了与最先进方法相当的性能。

然而,由于下采样往往会包含来自 GT(真实深度)的过于具体的细节,因此直接复制 GT 中的噪声和模糊边界反而能带来更好的结果。

因此,ARKitScenes和RGB-D-D更具代表性和实用性,因为它们使用低功耗相机来捕获低分辨率深度。

在这两个基准测试中,Prior Depth Anything相比于其他零样本方法取得了领先的性能。

Zero-shot深度修复

表 5评估了在深度图中修复缺失区域的性能。

在具有实用性和挑战性的「Range」设置中,Prior Depth Anything取得了卓越的结果,这对于改进有效工作范围有限的深度传感器具有重要意义。


此外,它在填充方形和物体遮罩方面超越了所有其他替代方法,这凸显了其在 3D 内容生成和编辑方面的潜力。

应用

为了展示Prior Depth Anything在实际应用中的潜力,作者还尝试直接使用其来细化来自最先进的3D重建基础模型VGGT的深度预测。

VGGT提供了深度图和置信度图,选取置信度最高的30%的像素作为深度先验,并应用不同的基于先验的深度优化模型来获得更精细的深度预测。

下表展示了VGGT在单目和多视角深度估计方面的性能,以及不同基于先验的方法作为细化器的有效性。


只有Prior Depth Anything持续地改进了VGGT的预测结果,这主要归功于其适应多样化先验的能力。

这些令人惊喜的结果凸显了Prior Depth Anything广泛的应用潜力。

效果展示

给定RGB图像(第一个)及其相应的深度传感器测量深度图(第二个),Prior Depth Anything可以有效地校正所谓「ground truth」深度图中的噪声,填充空缺区域最后输出详细的、完整的并且度量精确的深度图(第三个)。

这些「超越ground truth」的案例凸显该方法在解决深度测量技术中固有噪声方面的潜力。


bedroom




computer_lab



参考资料:

https://arxiv.org/pdf/2505.10565

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲天然气价格下跌7%

欧洲天然气价格下跌7%

每日经济新闻
2026-03-04 18:26:06
台湾人又破防了!中东撤侨现场:没台胞证,只能眼巴巴看着别人

台湾人又破防了!中东撤侨现场:没台胞证,只能眼巴巴看着别人

离离言几许
2026-03-04 14:43:59
金融美女高管沉迷小鲜肉,威逼利诱让他献身,丈夫抓奸场面太炸裂

金融美女高管沉迷小鲜肉,威逼利诱让他献身,丈夫抓奸场面太炸裂

离离言几许
2026-03-03 15:53:07
迪丽热巴发文报平安:现在我和团队都已安全,很抱歉让大家担心;其IP地址显示为马来西亚,此前被曝滞留迪拜

迪丽热巴发文报平安:现在我和团队都已安全,很抱歉让大家担心;其IP地址显示为马来西亚,此前被曝滞留迪拜

扬子晚报
2026-03-04 20:59:33
伊朗使用集束弹药轰炸特拉维夫!以色列淡水厂被炸!美国被惹怒了

伊朗使用集束弹药轰炸特拉维夫!以色列淡水厂被炸!美国被惹怒了

说历史的老牢
2026-03-04 10:23:48
2026年,第一个“撑不住”的车企出现了,巨亏1780亿!

2026年,第一个“撑不住”的车企出现了,巨亏1780亿!

i王石头
2026-03-04 15:21:36
伊朗抗住了,最强援军已到!特朗普咬牙说了两句话,赖清德慌乱了

伊朗抗住了,最强援军已到!特朗普咬牙说了两句话,赖清德慌乱了

用冷眼洞悉世界
2026-03-05 07:18:18
长在悬崖超900年!浙江父子徒手挖了两天,挖到3.5米长巨型夜交藤

长在悬崖超900年!浙江父子徒手挖了两天,挖到3.5米长巨型夜交藤

雪灵谷
2026-03-03 18:18:48
神回复:“为啥女生的白袜子能一直保持那么白?”哈哈哈原来如此

神回复:“为啥女生的白袜子能一直保持那么白?”哈哈哈原来如此

夜深爱杂谈
2026-03-03 22:35:54
员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

闪电新闻
2026-03-03 17:36:04
担心的事还是发生了!众星被困中东不到24小时,牛鬼神蛇现原形

担心的事还是发生了!众星被困中东不到24小时,牛鬼神蛇现原形

荷兰豆爱健康
2026-03-04 17:11:27
以色列防长:伊朗任何新的最高领袖都将成“清除目标”

以色列防长:伊朗任何新的最高领袖都将成“清除目标”

界面新闻
2026-03-04 15:26:41
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

芳芳历史烩
2026-03-04 22:59:51
特朗普大怒欲断西贸易,话音刚落,西班牙反手一击:立即退出北约

特朗普大怒欲断西贸易,话音刚落,西班牙反手一击:立即退出北约

明天见灌装冰块
2026-03-04 17:30:51
72岁大爷斑块消失,他把血管变干净的三个方法,连医生也赞叹

72岁大爷斑块消失,他把血管变干净的三个方法,连医生也赞叹

荆医生科普
2026-03-03 16:40:19
太惨了!燃油车再迎大降价,最大降幅50%,电车为何不敢接招?

太惨了!燃油车再迎大降价,最大降幅50%,电车为何不敢接招?

小李子体育
2026-03-05 04:32:28
三桶油补跌 大盘见底

三桶油补跌 大盘见底

趋势巡航
2026-03-04 14:55:10
斯科尔斯:卡里克肯定有某些特别之处,因为曼联最近烂透了

斯科尔斯:卡里克肯定有某些特别之处,因为曼联最近烂透了

懂球帝
2026-03-05 07:23:12
沪上消失21年的"顶流鼻祖"回归,排队排到马路对面!上海人一说到这个,可以吵起来↗

沪上消失21年的"顶流鼻祖"回归,排队排到马路对面!上海人一说到这个,可以吵起来↗

上海黄浦
2026-03-04 07:38:27
80后被称为“最惨一代”,负债率高达190%,创下人类历史罕见水平

80后被称为“最惨一代”,负债率高达190%,创下人类历史罕见水平

流苏晚晴
2026-03-03 19:18:27
2026-03-05 07:51:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2356118文章数 5683关注度
往期回顾 全部

科技要闻

4599元起!MacBook Neo发布:搭载A18 Pro

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

游戏
本地
家居
健康
公开课

魔兽世界:时光服要凉?玩家直言活跃角色暴跌,排骨人选择AFK?

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

家居要闻

极简无界 静居自安然

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版