网易首页 > 网易号 > 正文 申请入驻

视频深度估计新SOTA来了,163倍数据效率解锁生成式先验

0
分享至



视频扩散模型(拿来做深度估计)简直是降维打击(overqualified)!

近日,一项刚在 arXiv 亮相的视频深度估计新工作,在推特(X)上收获了开源社区的不少关注。知名 AI 资讯博主AK (@_akhaliq)进行了跟进转发;也有同行博主探讨了视频扩散模型在深度估计任务中的强大潜力,并留意到了该工作在 ScanNet 上 5.5 AbsRel 的准确度、极高的数据效率以及对超长视频时序闪烁的改善。

面对社区的热情反馈,研究团队保持了学者的严谨,并表示:这其实是对预训练生成式先验一次顺理成章的探索。为了方便大家亲自验证,不仅推理管线,团队已将整套训练代码毫无保留地完全开源,希望能为社区提供一个扎实、可复现的基线 。



这项工作正是由香港科技大学(广州)陈颖聪教授领衔的 EnVision Research 实验室,联合加州大学圣地亚哥分校、普林斯顿大学等顶尖机构,正式推出了全新的视频深度估计框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。论文共同第一作者为来自港科大(广州)的张鸿飞、陈浩东、廖晨非与何晶。

在3D场景理解与自动驾驶等应用中,视频深度估计一直是不可或缺的核心基石。然而,如何在动态视频中兼顾极致的几何细节与长时序的稳定性,始终是困扰整个计算机视觉界的难题。熟悉深度估计的读者可能知道,EnVision Research 此前在图像深度估计领域推出的代表作Lotus备受社区瞩目(目前在 GitHub 上已揽获近 800 Stars),而此次发布的 DVD 模型,正是将这种确定性适配在视频深度估计领域的强势拓展与跨越式升维。

DVD 是首个将预训练视频扩散模型(Video Diffusion Models)确定性地适配为“单次前向回归器”(Single-pass depth regressors)的创新框架。它彻底摆脱了传统生成式模型由于随机采样带来的几何幻觉,同时避免了判别式模型为了消除语义歧义而对海量标注数据的贪婪渴求。

实验证明,DVD 仅使用了 36.7 万帧的特定任务训练数据——对比 Video Depth Anything (VDA) 高达 6000 万帧的数据量,数据效率提升了惊人的 163 倍!进一步地说,DVD 成功解锁了视频基础模型中蕴含的深厚几何先验,在零样本(Zero-shot)性能上全面超越了现有 SOTA。



  • 论文链接:https://arxiv.org/abs/2603.12250
  • 项目主页:https://dvd-project.github.io/
  • 代码链接:https://github.com/EnVision-Research/DVD

1 背景介绍

在 DVD 诞生之前,主流的视频深度估计方法主要陷入了两种范式的固有缺陷中,形成了一个基础性的“权衡悖论”(Trade-off):

  • 生成式模型(Generative Models,如 DepthCrafter):这类方法利用预训练的视频基础模型来捕获丰富的时空先验,零样本泛化能力强 。但是,由于它们依赖随机采样机制,会引入时序上的不确定性。这种生成性质往往优先考虑“视觉合理性”而非“几何准确性”,从而导致严重的几何幻觉(Geometric Hallucinations),无法在时间上保持精确且全局一致的几何结构。
  • 判别式模型(Discriminative Models,如 Video Depth Anything, VDA):这类基于 ViT 的模型具有极高的推理效率和确定性输出。然而,由于它们完全依赖密集的注释来学习几何,常常会陷入语义歧义(Semantic Ambiguity),例如将运动模糊或无纹理区域误判为结构边界。为了克服这种歧义,它们只能依赖极其庞大且多样化的下游标注数据进行暴力堆砌。

研究团队敏锐地提出一个核心问题:能否设计一种视频深度估计框架,既能有效平衡判别式模型的结构稳定性与生成式模型的丰富时空先验,又能保持高效和可扩展性?

这就是 DVD 提出的初衷。



2 DVD 方法

为了打破上述僵局,DVD 摒弃了传统的随机生成范式,开创性地实现了预训练视频扩散模型的确定性适配,直接学习从 RGB 潜变量到深度潜变量的映射。



然而,将确定性适配从静态图像扩展到动态视频面临着独特的挑战:朴素的回归不仅容易导致模糊,还会遭受结构不稳定性等问题。为此,DVD 提出了三大核心设计:

2.1 将时间步作为结构锚点 (Timestep as a Structural Anchor)

在生成式预训练中,时间步 $t$ 参数化了信噪比,指导模型关注全局结构或局部细节。DVD 创造性地将时间步从一个噪声指示器重塑为一个结构锚点(Structural Anchor)。通过将其固定在一个最佳状态(如 $\tau=0.5$),模型能够完美平衡低频的全局稳定性与高频的空间细节,避免了几何过度平滑。



2.2 潜在流形校正 (Latent Manifold Rectification, LMR)

当我们使用逐点回归目标训练模型时,极易引发“均值塌陷(Mean Collapse)”,导致模型在面对模糊或遮挡区域时洗去高频结构细节。在时空设置下,这种退化会累积成严重的边界侵蚀和运动闪烁。

为此,DVD 引入了 LMR——一种无额外参数的监督策略。LMR 强制对齐预测潜变量与目标潜变量的空间梯度(Spatial Gradient)和时序光流(Temporal Flow)。这一机制成功恢复了被回归抹平的锐利边界和连贯的运动动态。



2.3 全局仿射一致性 (Global Affine Coherence)

处理长视频时,显存限制要求必须采用滑动窗口推理,这往往会导致生成式模型出现随机尺度漂移。

研究团队在 DVD 中发现了一个固有的特性:VAE 解码主要引起全局仿射变化,而非局部空间失真。因此,窗口间的差异可以很好地用线性尺度偏移变换来近似。基于这种“全局仿射一致性”,DVD 设计了一个闭式最小二乘求解器。只需通过重叠区域计算全局缩放 $s$ 和平移 $t$,即可无缝对齐相邻窗口,完全无需复杂的潜在拼接或时间对齐模块。



3 实验结果

DVD 在多个真实世界基准测试中进行了广泛的零样本评估,其实验结果令人振奋:

3.1 登顶的新 SOTA 几何保真度与时序连贯性





在 ScanNet 和 KITTI 等标准数据集上,DVD 一致优于最先进的生成式(如 DepthCrafter)和判别式(如 VDA)基线模型,取得了最低的绝对相对误差(AbsRel)。并且,LMR 机制显著提升了精细边界的准确性,例如将 ScanNet 的 B-F1 分数提升至 0.259。



3.2 令人信服的数据与推理效率



DVD 的一大核心优势在于用极少的数据解锁高保真深度。仅使用 36.7 万帧训练的 DVD,其性能就超越了使用 6000 万帧数据的 VDA(数据量不到其1/160)。同时,由于避开了迭代采样的计算瓶颈,DVD 保持了与 VDA 相当的推理速度,并提供了更高的准确率。

3.3 强大的长视频扩展性



面对包含数千帧的复杂长视频,生成式方法受到严重的尺度漂移困扰,判别式基线持续表现出语义歧义。而 DVD 凭借无参数的仿射对齐机制,确保了严格的结构持久性和高保真度,在长视频推理中展现出了卓越的稳定性。



4 结论

DVD (Deterministic Video Depth Estimation) 框架的提出,是首个确定性适配预训练视频扩散先验以用于单次深度估计的框架。

通过“时间步驱动的结构锚点”、“对抗时空均值塌陷的潜在流形校正 (LMR)”以及“用于长视频仿射对齐的全局仿射一致性”三大核心设计,DVD 成功解决了“歧义与幻觉”的两难困境。更重要的是,它证明了:我们无需再盲目堆砌上千万级别的特定任务标注数据,仅需通过巧妙的策略,就能以163 倍的极高数据效率解锁基础模型中令人惊叹的世界几何先验。

这项工作为动态 3D 场景理解和未来的感知技术,确立了一条高度可扩展且数据高效的全新范式。

论文、代码及模型权重均已全部开源,欢迎广大研究人员前往项目主页体验!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“斩首术”应该获诺贝尔奖?如此“让领导先走”,真是伟大创造吗

“斩首术”应该获诺贝尔奖?如此“让领导先走”,真是伟大创造吗

瑜说还休
2026-03-27 17:31:33
“下周将被部署的美国士兵在脱衣舞俱乐部挥霍,很年轻,像胎儿一样”

“下周将被部署的美国士兵在脱衣舞俱乐部挥霍,很年轻,像胎儿一样”

观察者网
2026-03-30 13:21:06
《西游记》中的10个冷知识,你都知道吗?

《西游记》中的10个冷知识,你都知道吗?

北梦一
2026-03-30 11:32:41
美媒:若中国不偿还百年前的债务,美国也将不承认欠华8600亿美元

美媒:若中国不偿还百年前的债务,美国也将不承认欠华8600亿美元

文史达观
2025-03-18 12:54:58
同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

农村情感故事
2026-03-23 07:31:39
今晚别换台!3月30日两大卫视好剧追不停

今晚别换台!3月30日两大卫视好剧追不停

手工制作阿歼
2026-03-30 07:42:43
5亿遗产,67%归妻,16.5%留女!张雪峰留给世界的最后账本!

5亿遗产,67%归妻,16.5%留女!张雪峰留给世界的最后账本!

新浪财经
2026-03-27 10:53:31
42岁男子长期被职场PUA抱住医生大哭,称一到公司门口就开始心慌,医生:他把领导的评价,当成对自己全部价值的判断

42岁男子长期被职场PUA抱住医生大哭,称一到公司门口就开始心慌,医生:他把领导的评价,当成对自己全部价值的判断

大风新闻
2026-03-28 21:28:03
享界汽车就“S9‘麋鹿测试’视频”发布声明:经核实,相关测试存在恶意、刻意操控行为,已固定相关证据,并对涉嫌机构及账号采取维权行动

享界汽车就“S9‘麋鹿测试’视频”发布声明:经核实,相关测试存在恶意、刻意操控行为,已固定相关证据,并对涉嫌机构及账号采取维权行动

潇湘晨报
2026-03-29 14:11:09
1951年,戴笠的儿子戴善武被执行死刑,被枪毙的时候才36岁

1951年,戴笠的儿子戴善武被执行死刑,被枪毙的时候才36岁

百年历史老号
2026-03-28 20:32:38
邵佳一:国足禁外出购物,0-7惨败后买特产太刺眼

邵佳一:国足禁外出购物,0-7惨败后买特产太刺眼

老觷系戏精北鼻
2026-03-29 22:00:10
当不成总统了?美国迎三大噩耗,百万人逼宫,他承认对中国上头了

当不成总统了?美国迎三大噩耗,百万人逼宫,他承认对中国上头了

知法而形
2026-03-29 11:53:37
2025卖掉房子人会后悔,再过2个月,楼市迎3大转变,房价或暴涨?

2025卖掉房子人会后悔,再过2个月,楼市迎3大转变,房价或暴涨?

猫叔东山再起
2026-03-30 11:00:03
上海男篮的难题又来了!

上海男篮的难题又来了!

新民晚报
2026-03-30 10:42:17
富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

带你感受人间冷暖
2026-03-27 00:05:14
特朗普:与伊朗“可能”很快达成停火协议

特朗普:与伊朗“可能”很快达成停火协议

新华社
2026-03-30 08:38:09
国务院任命香港特别行政区政府政制及内地事务局局长

国务院任命香港特别行政区政府政制及内地事务局局长

新京报
2026-03-30 09:29:16
退休人员乐开花!2026年养老金调整方向敲定,尤其是这类人更受益

退休人员乐开花!2026年养老金调整方向敲定,尤其是这类人更受益

社保小达人
2026-03-30 10:20:07
泽连斯基获诺贝尔和平奖提名,俄罗斯著名博主发出悲观论调

泽连斯基获诺贝尔和平奖提名,俄罗斯著名博主发出悲观论调

史政先锋
2026-03-30 14:56:15
秦皇岛阿那亚现罕见“带状”海市蜃楼,拍摄者:像积木搭成的火车,还有船只在浮动

秦皇岛阿那亚现罕见“带状”海市蜃楼,拍摄者:像积木搭成的火车,还有船只在浮动

极目新闻
2026-03-29 12:15:15
2026-03-30 15:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12640文章数 142599关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

时尚
房产
教育
游戏
公开课

来到1980的周也,好毛利兰

房产要闻

32亿,三开三罄!谁在硬控海口楼市高端局?

教育要闻

“这妈是唐僧转世吧?”福建妈妈皈依式教育火了,儿子再无叛逆期

100G的"3A"新游2096年发售!开发者子孙后代完成

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版