NeurIPS 2025｜北交大等提出Jasmine：自监督+Stable Diffusion先验，实现高质量单目深度感知|尺度|样本|新模型|diffusion

NeurIPS 2025｜北交大等提出Jasmine：自监督+Stable Diffusion先验，实现高质量单目深度感知

分享至

一、导读

近年来，基于 Stable Diffusion（稳定扩散模型）的方法能生成清晰、泛化能力强的深度图，但它们通常需要高精度深度标注进行监督训练，限制了在无标注数据上的应用。

为了解决这一难题，本文提出了首个基于 Stable Diffusion 的自监督单目深度估计框架 Jasmine。它通过引入混合批次图像重建任务和尺度-平移门控循环单元，在不依赖任何深度标注的情况下，有效保留了 Stable Diffusion 的先验知识，显著提升了深度估计的清晰度和跨数据集泛化能力。

实验表明，Jasmine 在 KITTI 数据集上达到了最先进的性能，并在多个零样本测试集上表现优异。

二、论文基本信息

论文标题：Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation
作者姓名与单位：Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao（分别来自北京交通大学、南洋理工大学、香港科技大学、重庆邮电大学）
发表日期与会议/期刊来源：NeurIPS 2025
论文链接： https://arxiv.org/abs/2503.15905v2

三、主要贡献与创新

首次将 Stable Diffusion 引入自监督深度估计框架，无需高精度深度标注。
提出混合批次图像重建任务，避免自监督训练破坏 Stable Diffusion 的细节先验。
设计尺度-平移 GRU 模块，解决尺度-平移不变性与尺度不变性之间的分布差异。
在 KITTI 上达到最优性能，并在多个零样本数据集上表现出卓越泛化能力。

四、研究方法与原理

Jasmine 的核心思路是：在自监督训练中，通过图像重建任务保护 Stable Diffusion 的细节先验，并用尺度-平移 GRU 对齐不同深度分布，从而在不依赖标注的情况下实现清晰、准确的深度估计。

自监督深度估计基础
自监督方法通过相邻帧图像和之间的几何约束来训练深度网络。通过相机位姿和相机内参，可将投影回当前帧视角，得到合成图像，再通过光度重建损失约束深度预测：
Stable Diffusion 用于深度估计
Stable Diffusion 将深度预测视为图像条件下的标注生成任务。输入图像和深度图被编码为潜变量和，通过 U-Net 进行去噪，最终解码为深度图。为加速训练，Jasmine 采用单步去噪策略。
混合批次图像重建
自监督的光度损失会引入噪声，破坏 Stable Diffusion 的细节先验。Jasmine 引入一个任务切换器，让同一个 U-Net 交替执行深度预测和图像重建任务。重建任务使用来自 KITTI 和 Hypersim 的混合图像批次，并用光度损失监督重建图像：
其中是从两个数据集中随机选择的图像。
尺度-平移 GRU
Stable Diffusion 输出的是尺度-平移不变深度，而自监督方法输出的是尺度不变深度。Jasmine 提出 Scale-Shift GRU 模块，通过迭代修正尺度和平移参数，将对齐到：
其中由 GRU 的隐藏状态预测。GRU 的复位门还能过滤自监督训练中的异常梯度，保护细节信息。
自监督微调策略
训练过程中引入教师模型（如 MonoViT）提供的伪标签，用于稳定早期训练：
总损失为：

五、实验设计与结果分析实验设置

训练数据集：KITTI（39,810 张图像）和 Hypersim（28,000 张合成图像）。
零样本测试集：CityScape、DrivingStereo（含多种天气变体）。
评测指标：AbsRel、SqRel、RMSE、RMSElog、、、。

对比实验

表1 显示 Jasmine 在 KITTI 数据集上所有指标均优于现有自监督方法和零样本 Stable Diffusion 方法，尤其在指标上提升显著。

表2 显示 Jasmine 在 CityScape 和 DrivingStereo 的多种天气条件下均表现最优，展现出强大的零样本泛化能力。

图1、图5 可视化结果表明，Jasmine 在细节保留和复杂结构处理上明显优于其他方法。

消融实验

验证了各模块的有效性：

移除 Stable Diffusion 先验导致性能崩溃。
移除 MIR 或 SSG 分别导致 AbsRel 下降 47% 和 43%。
使用图像域光度损失优于潜空间监督。
合成数据并非必需，但跨域数据有助于性能提升。

六、论文结论与评价总结

Jasmine 是首个将 Stable Diffusion 成功应用于自监督深度估计的框架，通过图像重建任务和尺度-平移 GRU，在不依赖深度标注的情况下实现了清晰、泛化能力强的深度预测。在 KITTI 上达到最优性能，并在多个零样本数据集上表现卓越。

评价

该方法突破了传统自监督方法在细节保留上的瓶颈，也为其他无监督密集预测任务提供了新思路。缺点是模型计算量较大，推理速度较慢。

未来可探索更高效的架构设计，并将该框架推广至深度补全、多视图立体等任务中，进一步提升实用性和扩展性。

文章来源：CV炼丹术。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.