网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025|北交大等提出Jasmine:自监督+Stable Diffusion先验,实现高质量单目深度感知

0
分享至

一、导读

近年来,基于 Stable Diffusion(稳定扩散模型)的方法能生成清晰、泛化能力强的深度图,但它们通常需要高精度深度标注进行监督训练,限制了在无标注数据上的应用。

为了解决这一难题,本文提出了首个基于 Stable Diffusion 的自监督单目深度估计框架 Jasmine。它通过引入混合批次图像重建任务和尺度-平移门控循环单元,在不依赖任何深度标注的情况下,有效保留了 Stable Diffusion 的先验知识,显著提升了深度估计的清晰度和跨数据集泛化能力。

实验表明,Jasmine 在 KITTI 数据集上达到了最先进的性能,并在多个零样本测试集上表现优异。

二、论文基本信息


  • 论文标题:Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation

  • 作者姓名与单位:Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao(分别来自北京交通大学、南洋理工大学、香港科技大学、重庆邮电大学)

  • 发表日期与会议/期刊来源:NeurIPS 2025

  • 论文链接: https://arxiv.org/abs/2503.15905v2

三、主要贡献与创新
  1. 首次将 Stable Diffusion 引入自监督深度估计框架,无需高精度深度标注。

  2. 提出混合批次图像重建任务,避免自监督训练破坏 Stable Diffusion 的细节先验。

  3. 设计尺度-平移 GRU 模块,解决尺度-平移不变性与尺度不变性之间的分布差异。

  4. 在 KITTI 上达到最优性能,并在多个零样本数据集上表现出卓越泛化能力。

四、研究方法与原理

Jasmine 的核心思路是:在自监督训练中,通过图像重建任务保护 Stable Diffusion 的细节先验,并用尺度-平移 GRU 对齐不同深度分布,从而在不依赖标注的情况下实现清晰、准确的深度估计。


  • 自监督深度估计基础
    自监督方法通过相邻帧图像 和 之间的几何约束来训练深度网络。通过相机位姿 和相机内参 ,可将 投影回当前帧视角,得到合成图像 ,再通过光度重建损失 约束深度预测:

  • Stable Diffusion 用于深度估计
    Stable Diffusion 将深度预测视为图像条件下的标注生成任务。输入图像 和深度图 被编码为潜变量 和 ,通过 U-Net 进行去噪,最终解码为深度图 。为加速训练,Jasmine 采用单步去噪策略。

  • 混合批次图像重建
    自监督的光度损失会引入噪声,破坏 Stable Diffusion 的细节先验。Jasmine 引入一个任务切换器 ,让同一个 U-Net 交替执行深度预测和图像重建任务。重建任务使用来自 KITTI 和 Hypersim 的混合图像批次,并用光度损失监督重建图像:

    其中 是从两个数据集中随机选择的图像。

  • 尺度-平移 GRU
    Stable Diffusion 输出的是尺度-平移不变深度,而自监督方法输出的是尺度不变深度。Jasmine 提出 Scale-Shift GRU 模块,通过迭代修正尺度 和平移 参数,将 对齐到 :

    其中 由 GRU 的隐藏状态预测。GRU 的复位门还能过滤自监督训练中的异常梯度,保护细节信息。

  • 自监督微调策略
    训练过程中引入教师模型(如 MonoViT)提供的伪标签 ,用于稳定早期训练:

    总损失为:


五、实验设计与结果分析 实验设置

训练数据集:KITTI(39,810 张图像)和 Hypersim(28,000 张合成图像)。
零样本测试集:CityScape、DrivingStereo(含多种天气变体)。
评测指标:AbsRel、SqRel、RMSE、RMSElog、 、 、 。

对比实验

  • 表1 显示 Jasmine 在 KITTI 数据集上所有指标均优于现有自监督方法和零样本 Stable Diffusion 方法,尤其在 指标上提升显著。


  • 表2 显示 Jasmine 在 CityScape 和 DrivingStereo 的多种天气条件下均表现最优,展现出强大的零样本泛化能力。


  • 图1、图5 可视化结果表明,Jasmine 在细节保留和复杂结构处理上明显优于其他方法。



消融实验

验证了各模块的有效性:

  • 移除 Stable Diffusion 先验导致性能崩溃。

  • 移除 MIR 或 SSG 分别导致 AbsRel 下降 47% 和 43%。

  • 使用图像域光度损失优于潜空间监督。

  • 合成数据并非必需,但跨域数据有助于性能提升。


六、论文结论与评价 总结

Jasmine 是首个将 Stable Diffusion 成功应用于自监督深度估计的框架,通过图像重建任务和尺度-平移 GRU,在不依赖深度标注的情况下实现了清晰、泛化能力强的深度预测。在 KITTI 上达到最优性能,并在多个零样本数据集上表现卓越。

评价

该方法突破了传统自监督方法在细节保留上的瓶颈,也为其他无监督密集预测任务提供了新思路。缺点是模型计算量较大,推理速度较慢。

未来可探索更高效的架构设计,并将该框架推广至深度补全、多视图立体等任务中,进一步提升实用性和扩展性。

文章来源:CV炼丹术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全新宝马X7将于2027年发布!网友:终于是旗舰该有的样子了

全新宝马X7将于2027年发布!网友:终于是旗舰该有的样子了

汽车网评
2026-01-31 21:16:12
利物浦压哨重磅签约 7000万欧敲定20岁天才中卫 近半年已花5.53亿

利物浦压哨重磅签约 7000万欧敲定20岁天才中卫 近半年已花5.53亿

我爱英超
2026-02-02 07:22:32
46岁秦岚“蜜桃臀”刷屏热搜:比身材更狠的,是她这份自律

46岁秦岚“蜜桃臀”刷屏热搜:比身材更狠的,是她这份自律

橙星文娱
2025-12-24 14:08:17
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

火山诗话
2026-02-02 08:41:43
供货705万,给医生回扣247万!国家医保局一个月曝光四起回扣案

供货705万,给医生回扣247万!国家医保局一个月曝光四起回扣案

第一财经资讯
2026-02-02 18:38:43
3换1!正式达成交易!再见了,开拓者!

3换1!正式达成交易!再见了,开拓者!

烟雨洛神生
2026-02-02 16:52:18
泪别陈若琳!3年金牌师徒突然拆伙,全红婵下一步令人揪心

泪别陈若琳!3年金牌师徒突然拆伙,全红婵下一步令人揪心

卿子书
2026-02-02 15:00:25
冬窗首签终于官宣!7000万欧买个20岁小妖,靠他接班范戴克?

冬窗首签终于官宣!7000万欧买个20岁小妖,靠他接班范戴克?

锐评利物浦
2026-02-03 00:58:46
为何美国黑人宁愿冒生命危险,也不愿听警察的指令?网友分享真相了

为何美国黑人宁愿冒生命危险,也不愿听警察的指令?网友分享真相了

另子维爱读史
2026-01-18 21:49:38
奥迪A6L直降20.18万!网友:这个优惠力度谁不心动?

奥迪A6L直降20.18万!网友:这个优惠力度谁不心动?

汽车网评
2026-01-31 21:10:01
“彩电一哥”康佳崩了!巨亏126亿,发生了什么?

“彩电一哥”康佳崩了!巨亏126亿,发生了什么?

说财猫
2026-02-02 20:37:08
什么东西都舍不得扔的人,往往会有这样的命运,很准!

什么东西都舍不得扔的人,往往会有这样的命运,很准!

诗词中国
2025-12-29 20:19:57
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
毛雷尔:徐彬的攻防有欧洲球员的潜质,见到他第一天就很喜欢

毛雷尔:徐彬的攻防有欧洲球员的潜质,见到他第一天就很喜欢

懂球帝
2026-02-02 22:06:12
全新一代雷克萨斯ES将于4月上市,上海工厂下半年竣工

全新一代雷克萨斯ES将于4月上市,上海工厂下半年竣工

IT之家
2026-02-02 15:35:32
迪拜最帅王子哈曼丹:43岁颜值大滑坡,身高不足1.7米又矮又邋遢

迪拜最帅王子哈曼丹:43岁颜值大滑坡,身高不足1.7米又矮又邋遢

墨印斋
2026-02-01 21:49:28
钻石女星的开房记录曝光!沈腾成为惊弓之鸟!

钻石女星的开房记录曝光!沈腾成为惊弓之鸟!

八卦疯叔
2026-01-31 13:26:27
保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

另子维爱读史
2026-01-30 18:18:16
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
郑丽文再发声:大陆是我们的亲人

郑丽文再发声:大陆是我们的亲人

扬子晚报
2026-02-02 16:46:11
2026-02-03 01:32:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5337文章数 64600关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

家居
房产
亲子
艺术
健康

家居要闻

现代几何彩拼 智焕童梦居

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

艺术要闻

2026年,中国最值得期待的20个新建筑

耳石症分类型,症状大不同

无障碍浏览 进入关怀版