网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2025|北交大等提出Jasmine:自监督+Stable Diffusion先验,实现高质量单目深度感知

0
分享至

一、导读

近年来,基于 Stable Diffusion(稳定扩散模型)的方法能生成清晰、泛化能力强的深度图,但它们通常需要高精度深度标注进行监督训练,限制了在无标注数据上的应用。

为了解决这一难题,本文提出了首个基于 Stable Diffusion 的自监督单目深度估计框架 Jasmine。它通过引入混合批次图像重建任务和尺度-平移门控循环单元,在不依赖任何深度标注的情况下,有效保留了 Stable Diffusion 的先验知识,显著提升了深度估计的清晰度和跨数据集泛化能力。

实验表明,Jasmine 在 KITTI 数据集上达到了最先进的性能,并在多个零样本测试集上表现优异。

二、论文基本信息


  • 论文标题:Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation

  • 作者姓名与单位:Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao(分别来自北京交通大学、南洋理工大学、香港科技大学、重庆邮电大学)

  • 发表日期与会议/期刊来源:NeurIPS 2025

  • 论文链接: https://arxiv.org/abs/2503.15905v2

三、主要贡献与创新
  1. 首次将 Stable Diffusion 引入自监督深度估计框架,无需高精度深度标注。

  2. 提出混合批次图像重建任务,避免自监督训练破坏 Stable Diffusion 的细节先验。

  3. 设计尺度-平移 GRU 模块,解决尺度-平移不变性与尺度不变性之间的分布差异。

  4. 在 KITTI 上达到最优性能,并在多个零样本数据集上表现出卓越泛化能力。

四、研究方法与原理

Jasmine 的核心思路是:在自监督训练中,通过图像重建任务保护 Stable Diffusion 的细节先验,并用尺度-平移 GRU 对齐不同深度分布,从而在不依赖标注的情况下实现清晰、准确的深度估计。


  • 自监督深度估计基础
    自监督方法通过相邻帧图像 和 之间的几何约束来训练深度网络。通过相机位姿 和相机内参 ,可将 投影回当前帧视角,得到合成图像 ,再通过光度重建损失 约束深度预测:

  • Stable Diffusion 用于深度估计
    Stable Diffusion 将深度预测视为图像条件下的标注生成任务。输入图像 和深度图 被编码为潜变量 和 ,通过 U-Net 进行去噪,最终解码为深度图 。为加速训练,Jasmine 采用单步去噪策略。

  • 混合批次图像重建
    自监督的光度损失会引入噪声,破坏 Stable Diffusion 的细节先验。Jasmine 引入一个任务切换器 ,让同一个 U-Net 交替执行深度预测和图像重建任务。重建任务使用来自 KITTI 和 Hypersim 的混合图像批次,并用光度损失监督重建图像:

    其中 是从两个数据集中随机选择的图像。

  • 尺度-平移 GRU
    Stable Diffusion 输出的是尺度-平移不变深度,而自监督方法输出的是尺度不变深度。Jasmine 提出 Scale-Shift GRU 模块,通过迭代修正尺度 和平移 参数,将 对齐到 :

    其中 由 GRU 的隐藏状态预测。GRU 的复位门还能过滤自监督训练中的异常梯度,保护细节信息。

  • 自监督微调策略
    训练过程中引入教师模型(如 MonoViT)提供的伪标签 ,用于稳定早期训练:

    总损失为:


五、实验设计与结果分析 实验设置

训练数据集:KITTI(39,810 张图像)和 Hypersim(28,000 张合成图像)。
零样本测试集:CityScape、DrivingStereo(含多种天气变体)。
评测指标:AbsRel、SqRel、RMSE、RMSElog、 、 、 。

对比实验

  • 表1 显示 Jasmine 在 KITTI 数据集上所有指标均优于现有自监督方法和零样本 Stable Diffusion 方法,尤其在 指标上提升显著。


  • 表2 显示 Jasmine 在 CityScape 和 DrivingStereo 的多种天气条件下均表现最优,展现出强大的零样本泛化能力。


  • 图1、图5 可视化结果表明,Jasmine 在细节保留和复杂结构处理上明显优于其他方法。



消融实验

验证了各模块的有效性:

  • 移除 Stable Diffusion 先验导致性能崩溃。

  • 移除 MIR 或 SSG 分别导致 AbsRel 下降 47% 和 43%。

  • 使用图像域光度损失优于潜空间监督。

  • 合成数据并非必需,但跨域数据有助于性能提升。


六、论文结论与评价 总结

Jasmine 是首个将 Stable Diffusion 成功应用于自监督深度估计的框架,通过图像重建任务和尺度-平移 GRU,在不依赖深度标注的情况下实现了清晰、泛化能力强的深度预测。在 KITTI 上达到最优性能,并在多个零样本数据集上表现卓越。

评价

该方法突破了传统自监督方法在细节保留上的瓶颈,也为其他无监督密集预测任务提供了新思路。缺点是模型计算量较大,推理速度较慢。

未来可探索更高效的架构设计,并将该框架推广至深度补全、多视图立体等任务中,进一步提升实用性和扩展性。

文章来源:CV炼丹术。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是赤裸裸的差距!烟草公司正式员工的公积金,离谱到你不敢信

这就是赤裸裸的差距!烟草公司正式员工的公积金,离谱到你不敢信

复转这些年
2026-01-27 23:46:25
被核武轰炸45次,罗布泊本该寸草不生,结果却成世界最大钾肥基地

被核武轰炸45次,罗布泊本该寸草不生,结果却成世界最大钾肥基地

鉴史录
2026-01-23 12:12:32
我是看明白了,不管刘强东钱再多,企业再大,对于他的父母亲来说并没多大用处

我是看明白了,不管刘强东钱再多,企业再大,对于他的父母亲来说并没多大用处

生活新鲜市
2026-01-30 02:52:50
西部排名又变了:湖人爆冷惨败,快船双喜临门,2队排名互换

西部排名又变了:湖人爆冷惨败,快船双喜临门,2队排名互换

篮球大视野
2026-01-29 15:31:48
千万遗产拱手让给俩孩,具俊晔回韩国倒计时,这一次不再是软饭男

千万遗产拱手让给俩孩,具俊晔回韩国倒计时,这一次不再是软饭男

华史谈
2026-01-29 17:43:47
自小被放弃,聋哑父母收养我20年,我嫁人后,养父母要断绝来往

自小被放弃,聋哑父母收养我20年,我嫁人后,养父母要断绝来往

人间百态大全
2026-01-29 06:35:03
日本国家队究竟该以怎样的26人阵容出征北美世界杯?

日本国家队究竟该以怎样的26人阵容出征北美世界杯?

星耀国际足坛
2026-01-29 23:20:40
贺子珍的17岁亲弟弟犯错被枪决,毛主席听闻后沉默:他只是个孩子

贺子珍的17岁亲弟弟犯错被枪决,毛主席听闻后沉默:他只是个孩子

大运河时空
2026-01-30 08:20:03
小米宣布10亿内存补贴!REDMI Turbo 5 Max国补价1869元起:512GB仅2379.15元

小米宣布10亿内存补贴!REDMI Turbo 5 Max国补价1869元起:512GB仅2379.15元

快科技
2026-01-29 19:46:32
界面调查|血铅超标工人,挡在“劳动关系”门槛外

界面调查|血铅超标工人,挡在“劳动关系”门槛外

界面新闻
2026-01-30 07:57:47
我国的“斤”用了3000年,为何与国际接轨后,恰好相当于500克?

我国的“斤”用了3000年,为何与国际接轨后,恰好相当于500克?

鹤羽说个事
2026-01-24 14:02:31
1869年加拿大花30万英镑,以每平4分捡漏英国740万平方公里国土

1869年加拿大花30万英镑,以每平4分捡漏英国740万平方公里国土

磊子讲史
2026-01-30 10:41:39
“儿子都腺样体了,还吃烤肠呢?”一份糊弄早餐暴露家长的低认知

“儿子都腺样体了,还吃烤肠呢?”一份糊弄早餐暴露家长的低认知

妍妍教育日记
2025-12-26 17:18:26
浙江一女大学生每月准时收到1000元陌生转账,谁料,4年后“神秘人”真实身份曝光,让人大吃一惊...

浙江一女大学生每月准时收到1000元陌生转账,谁料,4年后“神秘人”真实身份曝光,让人大吃一惊...

不二大叔
2026-01-29 21:27:59
美媒:美国再次成为了唯一超级大国,中国本有机会,但如今输了

美媒:美国再次成为了唯一超级大国,中国本有机会,但如今输了

通文知史
2026-01-29 14:00:03
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
中使馆发最强“战斗檄文”:马科斯驱逐中国大使,但所有人将离开

中使馆发最强“战斗檄文”:马科斯驱逐中国大使,但所有人将离开

谛听骨语本尊
2026-01-30 11:40:39
2026马年这4个生肖好运爆棚!财神盯上他们,麻烦绕道走

2026马年这4个生肖好运爆棚!财神盯上他们,麻烦绕道走

毅谈生肖
2026-01-30 11:53:06
联盟大地震!字母哥被开放谈判,四豪强疯抢,最想联手爱德华兹

联盟大地震!字母哥被开放谈判,四豪强疯抢,最想联手爱德华兹

篮球看比赛
2026-01-30 13:12:05
一年半后翻案!奥运争议案件发回重审,美国队巴黎奥运奖牌有望+1

一年半后翻案!奥运争议案件发回重审,美国队巴黎奥运奖牌有望+1

全景体育V
2026-01-30 07:35:31
2026-01-30 13:52:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5331文章数 64599关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

美驻华大使挑事:中方出口管制措施不合规

头条要闻

美驻华大使挑事:中方出口管制措施不合规

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

健康
房产
艺术
时尚
亲子

耳石症分类型,症状大不同

房产要闻

跨海高铁,四大新机场,G98扩容…封关元年,海南配套大爆发!

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

推广|| 冬天利用率超高的裙子,怎么搭都对!

亲子要闻

“孩子掉下去了”,6天婴儿摔致颅内出血,涉事月子中心突然宣布破产要关停

无障碍浏览 进入关怀版