网易首页 > 网易号 > 正文 申请入驻

顶刊TPAMI 2024 | Metric3D v2 横扫16大榜单,最强开源单目深度估计算法!

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了,两步完成模型部署和,并。

单目深度估计新成果来了!方法名为Metric3D v2,是CVPR单目深度估计挑战赛冠军方案Metric3D的加强版。用一套模型参数,在未知环境中,同时解决带尺度深度估计和法向估计两个问题。Metric3D系列模型也已经发布在始智AIwisemodel.cn开源社区,欢迎前往了解详情。

https://wisemodel.cn/models/JUGGHM/Metric3D

可用于生成真实世界的几何估计:

在密集场景和特殊样本上也有较好效果:

无需微调和优化,可直接用于无人机感知:

无需调整尺度参数,提供单帧3D点云,其精度可以直接用于3D重建:

可部分替代物理深度估计工具,用于增强自动驾驶场景的单目SLAM:

Metric3D v2在16个单目深度和法向估计基准榜单上拿下SOTA,涵盖绝对深度、相对深度和法向估计的域内和域外测试。

不做尺度对齐或微调,在KITTI上的单目深度估计相对误差可低至5%。

这项工作由来自香港科技大学、阿德莱德大学、西湖大学、英特尔、香港大学、浙江大学的研究人员共同打造,目前已被AI顶刊TPAMI接收。

01

单目深度估计受限于尺度二义性

单目深度估计技术在计算机视觉领域具有重要意义。这项技术能从单幅2D图像中推断出场景的3D结构,为众多应用提供了关键支持。

在传统领域,单目深度估计广泛应用于自动驾驶、机器人导航、增强现实等场景,帮助智能系统更好地理解和交互环境。

随着AIGC的兴起,单目深度估计在这一新兴领域也发挥着重要作用。它为3D场景生成、虚拟现实内容制作、图像编辑等任务提供了深度信息,大大提升了生成内容的真实感和沉浸感。

通过赋予AI系统对3D世界的理解能力,单目深度估计正在推动AIGC应用向更高维度发展。

但单目深度估计一直是一个“病态”问题,根本原因在于其受到尺度二义性的影响。

对单张图像而言,尺度二义性来自于两个方面:

其一是物体大小未知产生的二义性:

为解决这类问题,早期可泛化的深度估计模型如midas、leras等使用混合数据集训练深度估计网络,希望模型从大量数据集中学到各个物体在场景中的大小。

然而,不同数据集相机内参有很大差异,这种差异会引起第二种尺度二义性(有时又可视作透视畸变):

同一个物体,使用不同相机在不同距离拍摄出的图像也大致可能相同(下图雕塑完全一致,但背景产生了畸变),因而对该物体的深度估计会受到影响。

早期的midas、leras等工作,提出估计相对深度来规避相机差异带来的尺度二义性。

近期基于stable-diffusion的工作如Marigold/Geowizard或基于数据标注的工作DepthAnything v1/v2能够恢复更高精细度的相对深度,却无法恢复尺度信息。

为恢复尺度信息,前人提出将预训练好的相对深度模型,在特定数据集上过拟合以学习尺度信息,如ZoeDepth。然而,该方法使得网络学到的深度分布受限于所finetune的数据集,因而尺度误差较大。

为缓解相机内参变化引起的尺度二义性,Metric3D提出在公共相机空间中学习绝对深度。该空间被定义为一个焦距固定的针孔相机模型空间。

由于网络不再受相机尺度二义性的影响,学习难度被大大降低了。

在符合透视投影几何的前提下,论文提出两种将数据从真实焦距转换到公共焦距的方法。

图像变换法(CSTM_image):通过缩放图像改变焦距的方法。

标签变换法(CSTM_label): 拉伸或压缩整个场景z轴深度的方法。

凭借公共相机空间的设计,Metric3D仅仅依靠卷积模型就在CVPR单目深度估计挑战赛上获得冠军。

算法框架:无须微调的有尺度深度估计;无须大量额外人工稠密重建的法向学习

02

单目法向估计受限于数据质量

深度图可以直接由RGB-D相机,激光雷达等测距传感器获得。

然而,法向图真值需要稠密重建点云的渲染,稠密重建本身需要大量工程和人工成本(如Omnidata)。同时,室外场景的法向数据尤其难以获得。

在Metric3D v2这项研究中,引入了一种联合深度-法线优化框架,利用大规模深度标注的知识,克服户外法线数据标签稀缺的问题。

在联合优化中,法向的知识来源有三:真实法向标注、迭代优化中深度和法向特征的前向交互 、稠密深度预测提供的伪法向标注

具体来说算法流程为:

真实世界->公共空间:将图像和深度标签从真实世界转换到公共空间,使得图像和深度图满足公共空间焦距的透视投影关系。

公共空间中估计几何:网络在公共空间预测初始深度图和法向图,并通过raft风格的迭代优化输出最终深度图和法向图。训练过程中,使用公共空间的深度图真值监督深度估计。

公共空间->真实世界:将估计的深度图转回到真实世界,使之满足实际投影关系。训练时,当法向标注不可得时,使用预测出的深度图求梯度得到伪法向真值,以提供弱监督。

为增强模型鲁棒性,Metric3D v2在16个公开数据集共计16M张图像上进行训练。这些数据集由超过10000种相机内参采集,涵盖室内、室外、自动驾驶等多种场景。

然而,其所需的数据量仍远远小于训练DepthAnything v1/v2所需的62M。

03

Metric3D v2实验结果

常规有尺度深度和法相估计的基准测试,Metric3D v2超越DepthAnything和OmniData(v2):

相对深度估计基准测试,量化指标优于最近在CVPR2024大放异彩的Marigold:

04

定量比较

1、多场景深度与法向估计

尽管Metric3D v2是判别式模型,但在一些场景下,其细粒度也可以和基于生成模型的Marigold平分秋色。

同时,由网络预测出的法向图比深度直接转换所得的更加平滑。

对比其它基线方法ZoeDepth和OmniData(v2),Metric3D v2能给出更高细粒度的带尺度深度和法向。

2、单目场景三维重建

即使像Marigold、DepthAnything v2这样的高精度相对深度模型,也需要在特定数据上拟合、或手动挑选出一组合适的仿射参数后,才能得到三维点云。

3、单帧直接测距

Metric3Dv2模型具有更高精度的测距功能:

总的来说,Metric3D v2是一种用于零样本单目有尺度深度和表面法线估计的几何基础模型。

论文针对真实尺度下几何估计中的各种挑战,分别提出了解决方案。Metric3Dv2框架整合超过10000台相机捕捉的上千万数据样本,训练一个统一的有尺度深度和表面法向模型。

零样本评估实验展示了方法的有效性和鲁棒性。对于下游应用,Metric3Dv2能够从单一视角重建有尺度的三维结构,实现对随机采集的互联网图像的测距和单帧稠密建图。

凭借其精度、泛化能力和多功能性,Metric3D v2 模型可作为单目几何感知的基础模型。

模型地址:

https://wisemodel.cn/models/JUGGHM/Metric3D

论文链接:https://arxiv.org/abs/2404.15506.pdf

代码仓库:https://github.com/YvanYin/Metric3D

图文丨Metric3D团队

编辑丨赵雅鑫

----- END -----

wisemodel相关

系统升级

系列模型:

浪潮Yuan2-2B-July模型性能跃升,助力语言处理技术创新

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2小时41分钟到武汉,明天正式开通!新票价出炉,价格降了

2小时41分钟到武汉,明天正式开通!新票价出炉,价格降了

极目新闻
2026-06-29 19:35:03
别再关注韩红了,冯小刚的《抓特务》,问题超乎你的想象!

别再关注韩红了,冯小刚的《抓特务》,问题超乎你的想象!

青橘罐头
2026-06-27 09:29:46
中国男篮被逆转输9分!4人上双,篮板体能是输球关键,下一场更难

中国男篮被逆转输9分!4人上双,篮板体能是输球关键,下一场更难

老吴说体育
2026-06-29 09:17:59
乌方称朝鲜士兵在俄库尔斯克死伤超7000人,平壤仍未公布数字

乌方称朝鲜士兵在俄库尔斯克死伤超7000人,平壤仍未公布数字

桂系007
2026-06-29 23:56:47
应采儿坦言58岁陈小春跑商演倍感疲惫,俩儿子年学费近百万,网友直言:不来大陆港星难扛家庭重担

应采儿坦言58岁陈小春跑商演倍感疲惫,俩儿子年学费近百万,网友直言:不来大陆港星难扛家庭重担

背包旅行
2026-06-27 14:42:54
CBA最新消息!顾全成为深圳男篮主帅,范子铭或重返老东家

CBA最新消息!顾全成为深圳男篮主帅,范子铭或重返老东家

体坛瞎白话
2026-06-29 15:39:12
世界杯:巴西vs日本、德国vs巴拉圭、荷兰vs摩洛哥,三场解析!

世界杯:巴西vs日本、德国vs巴拉圭、荷兰vs摩洛哥,三场解析!

生活新鲜市
2026-06-29 19:11:55
700分扎堆,2026东西城高考成绩单出炉!

700分扎堆,2026东西城高考成绩单出炉!

家住东西城
2026-06-29 21:35:12
1分钟!36倍大牛股,直线跌停

1分钟!36倍大牛股,直线跌停

新浪财经
2026-06-29 11:53:48
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
有色金属将会把你托举到不敢想象的高度!

有色金属将会把你托举到不敢想象的高度!

户外钓鱼哥阿旱
2026-06-29 19:13:58
双赢放手!广东放弃焦泊乔看似亏钱,实则是最聪明的止损

双赢放手!广东放弃焦泊乔看似亏钱,实则是最聪明的止损

隐于山海
2026-06-29 20:11:10
深度长文:跑得再快也追不上乌龟?困扰人类2000年的终极悖论!

深度长文:跑得再快也追不上乌龟?困扰人类2000年的终极悖论!

宇宙时空
2026-06-28 17:30:12
日本送走巴西,“佛的脚”踢走球王,这两事同时发生的概率为1.8%

日本送走巴西,“佛的脚”踢走球王,这两事同时发生的概率为1.8%

林子说事
2026-06-29 13:29:35
莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

品读时刻
2026-05-27 09:00:58
现在,北京户口的价值真快没了

现在,北京户口的价值真快没了

微微热评
2026-06-29 22:22:02
李小璐回应没戏拍,称自己以前太恋爱脑了:“可那个时候我偏偏是个恋爱脑”

李小璐回应没戏拍,称自己以前太恋爱脑了:“可那个时候我偏偏是个恋爱脑”

小椰的奶奶
2026-06-30 00:06:06
送水工一天挣1000,活款几百万上海两套房!媒体:努力干你也有

送水工一天挣1000,活款几百万上海两套房!媒体:努力干你也有

走读新生
2026-06-29 13:06:14
超级富二代的自我毁灭:玩游戏、追网红,两年败光3个亿

超级富二代的自我毁灭:玩游戏、追网红,两年败光3个亿

小怪吃美食
2026-06-27 14:57:44
“这种环境都能排卵?”女毕业生表白单位男领导,评论区炸锅了

“这种环境都能排卵?”女毕业生表白单位男领导,评论区炸锅了

世界圈
2026-06-26 08:40:50
2026-06-30 00:39:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
489文章数 16关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

本地
数码
手机
游戏
公开课

本地新闻

贵州小城的新目标:举办“村超”世界杯!

数码要闻

珂芝三模矮轴机械键盘i98上市,首发价329 / 369元

手机要闻

OPPO Reno16新配色半夏青发布:3D悬浮幸运草设计 3499元起

打团战还发工资?《天下贰·经典版》补贴狂潮来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版