咱今天要聊的,是3D重建领域里一个挺有意思的突破,现在3DGaussianSplatting技术正火,尤其是前馈式的,眼看着就要大规模产业化了。
可原来的方法有个挺麻烦的问题,一直卡着脖子,让不少搞工程的人头疼,老方法的两个大麻烦,把3D重建困住了
![]()
原来的前馈3DGS大多用“像素对齐”策略,就是把每个2D像素单独对应到3D高斯上。
这办法看着直接,实际问题不少,第一个麻烦是多视图对齐难。
基于2D特征去匹配,遇到深度估计不准、有遮挡或者视角差异大的情况,2D特征在3D空间里根本对不齐。
就跟拼图似的,每一片的位置都没弄准,拼出来的图能好看吗?结果就是容易出现浮空伪影和几何畸变,看着特别不真实。
![]()
第二个麻烦是高斯密度被像素网格限制住了,生成高斯元的时候,完全被像素网格绑死了,没办法根据场景的复杂程度灵活调整。
遇到复杂的结构,比如雕花家具、多面体摆件,高斯数量不够,细节根本表现不出来,看着糊糊的,可到了平坦的区域,比如白墙、地板,又有大量冗余的高斯,浪费了不少资源。
这就好比盖房子,该多用料的地方没料,不该多的地方浪费一堆,效率自然高不了。
VolSplat出新招,体素对齐来破局
那怎么解决这些问题呢?VolSplat想出了一个新办法,抛弃了像素对齐,改用“体素对齐”的前馈框架。
![]()
就是在三维空间里融合视图信息,从根本上解决问题,具体咋做的呢?它把多视角的二维特征,利用每视图预测的深度图,反投影并聚合到统一的三维体素网格中。
然后在这个统一的坐标系里进行聚合与多尺度特征融合细化,最后只在那些被占据的体素上回归高斯参数。
这新方法带来的好处可不少,首先,跨视图一致性明显增强了。
以前靠易错的2D特征匹配,现在信息在3D空间中融合,稳定多了,不用担心视角不同带来的各种问题。
![]()
其次,高斯密度能按需分配了,复杂结构的地方就多分配点,平坦区域就少点,既精细又节省资源。
再者,几何一致性也更强了,体素聚合和3DU-Net的多尺度细化,让细节和边界更清晰,再也不会有那些恼人的伪影和畸变了。
还有,它很容易和外部的3D信号融合,像深度图、点云这些,不用复杂的投影操作,直接就能融入体素化流程,方便多了。
VolSplat把整体流程拆成了三个模块,每个模块都各司其职
第一个模块是2D特征提取与深度估计,对每张输入图像提取二维特征,还能回归出稠密深度图,为后面的操作提供几何先验和特征描述。
![]()
第二个模块是像素反投影到体素并进行特征聚合,把像素变成三维点云,再离散化到体素网格里,让不同视角的特征在3D空间自然对齐。
第三个模块是稀疏3DU-Net细化与基于体素的高斯回归,对体素特征进行细化,然后回归高斯参数,最后进行渲染和训练。
实验数据也挺给力,在公开数据集上,VolSplat的视觉质量和几何一致性都优于传统方法,尤其是在未见过的ACID数据集上,还能保持高性能,说明它的泛化能力很强。
从实际效果来看,在边缘、细节和复杂几何处,几乎看不到浮空伪影、纹理错位这些问题,高斯的分布也更贴近真实场景的几何分布,不再被像素网格均匀绑架了。
![]()
VolSplat的出现,给前馈3D重建打开了全新的可能性。
在机器人和自动驾驶领域,它能提供更稳定的三维感知输入,在AR/VR中,能实现更流畅、真实的渲染体验,在三维视觉研究中,也为融合多模态数据提供了新途径。
虽然这不是终点,它为相关的学术研究和工程应用提供了一个很好的参考方向。
咱也期待着,随着它的不断优化和发展,能在更多领域发挥作用,让3D重建技术越来越成熟,给咱们的生活带来更多便利和惊喜。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.