本文刊发于《现代电影技术》2025年第6期
专家点评
三维扫描与曲面重建技术是影视制作、数字孪生、数字资产创建、数字文化遗产保护等领域的核心支撑技术。人工智能(AI)特别是深度学习技术的发展进步为三维扫描与曲面重建提供了新引擎和新动能,通过应用AI前沿算法和开展定制研发应用,有力驱动三维扫描与曲面重建技术创新发展、快速迭代和提质升级,使三维扫描与曲面重建的精度、效率和真实感得到显著提升。《人工智能背景下三维扫描与曲面重建技术进展及其应用研究》一文从数据采集方法、曲面重建算法、技术性能与实现效率等视角,深入总结了三维扫描与曲面重建技术的最新进展和行业应用,重点阐述了基于深度学习的相位展开、单视图和多视图重建、点云到网格重建等AI方法在推动三维扫描技术升级与曲面重建技术重构方面相对于传统方法的显著优势,同时指出了AI方法面临的发展挑战、技术瓶颈和未来突破方向,对于推动智能时代三维扫描与曲面重建技术在影视文化领域发展应用具有重要指导意义和应用价值。人类社会向智能化演进升级是大势所趋,电影科技工作者应当积极践行国家科技自立自强发展战略,紧密结合领域业务特征与发展需求,深入研究与应用实践人工智能生成内容(AIGC)、语言大模型、视觉大模型和多模态大模型等相关技术,研究制定2D/3D AIGC在电影制作生产和数字资产创建中的应用方案。与此同时,现代智能科技也在不断发展进步和创新升级,我们必须坚持与时俱进和知难而进,积极推进人工智能新型范式(AI for Science & AI for Engineering)在电影科研和工程领域的发展与应用,有力支撑和服务电影全产业链的智能化升级。
——刘达
正高级工程师
中国电影科学技术研究所(中央宣传部电影技术质量检测所)总工程师
《现代电影技术》主编
摘要
为深入研究影视制作等行业数字资产采集和模型搭建相关技术,本文总结了三维扫描与曲面重建技术的最新进展,涵盖激光雷达、结构光扫描、摄影测量及飞行时间传感器等传统数据采集方法,以及泊松表面重建、德洛内(Delaunay)三角剖分等经典曲面重建算法。随着人工智能(AI)技术的崛起,深度学习(DL)等AI方法显著提升了三维重建的精度与效率,尤其在处理噪声数据、复杂形状及不完整数据方面表现出色。AI推动了单视图与多视图重建技术的革新,实现了从二维图像到三维模型的精准转换,优化了点云到网格的转换流程,增强了重建模型的细节层次与渲染真实感。研究表明,结合AI的三维技术在数字孪生、影视制作、数字遗产保护等领域展现出巨大潜力,为相关领域的创新发展提供了有力支持。
关键词
三维扫描;曲面重建;深度学习;影视制作
1引言
在数字化浪潮推动下,三维扫描与曲面重建技术作为连接物理世界与数字世界的桥梁,正引领数字孪生(Digital Twin)、影视制作、数字遗产保护等多领域的技术应用革新。三维扫描技术通过捕捉现实世界物体的三维数据,为数字模型的构建提供了基础,广泛应用于工业设计、城市建模、地形测绘等领域;曲面重建技术则将这些离散的数据点转化为连续的网格或曲面模型,使数字模型更加逼真、可用。
随着科技的进步,三维扫描与曲面重建技术不断迭代升级,从激光扫描到结构光扫描、摄影测量等,技术精度与效率不断提升。人工智能(AI)技术的兴起为相关领域带来了新的发展机遇。通过深度学习(DL)等AI方法,使用者可更有效地处理三维数据中的噪声、缺失和复杂结构,实现更高精度的重建。在数字孪生领域,三维扫描与重建技术用于对工业设备(如机器、管道、建筑物)进行高精度建模,生成数字孪生体,可用于实时监控设备运行状态、预测性维护以及虚拟仿真,从而实现对物理对象的全面管理和优化。
在影视制作领域, 三维扫描技术捕捉演员的面部表情、服装细节和道具外形,生成逼真的数字资产;曲面重建技术可用于创建复杂的计算机生成动画(Computer⁃Generated Imagery, CGI)角色和场景,助力创作者构建出逼真的虚拟世界和角色,为观众带来前所未有的视觉体验。例如,对演员面部高分辨率三维扫描,可获取高精度数据并生成真实感人物面部模型,有助于角色呈现。在动画制作过程中,重建的网格模型可作为绑定(Rigging)和蒙皮(Skinning)的基础,用于生成角色动画;点云数据提供的精准运动捕捉信息,可用于捕捉真人动作细节并映射至虚拟角色上,以生成逼真的动画效果。如在特技场景中,通过捕捉演员的动作数据驱动数字替身,实现流畅自然的动态表现。此外,三维扫描与重建技术为文物的数字化保存与展示提供了有力技术支持,使珍贵的历史文化遗产得以永久传承。
本文旨在系统介绍三维扫描与曲面重建技术的传统方法、理论基础及算法进展,并探讨AI技术如何为这一领域带来新的突破与发展,以期为相关领域的研究与未来应用提供参考与借鉴。
2三维扫描和空间重建的主要技术和应用场景
2.1 三维扫描的主要技术
三维扫描通过采集空间数据点以捕捉真实世界物体和环境的形状与几何结构,是构建数字模型和虚拟场景的重要手段。常用的三维扫描技术包括以下四种:(1)激光雷达(LiDAR),利用激光脉冲测量物体与传感器间距离,并生成精确的3D点云,已广泛应用于自动驾驶、城市建模和地形测绘;(2)结构光(Structured Light)扫描,向物体表面投射光栅图案,通过分析光栅形变实现物体的三维形状重建,常用于工业检测、逆向工程及影视和动画内容制作,具有高精度和快速响应的优势;(3)摄影测量(Photogrammetry),从不同角度拍摄多张照片,通过匹配特征点生成3D模型,适用于电影和游戏中的真实纹理生成,具有成本低廉、实现便捷的特点;(4)飞行时间(ToF)传感器,通过测量光线发射与返回时间差生成深度数据,广泛用于VR/AR设备和机器人导航系统,能实时捕捉动态场景。
2.2 空间重建的主要技术
在空间重建技术中,扫描获取的离散点云(Point Cloud)数据需转化为连续的网格或曲面。常用的重建算法包括:(1)泊松表面重建(Poisson Surface Reconstruction)[1]算法,通过求解泊松方程生成光滑且闭合的表面,适用于重建有机形状和扫描对象,尤其在存在噪声数据时具有较好的鲁棒性;(2)德洛内(Delaunay)三角剖分与Alpha Shapes[2]算法,采用三角剖分方法连接点集,可调控网格密度,适用于CAD模型和几何形状的重建,能精准定义边界;(3)滚球算法(Ball⁃Pivoting Algorithm, BPA)[3],通过滚动虚拟球体连接相邻点,生成三角面片,能有效保留锐利边缘,是机械零件建模的理想选择;(4)移动最小二乘(Moving Least⁃Squares, MLS)[4]法,通过拟合局部平面或曲面对噪声数据进行平滑处理,生成连续的曲面结构,广泛应用于动画和视觉效果制作;(5)体素级重建方法——移动立方体(Marching Cubes, MC)算法,从体素数据中提取等值面网格用于生成三维模型,可用于医学影像数据建模和复杂体数据可视化。
2.3 相关技术的智能化趋势
近年来,AI技术特别是深度学习方法,在扫描数据处理与点云重建中展现出显著优势。传统算法在面对噪声、高复杂度形状或不完整数据时常面临重建精度与效率之间的权衡,而AI模型通过大量数据训练,能够学习从局部几何到全局结构的映射关系,从而实现更准确的表面重建与拓扑保持。在数字孪生中,AI可辅助进行自动特征识别与语义分割,提升模型的智能化分析能力;在影视与动画制作中,AI可实现端到端的人脸重建与动画驱动,大幅简化传统建模流程。例如,使用神经辐射场(NeRF)等技术,可从稀疏图像或点云中重建高质量网格模型,显著提升计算机图形学(CG)角色的细节层次与渲染真实感。
总体而言,AI技术的引入不仅提高了建模自动化程度和处理复杂场景的能力,也拓展了三维扫描技术在实时渲染、增强现实(AR)与人机交互等新兴领域的应用边界。
3三维结构光扫描技术
三维结构光技术可实时获取高精度点云数据,进而建立高质量动态三维曲面,被广泛应用于数字孪生、电影和动画制作、工业检测和生物医疗等领域。因此本文将重点介绍结构光扫描技术的具体原理和算法。
三维结构光系统由数字投影仪(数字光源)与数字摄影机组成,数字光源实时向目标曲面投射余弦条纹,通过反射条纹的扭曲信息以计算几何深度信息,从而得到动态几何信息。
在计算机视觉(CV)领域,相移法是一种广泛应用于结构光立体视觉的技术,可精确地计算物体表面的三维坐标。本文以三步相移法为例实现相位计算,该方法的优点是速度快、帧率高,可实时捕捉动态人脸表情变化。
3.1 三步相移法
三步相移法中,每个图案均以灰度图像形式生成,这些图案可用数学公式表示为:
图 1 结构光照射下采集的三幅条纹图像
图2显示了直接求解得到的纹理图像、环境光图像和相对相位图像。
图 2 直接求解得到的纹理图像、环境光图像和相对相位图像
3.2 相位展开算法
路径跟踪算法通过对包裹相位图像进行线积分来展开相位。例如,经典的Goldstein算法[5]从包裹相位图像中识别残差点(Residues),并通过分支切割(Branch Cuts)进行平衡,之后沿分支切割进行相位展开。质量引导算法(Quality⁃Guided Algorithm)不识别残差点,而是使用从包裹相位图像中获取的质量图,从最高质量像素开始引导展开路径。Mask Cut算法不仅识别残差点,还利用质量图来引导分支切割的放置[6—8]。尽管这些方法快速且有效,但若包裹相位数据中噪声较大,可能导致方法失效。快速展开方法通过二阶差分计算可靠性函数[9],以提高质量评估。
最小
L
P
P=2时通过求解泊松方程来展开相位。这些算法通常对噪声具有较强的鲁棒性,但收敛速度较慢。为优化能量,图割(Graph Cut)算法被应用于相位展开 [10—12] 。
最小不连续性相位展开算法(Minimum⁃Discontinuity Phase Unwrapping Algorithm)[13]通过检测不连续性将包裹相位图像划分为若干区域,并为每个区域分配2π的整数倍,以最小化不连续点的数量。此算法在路径跟踪类算法失效时通常表现良好。
在计算机视觉中,许多问题可建模为基于能量最小化的标签分配问题,并归结为马尔科夫随机场优化问题,而图割算法是解决此类问题的强有力工具,并可采用层级方法进行加速。Greig等[14]首次使用最小割/最大流算法解决计算机视觉中的能量最小化问题。Roy等[15]首次将图割算法应用于多摄影机立体匹配计算。Boykov等[16]开创性地将图割算法应用于分割问题。自此,越来越多的研究将基于图的能量最小化方法应用于各种低级视觉问题,例如分割[17]、立体匹配、纹理合成、多视图重建等。图3显示了由这种方法得到的相位计数和绝对相位图像。
图 3 马尔可夫随机场优化求解得到的相位计数和绝对相位
图 4 带黑白纹理的三维点云
图 5 实时扫描得到的动态人脸曲面
若为三维扫描系统添加一台彩色相机,可得到彩色图像,通过相机标定技术,可求出彩色图像与三维点云间的对应关系,从而得到三维点云的彩色纹理图像。该方法需采用精确的相机标定算法。图6为基于上述方法获取的带有彩色纹理的动态三维人脸曲面点云数据,可从不同角度查看。
图 6 实时扫描得到的带有彩色纹理的动态三维人脸曲面
4曲面重建
4.1 点云融合
点云融合算法旨在将多个点云整合为统一且连贯的三维表示。常用的方法包括迭代最近点算法(ICP)、法向量分布变换(NDT)和基于特征的配准算法。迭代最近点算法通过最小化对应点间的欧氏距离来对齐点云,适用于初始对齐较好的数据。法向量分布变换将点云建模为一组高斯分布,能在稀疏或噪声较大的环境中实现鲁棒对齐。基于特征的配准算法则通过提取和匹配关键点(如SIFT或FPFH)来计算变换矩阵,从而在初始对齐误差较大的情况下实现更精确的对齐。完成对齐后,可采用体素网格滤波或截断符号距离函数(Truncated Signed Distance Function, TSDF)融合方法整合对齐后的点云,生成优化且一致的三维模型。上述方法广泛应用于三维重建、同步定位与建图(Simultaneous Localization and Mapping, SLAM)及多视图立体视觉等领域。
迭代最近点算法是一种用于对齐源点云和目标点云的方法,通过迭代最小化对应点间的距离。源点云是预期对齐的点云,而目标点云是固定参考点集。初始化变换为恒同变换,将在每次迭代中更新,以逐步将源点云对齐至目标点云。源点云中的每一点需在目标点云中找到最接近的点。这一步骤建立了一组对应点对,其中每一源点对应一个最近目标点,并可计算源点云和目标点云的质心,根据每个点相对于质心的偏移量计算协方差矩阵,以捕捉点云中点的分布情况,并通过旋转和移动这些点来实现最佳对齐。对协方差矩阵进行奇异值分解(SVD),将矩阵分解为三个矩阵,进而计算最佳旋转矩阵,随后计算平移向量,以对齐到目标点云的质心。将这一变换用于更新源点云的位置并不断迭代,以逐步减少与目标点云之间的距离。若对齐误差〔例如均方误差(MSE)〕低于设定阈值,则迭代结束。当算法收敛后,输出最终的变换矩阵,该矩阵包括旋转和平移信息,用于将源点云转换至目标点云的坐标系中。最终对齐后的点云可通过应用该矩阵生成,从而得到统一的三维模型。图7显示了迭代最近点算法融合的两个点云。
图 7 迭代最近点算法得到的点云融合
4.2 法向量估计
点云的法向量估计是三维数据处理中非常重要的一步,例如在表面重建、分割、特征提取等任务中均会用到这一方法。法向量是指垂直于表面上的一个向量,用于描述表面的方向。在点云数据中,由于点本身并不携带法向量信息,因此需要通过其邻域中的点来计算每个点的法向量。
图 8 点云的法向量估计
法向量估计的常用方法包括:(1)基于主成分分析(PCA)的方法,即直接计算协方差矩阵并进行特征值分解,适用于平滑且密集的点云数据;(2)基于移动最小二乘(MLS)法的方法,即通过拟合局部平面或曲面计算法向量,对噪声数据有较好的鲁棒性;(3)基于积分图像的方法,适用于结构化点云(例如深度图像),计算速度快,内存开销小。
主成分分析方法较常用。首先需确定每个点的邻域,例如基于k近邻(k⁃NN)方法要求找到距离每个点最近的
k个点,计算每个邻域点集的质心,构造协方差矩阵。协方差矩阵用于描述邻域点的分布方向和密度。在对协方差矩阵进行特征值分解(Eigen Decomposition)时,通常将最小特征值对应的特征向量视为法向量,这是因为最小特征值方向对应于点云表面的法线方向。在估计出法向量后,其方向可能仍是不确定的。为确保法向量方向一致,我们通常会进行方向校正。具体而言,选定一个参考方向(例如摄影机方向、Z轴方向等),计算法向量与参考方向的点积,若点积为负,则将法向量反向。图9显示了主成分分析方法得到的法向量场。
图 9 主成分分析方法得到的法向量场
4.3 点云重建
从点云重建网格是将离散点数据转化为连续曲面表示的关键步骤,广泛应用于3D扫描、CAD建模、计算机视觉等领域。主要的网格重建算法包括泊松表面重建、德洛内三角剖分和Alpha Shapes、滚球算法、基于Voronoi图的重建算法、移动最小二乘法等。
德洛内三角剖分和Alpha Shapes算法通过连接点集中的最近邻点生成三维四面体网格;Alpha Shapes算法可通过调整参数
值筛选三角形,当三角形外接圆半径大于时,将其去除,然后提取Alpha Shapes的外壳,生成网格。这一算法实现简单,网格细节可控,但缺点在于对噪声较敏感。滚球算法模拟一个固定半径的虚拟球,在点云上滚动,通过连接相邻点形成三角形。算法在点云中找到相距球半径的三个点,构成第一个三角形;之后在当前三角形边上滚动球,寻找第三个点并生成新三角形;重复上述过程,直到所有点都被连接。这种算法易于实现,且对均匀采样点云效果较好。其缺点在于对噪声和稀疏数据敏感,球半径参数需手动调节。
基于Voronoi的重建算法首先计算点云的Voronoi图,再通过其对偶德洛内三角剖分, 提取表面筛选并连接三角形,生成最终网格。该算法优点是理论上具有拓扑正确性,对密集采样数据效果好,但计算复杂度较高,噪声点会影响结果。
移动最小二乘法通过局部拟合平面或曲面,平滑处理点云中的噪声并生成连续表面。该算法为每一点找到其
k个邻域点,使用最小二乘法拟合局部平面或二次曲面,将点投影到拟合曲面上,完成平滑处理,并使用移动立方体(Marching Cubes)算法生成网格。该算法优点在于能有效平滑噪声数据,生成连续光滑的表面;缺点在于高频细节特征有损失,计算开销较大。
Power Crust算法是一种典型的基于Voronoi图的重建算法。其通过计算中轴(Medial Axis)并在其内外两侧生成壳体,实现闭合曲面重建。该算法计算Voronoi图并提取中轴线,在中轴线两侧构建内外壳体,将内外壳体合并,生成最终封闭网格。其优点是生成闭合且光滑的网格,能有效处理噪声点;其缺点是实现复杂,计算量大,对稀疏数据效果较差。
泊松表面重建算法将网格重建视为泊松方程求解问题,假设了点云数据来自光滑表面,并且已知每个点的法向量。该算法通过求解泊松方程构建隐式函数,并提取零水平集作为重建的网格:首先计算每个点的法向量并统一法向量方向,然后构建八叉树(Octree),将点云划分为不同分辨率级别。根据法向量场
n构建泊松方程如式(7)所示。
随后,使用有限元方法(FEM)求解泊松方程,生成隐式函数
,使用移动立方体算法提取的零水平集,生成最终网格。泊松表面重建算法的优点是能有效处理噪声和异常点,从而生成光滑且闭合的曲面;缺点是对法向量估计误差较敏感,数据量大时计算复杂度较高。图10显示了基于泊松表面重建算法得到的三角网格。
图 10 泊松表面重建算法得到的三角网格
扫描所得的数字模型可用于三维打印。图11(a)、图11(b)分别为不同角度的原始雕塑与三维打印模型对比。原始雕塑与曲面重建后打印模型误差低于0.1毫米。
图 11 不同角度的原始雕塑与曲面重建后三维打印模型比较
5AI技术带来的进展
5.1 融合AI的三维扫描技术升级
近年来,AI尤其是深度学习技术在光学中的相位展开方法上取得显著进展。AI与相位展开的结合推动了多个光学计量领域的技术进步:在数字全息显微技术中,更准确的相位重建使微观结构的三维成像更加清晰;在光学相干断层扫描(OCT)领域中,提升了组织结构的可视化效果,助力医学诊断;在条纹投影轮廓测量中,AI驱动的相位展开实现了高精度的三维表面测量,广泛应用于工业检测和质量控制。
深度学习在相位展开中的应用主要包括以下5类:
(1)直接回归模型卷积神经网络(CNN)。其被训练用于将缠绕相位图直接映射为展开相位图。例如,Unwrap⁃Net[18]利用残差结构实现高精度的相位展开,无需额外的预处理步骤,表现出对噪声和欠采样的强鲁棒性。
(2)条纹级数分类。一些模型通过预测条纹级数(或缠绕次数)来重建真实的相位图。其中,Hformer模型[19]结合了CNN和Transformer架构,以提高条纹级数预测精度,超越了传统基于CNN的方法。
(3)混合深度学习与物理建模。将AI与传统物理建模方法结合,可提高模型泛化能力和可解释性。例如,Luo等[20]采用混合方法将深度学习与路径跟踪算法结合,在条纹投影轮廓测量中提升了空间相位展开的准确性。
(4)自监督学习。为应对标注数据稀缺的问题,研究者提出了自监督学习方法。Gao等[21]使用未标注的数据训练模型,即使在缺乏真实相位的场景下也能实现有效的相位展开。
(5)时序与多模态相位展开。先进的模型能够处理时间序列数据和多种干涉条纹模式。近期Zhao等[22]提出了一种多模态自适应的时序相位展开方法,能在不同频率和条纹类型下保持高精度。
对比研究表明,基于深度学习的相位展开方法在多种复杂条件下通常优于传统算法,主要体现在:(1)抗噪性能强。深度学习模型在高噪声环境中表现更稳定,能维持较高的准确率,而传统方法往往在此条件下失效。(2)处理相位突变与混叠能力强。AI方法能够更有效地处理相位跳跃和混叠问题,输出更加平滑的展开相位图。(3)计算效率高。训练完成后的深度学习模型推理速度快,适合实时应用场景。然而,这些模型在泛化能力、未见数据的适应性以及推理过程的可解释性方面仍存在挑战。
为进一步推进AI在相位展开中的应用,未来研究可能聚焦于以下方向:(1)增强模型泛化能力,开发能适应多种数据集和实际场景的通用模型。(2)提升可解释性,构建具有透明推理流程的AI系统,使用户能够理解和信任模型的决策。(3)扩展自监督技术,利用未标注数据训练鲁棒模型,减少对大量标注样本的依赖。这些方向的研究目标是构建更强大、更可信的光学相位展开AI工具。
5.2 AI技术重构曲面重建
三维视觉和计算机图形学中的曲面重建技术同样在AI技术应用趋势下实现重构,主要包括单视图重建和多视图重建。
单视图重建旨在从单张二维图像中恢复三维形状。由于该任务的本质是不适定的,因此研究者提出了多种基于学习的方法来解决。早期基于体素的表达曲面,如3D⁃R2N2[23]利用卷积和循环神经网络预测体素占据网格。这种方法具有局限性,内存开销较大,图像分辨率提升导致计算量急剧增加。后继方法基于点云或网格的预测,直接回归点云或网格顶点坐标,适用于更细致的重建。AtlasNet[24]将形状表示为多个可学习的参数化表面;Pixel2Mesh[25]从图像特征出发,逐步对初始网格进行形变。近年来兴起的方法使用深度神经网络(DNN)学习隐式表面表示,Occupancy Networks[26]学习一个连续函数,用以判断点是否在物体内部;DeepSDF[27]使用神经网络建模点到表面的有符号距离。
多视图重建方法利用从多个角度拍摄的图像来更准确地重建三维模型。传统的多视图立体视觉(MVS)方法依赖图像匹配与三角测量,基于深度学习的MVS方法利用构造的代价函数推理深度图MVSNet[28]从参考图像构造三维代价体并推理深度图。CasMVSNet[29]使用金字塔式代价体,从粗到细逐步提升精度。
神经辐射场(NeRF)及其拓展方法通过合成新视角实现间接的三维重建:NeRF通过神经网络学习空间点的颜色与密度,Mip⁃NeRF[30]、NeRF++[31]、GeoNeRF[32]提升了可扩展性、视角一致性与场景理解能力。由英伟达(NVIDIA)提出的即时神经图形原语(Instant Neural Graphics Primitives, Instant⁃NGP)[33]方法,实现了NeRF的实时训练和渲染,极大提升了三维重建的效率。该方法通过多分辨率哈希编码,优化了内存使用和计算速度。
5.3 AI 技术实现网格生成
点云到网格的重建是计算机视觉和图形学的核心任务,广泛应用于机器人、增强现实(AR)、医学成像等领域。传统方法在处理规则结构的点云时表现良好,但在处理噪声、稀疏或不完整数据时效果可能不佳。近年来,随着传统方法和深度学习方法的发展,相关研究取得了显著进展。
PointNet[34]及其变体直接处理原始点云数据,实现了对点云的分类和分割,为后续的网格重建提供了基础。自编码器(AE)架构通过编码器-解码器结构,将点云映射到潜在空间,再重建出网格模型。例如,AtlasNet[35]利用多个参数化平面贴图重建复杂表面。变形方法从初始网格出发,通过学习点云与网格间的对应关系,逐步变形以匹配目标形状。Point2Mesh[36]提出了自先验方法,利用输入点云自身的信息指导网格变形。Points2Surf[37]和Neural⁃Pull等方法使用隐式函数对点云片段建模,从而重建连续表面,特别适用于处理局部重叠和稀疏区域。拓扑感知方法,如Neural Template[38]利用拓扑约束和表面结构一致性进行三维建模,提升了拓扑保持和细节恢复能力。近期研究还推动了实时点云处理与多模态输入融合的研究,如Instant⁃NGP[33]使用多分辨率哈希编码(MHE)技术实现了快速的神经表面拟合。
保持锐利特征的重建方法,为了在重建中保留物体的锐利边缘和特征,提出了结合基元检测和深度学习的框架。例如,Erler等[37]提出了一种基于基元检测的重建框架,能够准确分割基元片段,并在每个片段中拟合网格,确保重建结果具有清晰的锐利边缘,同时保持模型的轻量化。
6三维扫描和曲面重建技术的行业应用
6.1 电影行业应用
三维扫描与曲面重建技术在电影视觉特效领域具有广泛应用。
(1)数字角色与虚拟演员建模
应用三维扫描获取演员面部与身体的高精度几何数据,驱动数字替身(Digital Doubles)、面部捕捉(Facial Capture)、动作捕捉(Motion Capture)等技术,结合几何建模与AI驱动的表情合成,实现高度真实的数字角色动画。类似技术在电影《阿凡达》(
Avatar)、《阿凡达:水之道》(
Avatar: The Way of Water)、《复仇者联盟4:终局之战》(
Avengers: Endgame)、《流浪地球2》中得到充分应用。
表情动作捕捉技术运用多摄像头阵列同步采集动态点云序列,结合形状重建方法(如非刚性配准、形变网格)用于还原动态表情和动作。电影《猩球崛起》(
Rise of the Planet of the Apes)系列中,演员通过头戴式三维捕捉系统采集肌肉形变,实现面部动画与真实表演的无缝结合。
(2)场景与布景数字化
通过激光雷达、结构光或摄影测量扫描实景拍摄地,可重建精细的三维场景模型,并以此作为虚拟布景、虚拟摄制(Virtual Production)与绿幕合成的基础。同样,也可对实物道具与服饰进行快速扫描和三维建模,减少人工建模工作量,提升制作效率。
《黑客帝国:矩阵重启》(
The Matrix Resurrections)应用全景三维扫描技术采集城市街景,用于数字场景还原与实时替换背景。虚拟环境搭建技术采用摄影测量+激光扫描对真实建筑、自然场景进行多视角采集,利用点云重建构建网格化虚拟布景,用于大规模特效合成或景深模拟。《曼达洛人》(
The Mandalorian)制作中使用点云重建与LED全景虚拟舞台相结合,实现动态景深与虚拟摄制。
(3)特效与合成
精确的几何模型可用于特效模拟(如碰撞、布料、流体模拟等),实现更真实的物理交互效果。如《飞驰人生2》利用三维扫描技术扫描赛车、山体和赛道模型,从而模拟出更为精准的摩擦、碰撞等效果,营造出真实感赛车环境。
6.2 文化、文物保护和数字遗产领域
三维扫描、点云重建与形状重建技术在数字遗产保护领域也已广泛应用。文物数字化技术利用高精度激光扫描对文物表面进行非接触采样,结合泊松表面重建、MLS平滑、基于深度的隐式重建技术生成高质量三维网格模型。数字米开朗基罗(Digital Michelangelo)[39]项目将意大利佛罗伦萨的大卫雕像扫描成30亿点云数据,为后续修复、研究与传播提供数字基础。历史遗址复原方法对历史建筑、遗址区域进行大范围三维扫描,配合Points2Surf、Neural Template等完成破损区域的AI形状重建,实现虚拟复原。巴黎圣母院火灾后,研究人员使用火灾前保存的激光点云数据,结合AI技术辅助几何建模进行三维重建与仿真。上述技术也可应用于虚拟教育与展示,例如利用VR/AR平台将数字文物导入虚拟展厅,实现可漫游、可交互的虚拟博物馆与在线教学。我国“数字敦煌”项目[40]实现了对莫高窟壁画与建筑的多模态重建与全球共享展示,为远程教育与学术研究提供了新模式。
6.3 存在的技术瓶颈
(1)高精度与高效率的矛盾。在影视制作中,对模型精度要求极高,尤其在近景或高分辨率渲染中。当前高精度扫描耗时长、成本高,且数据量庞大,给存储与处理带来压力。
(2)复杂表面与材质的建模难题。透明、反射、毛发、软组织等复杂表面仍难以准确扫描与建模,往往需依赖手工修复与后处理。
(3)大规模数据对齐与拼接问题。多视角、多批次扫描数据需要高效的配准(Registration)与融合算法,当前仍面临配准误差累积与数据冗余问题。
(4)缺失数据补全与重建挑战。在遮挡、阴影等情况下,扫描数据常存在缺失,如何智能补全并保持几何与视觉一致性仍是挑战。基于AI的方法正在改善但尚未完全成熟。
(5)实时性不足。对于虚拟摄制与实时渲染场景,当前几何建模与扫描仍难以满足实时性要求,影响交互式应用体验。
(6)成本问题。高端扫描硬件、专业人员与后期处理仍需大量投入,中小型影视制作公司面临较高技术门槛。
目前学术界正在发展新的技术和方法以解决这些瓶颈。例如:深度学习技术正在逐渐提升缺陷修复、重建精度与自动标注能力,实现AI辅助建模与自动化修复;NeRF与神经几何建模可提供高效、可学习的场景重建新范式,尤其适合影视场景快速构建;未来可能实现从拍摄到可用模型的自动管线,极大降低技术门槛,实现端到端的全流程自动化;结合光场、深度相机与AI算法,实时动态捕捉与建模,支撑虚拟摄制与数字人技术。
7总结与展望
随着科技发展,三维扫描技术从传统方法发展到结合AI显著提升数据处理精度与效率,深度学习在相位展开、单视图与多视图重建、点云到网格转换等方面展现出显著优势,有效解决了传统算法在处理噪声、复杂形状及不完整数据时的局限性,推动了数字孪生、影视制作、数字遗产保护等领域的技术应用。
展望未来,随着AI技术的不断进步,三维扫描与曲面重建技术有望在多个方面取得更大突破:首先,在算法层面,将致力于提升算法的泛化能力,开发能够适应多种数据集和实际场景的通用AI模型,以应对不同领域和应用场景的需求;其次,增强模型的可解释性,通过构建具有透明推理流程的AI系统,使用户能够理解和信任模型的决策过程;此外,扩展的自监督学习技术将有效利用未标注数据训练鲁棒模型,减少对大量标注样本的依赖,降低数据获取成本;同时,优化实时处理能力,结合硬件加速技术和优化算法,将满足动态场景捕捉和实时渲染的需求;最后,该领域有望深化跨领域融合,推动三维扫描与重建技术与其他新兴技术(如物联网、区块链等)的深度融合,为沉浸式交互娱乐、智能制造、智慧城市、医疗健康等多个行业带来创新变革,在更广泛的领域发挥重要作用。
参考文献
(向下滑动阅读)
[1] KAZHDAN M, BOLITHO M, HOPPE H. Poisson surface reconstruction[C]// In Proceedings of the fourth Eurographics symposium on Geometry processing, 2006.DOI:10.1145/1364901.1364904.
[2] MARTON Z, RUSU R B, BEETZ M. Fast surface reconstruction from noisy point clouds without normal estimation[C]//In 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2009.
[3] BERNARDINI F, MITTLEMAN J. The ball⁃pivoting algorithm for surface reconstruction[J].IEEE Transactions on Visualization and Computer Graphics,1999, 5(4):349⁃359.DOI:10.1109/2945.817351.
[4] LEVIN D. The approximation power of moving least⁃squares[J]. Math Comp, 1998(67):1517⁃1531.
[5] GOLDSTEIN R, ZEBKER H, WERNER C. Satellite radar interferometry: Two⁃dimensional phase unwrapping[J]. Radio Science, 1988,23(4):713⁃720.
[6] PRATI C, GIANI M, ENGINEER E E. SAR Interferometry: A 2⁃D Phase Unwrapping Technique Based On Phase And Absolute Values Informations[C]//Geoscience and Remote Sensing Symposium, 1990. IGARSS '90.IEEE, 1990.DOI:10.1109/IGARSS.1990.688929.
[7] DERAUW D. Phase unwrapping using coherence measurements[C]//Proceedings of SPIE⁃The International Society for Optical Engineering, 1995:319⁃324.DOI:10.1117/12.227141.
[8] FLYNN T J. Consistent 2⁃D phase unwrapping guided by a quality map [C]//In Proceedings of IEEE International Geoscience and Remote Sensing Symposium, IEEE, 1996.
[9] HERRÁEZ M A, BURTON D R, LALOR M J, et al. Fast two⁃dimensional phase⁃unwrapping algorithm based on sorting by reliability following a noncontinuous path[J].Applied Optics, 2002,41(35):7437⁃7444.DOI:10.1364/AO.41.007437.
[10] BIOUCAS⁃DIAS J M, VALADAO G. Phase Unwrapping via Graph Cuts[J].IEEE Transactions on Image Processing. 2007,16(3):698⁃709.DOI: 10.1109/TIP.2006.888351
[11] DONG J, CHEN F, ZHOU D, et al. Phase unwrapping with graph cuts optimization and dual decomposition acceleration for 3D high‐resolution MRI data[J].Magnetic Resonance in Medicine, 2017,77(3):1353.DOI:10.1002/mrm.26174.
[12] DONG J, LIU T, CHEN F, et al. Simultaneous phase unwrapping and removal of chemical shift (SPURS) using graph cuts: application in quantitative susceptibility mapping [J].IEEE Transactions on Medical Imaging, 2015, 34(2):531⁃540.DOI:10.1109/TMI.2014.2361764.
[13] FLYNN T J. Two⁃dimensional phase unwrapping with minimum weighted discontinuity[J]. Journal of the Optical Society of America A, 1997,14(10):2692⁃2701.DOI:10.1364/JOSAA.14.002692.
[14] GREIG D M, PORTEOUS B T, SEHEULT A H. Exact Maximum A Posteriori Estimation for Binary Images[J]. Journal of the Royal Statistical Society. Series B: Methodological, 1989, 51(2):271⁃279.DOI:10.1111/j.2517⁃6161.1989.tb01764.x.
[15] ROY S, COX I J. A Maximum⁃Flow Formulation of the N⁃Camera Stereo Correspondence Problem[C]//International Conference on Computer Vision. IEEE,1998.DOI:10.1109/ICCV.1998.710763.
[16] BOYKOV Y, JOLLY M. Interactive graph cuts for optimal boundary and region segmentation of objects in n⁃d images[C]//Proceedings of the International Conference on Computer Vision (ICCV), 2001.
[17] BOYKOV Y, FUNKA⁃LEA G. Graph Cuts and Efficient N⁃D Image Segmentation[J]. International Journal of Computer Vision, 2006, 70(2):109⁃131.DOI:10.1007/s11263-006-7934-5.
[18] YANG W, HE Y, ZHANG L, et al. Unwrap⁃Net: A deep neural network⁃based InSAR phase unwrapping method assisted by airborne LiDAR data[J].ISPRS Journal of Photogrammetry and Remote Sensing, 2024:12(218):510⁃529.
[19] ZHU X, HAN Z, YUAN M, et al. Hformer: hybrid convolutional neural network transformer network for fringe order prediction in phase unwrapping of fringe projection [J]. Optical Engineering,2022, 61(9).
[20] LUO X, SONG W, BAI S, et al. Deep Learning⁃enabled Spatial Phase Unwrapping for 3D Measurement[EB/OL]. [2025⁃05⁃29].https://arxiv.org/abs/2208. 03524.
[21] GAO X, SONG W, TAN C, et al. Self⁃supervised phase unwrapping in fringe projection profilometry[EB/OL]. (2023⁃02⁃13)[2025⁃05⁃29].https://arxiv.org/abs/2302.06381.
[22] ZHAO L, ZHU Y, WANG J, et al. Multimodal adaptive temporal phase unwrapping[J]. Applied Physics Letters, 2023,122(6):064104.
[23] CHOY C B, XU D, GWAK J Y, et al. 3D⁃R2N2: A Unified Approach for Single and Multi⁃view 3D Object Reconstruction[EB/OL]. (2016⁃04⁃02)[2025⁃05⁃29].https://arxiv.org/abs/1604.00449.
[24] GROUEIX T, FISHER M, KIM V G, et al. AtlasNet: A papier⁃mâché approach to learning 3d surface generation[EB/OL].(2018⁃02⁃15)[2025⁃05⁃29].https://arxiv.org/abs/1802.05384.
[25] WANG N, ZHANG Y, LI Z, et al. Pixel2Mesh: Generating 3d mesh models from single RGB images[EB/OL].(2018⁃02⁃24)[2025⁃05⁃29].https://arxiv.org/abs/1804.01654.
[26] MESCHEDER L, OECHSLE M, NIEMEYER M, et al. Occupancy Networks: Learning 3d reconstruction in function space[C]//In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[27] PARK J J, FLORENCE P, STRAUB J,et al. DeepSDF: Learning continuous signed distance functions for shape representation[C]//In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[28] YAO Y, LUO Z, LI S, et al. MVSNet: Depth inference for unstructured multi⁃view stereo[C]//In European Conference on Computer Vision (ECCV), 2018.
[29] GU X,FAN Z, DAI Z, et al. Cascade Cost Volume for High⁃Resolution Multi⁃View Stereo and Stereo Matching [C]// In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[30] BARRON J T, MILDENHALL B, TANCIK M, et al. Mip⁃NeRF: A multiscale representation for anti⁃aliasing neural radiance fields[C]//In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
[31] ZHANG K, LIU G R, KOLTUN V, et al. NeRF++: Analyzing and improving neural radiance fields [EB/OL].(2020⁃10⁃15)[2025⁃05⁃27]. https://arxiv.org/abs/2010.07492.
[32] JOHARI M M, LEPOITTEVIN Y, FLEURET F. GeoNeRF: Generalizing NeRF with Geometry Priors [EB/OL]. (2021⁃11⁃26) [2025⁃05⁃28]. https://arxiv.org/abs/2111.13539v2.
[33] MÜLLER T, EVANS A, SCHIED C, et al. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding[EB/OL]. (2022⁃01⁃16)[2025⁃05⁃28].http://arxiv.org/abs/2201.05989.
[34] QI C R, SU H, MO K, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[35] GROUEIX T, FISHER M, KIM V G, et al. AtlasNet: A papier⁃mâché approach to learning 3d surface generation[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[36] HANOCKA R, METZER G, GIRYES R, et al. Point2Mesh: A self⁃prior for deformable meshes[EB/OL]. (2020⁃05⁃22)[2025⁃05⁃28]. http://arxiv.org/abs/2005.11084v1.
[37] ERLER P, GUERRERO P, OHRHALLINGER S, et al. Points2Surf: Learning Implicit Surfaces from Point Cloud Patches.[EB/OL].(2024⁃02⁃13)[2025⁃05⁃28].http://arxiv.org/abs/2007.10453.
[38] HUANG Z, LIU L, THEOBALT C. Neural Template: Topology⁃aware Reconstruction and Disentangled Generation of 3D Meshes[C]//In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[39] LEVOY M, PULLI K, CURLESS B, et al. The digital Michelangelo project: 3D scanning of large statues[C]//In SIGGRAPH, 2001.
[40] 敦煌研究院. 数字敦煌资源库[EB/OL].[2025⁃05⁃27].http://www.e-dunhuang.com.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.