《现代电影技术》｜面向电影制作的三维数字人生成和编辑系统设计与应用研究|算法|参数化

分享至

本文刊发于《现代电影技术》2025年第8期

专家点评

数字人是通过数字技术创建的虚拟人物形象，其应用涵盖医学仿真、教育培训、文化传播等多个领域，当前数字人技术已实现高度逼真的交互与多场景落地。数字人生成融合计算机视觉、计算机图形学、人工智能等技术，可用于现代电影中人物的特效表现，其内容涉及人体、人脸、发型及服装等。在电影特效领域，数字人生成的研究尤为重要。《面向电影制作的三维数字人生成和编辑系统设计与应用研究》一文针对传统数字人制作流程成本高、周期长的产业瓶颈，设计并实现了一套单目视频驱动的数字人快速生成与编辑系统。所提技术方案创新整合了三维高斯泼溅（3DGS）技术高效渲染与易于编辑的优势，允许用户在生成高保真数字人后，支持直观、灵活、高效的二次创作。在人工智能（AI）与数字技术深度融合的今天，数字人技术加快推进智能化升级，技术性能、逼真度和智能化水平持续提升，其已从科幻概念走向现实场景，并成为连接虚拟与现实的核心载体。从打破物理限制的智能服务到重构文化传播的沉浸体验，数字人凭借其超写实形象、强交互能力及7×24小时不间断服务的特性，在多个领域掀起效率革命。相信本文介绍的技术将为相关领域的研究人员提供很好的借鉴与参考。

—— 潘志庚

二级教授

南京信息工程大学元宇宙研究院院长

作者简介

李梦甜

上海大学上海电影学院、上海电影特效工程技术研究中心讲师，主要研究方向：面向影视、游戏与艺术领域的数字内容理解与生成。

上海大学上海电影学院硕士研究生在读，主要研究方向：三维重建、数字人重建。

姚声祥

杨洋

上海大学上海电影学院讲师，主要研究方向：电影创作。

摘要

针对传统数字人制作流程成本高、周期长的产业瓶颈，本文以提升生产效率为核心目标，设计并实现了一套单目视频驱动的数字人快速生成和编辑系统。该方案创新整合了三维高斯泼溅高效渲染与易于编辑的优势，允许用户在短时间内生成高保真数字人后，对素材进行智能分割和存储，并立即进行直观、灵活的二次创作。测试结果显示，本系统能够显著缩短数字人的制作时间，并降低对专业采集设备与技能的依赖。研究表明，一体化生成和编辑系统是实现电影工业数字人生产降本增效的可行路径，可为海量三维素材库的构建和中小成本影片的视觉效果制作提供有力支持。

关键词

数字人；人工智能；电影制作；神经辐射场；三维高斯泼溅；DeepSeek

1引言

数字人生成作为计算机视觉（CV）与计算机图形学（CG）的核心研究领域，同时也是现代电影特效技术的重要组成部分，其研究目标可描述为对人体、人脸及服装等对象的数字化表示[1]。通过技术手段，将这些对象转化为数字形式，以实现对人类特征的精确建模与表达。在电影特效领域，数字人生成的研究尤为重要，无论是从零构建一个完全虚构的虚拟角色，还是通过创建演员的数字替身来复现其外貌与表演，其为动作捕捉、表情生成以及虚拟场景的融合提供了关键技术支持。通过优化算法效率和提升视觉效果的逼真度，数字人技术能够显著增强电影中角色的表现力和沉浸感，为观众带来更加震撼的视觉体验。从《超人》中冲破天际的钢铁之躯，到《本杰明·巴顿奇事》里逆龄生长的奇幻形象，再到《波西米亚狂想曲》重现的万人演唱会盛况，数字人技术始终伴随着电影艺术对特殊表现手法的需求而持续演进。数字人技术不仅推动了电影特效技术的发展，还为未来电影创作提供了更多可能性。

随着人工智能（AI）技术的持续演进，其在电影工业中的应用正极大提高电影制作的效率[2]，使创建高逼真度数字人的成本逐步降低。数字人生成和编辑作为当前学术界的前沿研究领域，每年涌现大量创新技术推动该研究方向向纵深发展。本文系统梳理了学术界近年来在数字人生成和编辑领域的技术进展与研究趋势，探讨其在电影特效中的潜在应用，并提出一个行之有效的数字人生成和编辑系统，最后剖析了当前技术将会如何影响电影制作流程及其发展方向。

2基于AI技术的数字人生成和编辑技术发展概况

当前工业界广泛应用的光场（Light Stage）系列三维重建技术，是由Paul Debevec团队于2000年提出的创新性采集系统[3]。该技术体系通过构建精密的光场采集装置，在球面坐标系下布置超过150个可控LED光源与多视角同步相机阵列，结合光度立体（Photometric Stereo）视觉方法，实现毫米级精度的动态几何重建并获取高分辨率表面贴图。相较于其他多目立体视觉方法，Light Stage通过精确控制光照方向和摄影序列，有效解决了复杂材质表面（如皮肤、毛发等）的反射分离难题，其数据采集流程已广泛应用于电影特效[4]。

光场采集环境搭建通常需要大量的人力和物力投入，这使基于光场技术生成虚拟角色的成本居高不下。当前研究的核心问题在于如何降低数字人的生成成本，同时提升其生成效率和表现效果。研究人员通过引入AI技术并探索新颖的表达方式，致力于在更短时间内实现高质量的数字人生成，或在更低要求的摄影环境中实现高效的重建。基于这一目标，学术研究主要分为以下几个方向：在不同的图像输入条件下的角色生成、基于文本的虚拟角色生成以及高效率的模型编辑。如图1所示，输入源的多样性决定了算法所能获取的信息量。在此基础上，各类处理方法相辅相成，形成了技术合力，共同促进了数字人技术的发展演进。

图1　数字人重建和生成的分类

2.1 基于密集多视角输入的方法

基于密集多视角输入进行动态人体三维重建，是近年来备受关注的研究方向。传统图形学方法通常采用光场系统采集数据，并通过表面、图像或光度配准等方式来整合多视角信息[5]，或利用骨架驱动拟合表面[6, 7]。这些方法在处理几何与纹理信息时流程复杂，相较之下，基于AI的新范式通过引入先进的神经表征技术，不仅大幅提升了重建的计算效率，更在人体形态及衣物细节的精准捕捉上展现出卓越性能。

Zheng等[8]通过使用在参数化人体模型表面定义一系列信息点，将其作为局部的结构信息点输入给多层感知机（MLP），使用神经辐射场（NeRF）来表达，支持使宽松的衣服在不同的动作下产生自然的阴影变化。Li等[9]通过将局部的信息点和关节骨架进行结合，通过多层次的三平面编码，大幅提高了重建精度。然而，基于神经辐射场的方法往往受限于渲染速度，限制了其重建效率。

Li等[10]提出可动画高斯（Animatable Gaussians），使用符号距离场（SDF）作为基准几何模型，结合二维卷积网络来学习高斯贴图，这样既可获得基于符号距离场的准确的几何结果，又达成三维高斯泼溅（3D Gaussian Splatting, 3DGS）的高效渲染速度，并且保证了宽松衣服的重建质量。Chen等[11]使用显式的网格表达从隐式距离场中提取出的信息，重建出适应当前工业渲染管线的人体模型。Chen等[12]在Animatable Gaussians基础上，通过使用非刚体变化的网格模型替代了符号距离场，并将局部高斯的属性使用基于姿势的混合形状（Blend Shape）进行表达，既保证了具备宽松衣物的细节，也提供了一个离线神经网络用于生成服装的非刚体变化，结合三维高斯表达使其能够进入渲染引擎中进行高效、高速的渲染和动画。这些方法生成的高保真虚拟角色具有优良的几何和贴图细节，不再需要艺术家花费大量时间优化模型细节，能够直接投入影视制作流程。

除了使用神经网络来表达衣服的褶皱，Zheng等[13]通过拟合每一帧静态网格，使用物理模拟的方式不断拟合出数字人姿势和衣服变化之间的关系，并使用基于物理的可微渲染来获得整体的外观建模结果。该方法可直接生成一个支持姿态与衣物协同形变的可驱动数字人，从而显著提升下游动画的制作效率。

2.2 基于稀疏多视角输入的方法

2.2.1 基于稀疏多视角视频的方法

相较于搭设复杂的光场系统，在空间中不同方向布置4到6个固定摄影机可快速重建数字人。Peng等[14]使用参数化人体模型的顶点作为潜在编码输入多层感知机，这些顶点会随着人体姿态不断移动，以存储不同动作、不同视点下人体模型的纹理信息，将潜在编码和神经混合权重场相结合，将不同角度所得信息权重进行混合，即可生成可驱动的人体模型。在较少的视角条件下，即可制作出《黑客帝国》中的“子弹时间”特效。

2.2.2 基于单人旋转视频的方法

相较于需要配准的多视角摄像头，通过录制角色在镜头中间保持特定姿态旋转的视频也能生成目标角色数字人。Weng等[15]通过将人体姿势作为网络的输入，用骨骼变化控制空间中视点的变化，该神经网络通过学习并编码一个动态人体的多视角信息，进而支持对原始的单目舞蹈视频进行新视角合成与观赏。Chen等[16]用参数化人体模型的顶点作为神经渲染中视点变化的控制点，其将一个动态的人体重建问题转化为静态人体模型的采样问题，随着输入的姿态变化驱动人体模型重演出不同的姿势。为进一步提高重建效率，Instant⁃NGP[17]通过哈希网格查询辐射场的光线点，大幅提高了神经辐射场的渲染速度。将参数化人体模型的顶点输入哈希网格中，Jiang等[18]实现了1分钟内重建人体模型，并将数字人的渲染效率提高至15 FPS。

为追求更高的渲染效率，新技术将原有的神经辐射场（NeRF）模块，替换为三维高斯泼溅（3DGS）表示方法。Qian等[19]利用可学习的蒙皮权重控制局部高斯点的变化，使其能在45分钟左右重建出高精度的人体模型。Hu等[20]采用参数化人体模型的UV纹理作为姿态特征以生成高斯点云，可实现通过姿势识别实时控制人物模型的变换。但上述方法都无法直接迁移至当前的渲染管线中。Splatting Avatar[21]将高斯点与三角形网格面绑定，并在表面上附加平移，可实现直接导入渲染引擎中使用并控制。Moon等[22]将参数化人体模型的顶点编码到三平面空间，并使用高斯作为纹理表示，该方法具备对人体姿态和面部表情进行动画控制的能力。以上方法为之后在电影工业中快速迭代虚拟预演（PreViz）场景和素材提供了有效的技术支撑。

2.2.3 基于单人照片集输入的方法

当目标人物的动态视频序列难以获取时，一种有效的替代方案是利用一组包含不同姿态与视角的人物静态图像完成三维模型的重建。Xiu等[23]将非结构化的图像与文本信息，转化为适用于数字人生成的结构化表征。使用多模态模型整合不同来源的图像数据，通过语义分割定位目标，并从中提炼出关键的外观特征。这些特征通过统一组织，作为生成高质量数字人的基础，其使用基于可微分行进四面体（Differentiable Marching Tetrahedra, DMTet）的方法从静态图像集合中重建三维人体模型。其生成的网格具有良好的拓扑结构且与主流图形渲染管线兼容，这一特性为创建特定时期（如演员年轻时）的数字替身或进行数字资产归档提供了一条高效的技术路径。

2.3 基于单张图像输入的方法

单张图像作为生成的唯一输入源，其固有的信息局限性为三维人体建模带来了巨大挑战。具体而言，模型必须在严重缺乏多视角线索的情况下，推断出被遮挡部分的精确几何形态与表面纹理。德国马克斯·普朗克智能系统研究所（MPI⁃IS）由 Michael J. Black 领导的团队做出了开创性贡献，他们先后提出了经典的参数化人体模型SMPL[24]及其重要的扩展版本SMPL⁃X[25]。参数化人体模型将体型表达和姿势表达使用参数进行拟合。在实现过程中，往往将图像特征输入给全连接神经网络来获得人体参数，从人体参数中还原一个粗糙的人体模型。Ma等[26]在参数化人体模型的顶点上进行偏移，以生成目标角色身上的服装细节。Corona等[27]通过使用模板化的衣服拟合图像中的衣物信息，为参数化人体模型穿上衣服。尽管这些方法能够有效驱动参数化人体模型生成动画，但此类模型本身固有的局限性也十分明显：一方面，其在表达个体身份的独特性上能力有限；另一方面，其重建的几何细节与表面保真度也相对不足。Xiu等[28]结合了隐式距离场和参数化人体模型，通过采用类似于正反两个角度配准的方式来生成不同角度下的网格模型并使用参数化人体模型进行补全，能够生成极端姿势图片的人体模型，并使用参数对齐进行驱动。为提高颜色准确度和模型精度，Zhang等[29]通过将单张图片及其对应的参数化人体模型法向一起输入给识别能力更强的Transformer模型生成基础的模型，之后使用生成模型为得到的粗糙模型和贴图进行更为精细的修补和上色，将传统重建方法和新的生成式方式相结合，增强模型的编辑能力。Huang等[30]使用大语言模型来理解图片的内容，在单图重建的基础上，使用扩散模型对衣服上的细节进行更细致的监督和优化。

通过使用大模型进行大量的数据学习和生成分析，单图重建已能够实现1 s左右的重建速度。Qiu等[31]使用30万个人体视频进行学习，将图片和参数化人体模型的不同部分使用Transformer模型进行关联，最后使用三维高斯泼溅的方法进行解码渲染。Zhuang等[32]通过在UV空间中对人体模型进行参数化。以上方法基于贴图和三维网格表达，可实现对模型纹理的直观编辑，也为构建大规模三维角色资产库提供了清晰的技术蓝图。在此基础上，生成精度的持续提升将有望打通从二维图像到三维资产的转化链路，最终赋能电影工业实现资产制作效率的巨大飞跃。

2.4 基于文本输入的方法

随着基于扩散模型的生成方法持续发展，基于文字描述直接生成人物模型的研究逐渐增多。大多数方法通过在参数化人体模型周围进行采样，生成初步的人体模型，并利用多样化的监督方法生成不同类型的模型。Liao等[33]通过对参数化人体模型进行网格细分，并以目标法线图和颜色图为监督，学习一个从粗糙到精细的顶点偏移。由此生成的高精度人体模型不仅捕捉了丰富的表面细节，还能直接兼容主流的图形渲染管线，无需额外处理。

2.5 可编辑的数字人技术

神经辐射场（NeRF）与三维高斯泼溅（3DGS）等新兴技术虽然在三维重建速度上展现出巨大优势，但其成功也伴随着显著代价。由于采用了与传统多边形网格截然不同的三维表示方法，这些模型往往难以直接编辑，从而为后续的精细化修改与艺术创作带来了巨大挑战。编辑方法通常结合大语言模型和生成式模型在输入图像上进行修改，再从二维的结果提升至三维。Mendiratta等[34]通过先重建一个神经辐射场模型，再输入期望编辑的文本对多角度图像进行编辑，同时对辐射场模型进行修改和重建。Sunagad等[35]使用类似方式，通过生成式模型对重建的图像进行编辑，并且采用ControlNet生成角色编辑后的法向结果作为生成的监督来提高编辑后的生成模型质量。

除使用扩散生成模型编辑原型图片的方法外，近年来有诸多方法专注于如何在神经辐射场等特殊表达形式上直接编辑的方法。Xiao等[36]在参数化人体模型的表面构造潜在编码，以分离几何和纹理，从而实现重光照和局部阴影编辑。为使编辑方式对用户友好，Feng等[37]结合基于神经辐射场表达的衣服和基于显式网格的身体建模，以更好地表示每个单独的部分，用户可快速将衣服转移到另一个角色身上。Lin等[38]使用两层高斯贴图来增强衣服的细节，并实现衣服的交换和编辑。虽然这些研究能生成颇为逼真的虚拟试衣效果，但他们普遍缺乏对试穿后衣物进行精细化编辑的能力，例如调整衣物的款式、版型或褶皱形态。Ho等[39]将特征存储在网格顶点上，为这些特征创建一个码本，通过对码本进行编辑和替换，能够做到较大范围内的局部编辑。Zhang等[40]使用扩散模型在参数化人体的UV平面上生成高斯贴图，并附加在参数化人体模型表面，可实现局部几何和贴图的编辑。这些方法为艺术家后续编辑提供了丰富的个性化工具。

3单目视频条件下的三维数字人生成和编辑系统设计

本文旨在构建一个数字人快速生成且可编辑的系统，以期为电影制作提供便利，提高制作效率。如图2所示，该系统的工作流程主要包括以下步骤：用户通过上传单人旋转视频到服务器上，系统会在后台处理视频数据，并通过三维重建方法生成一个可驱动的人体模型。在生成角色模型后，系统会将该模型按照语义智能分割并存储到不同的素材库，以供艺术家在后续流程中进行个性化编辑，并为未来的影视相关产品开发提供素材。同时用户可在系统中通过自然语言编辑角色模型，调整后的素材可直接导入三维软件中使用。在所有的输入中，单目旋转视频在数据采集的简易度与最终重建的高保真度之间达到了一个较好的平衡点，因此大量的研究都基于此条件进行算法设计。基于此，本系统采用单目视频作为输入条件，并采用三维高斯泼溅算法，以实现数字人的高效生成与快速编辑。

图2　单目视频条件下的三维数字人生成和编辑系统流程图

3.1 单目视频条件下基于三维高斯泼溅的人体模型生成算法

图3所示算法通过输入角色单目视频，使用基于三维高斯泼溅的人体模型重建算法生成三维模型。在生成过程中，算法会根据角色图片进行智能分割，将三维模型基于语义信息分割为角色模型和服饰素材，并分别保存至不同的素材库中。

图3　单目视频条件下的三维数字人生成流程图

（1）算法设计

（2）实验结果

为验证生成效果，本文采用以下三种指标进行评估：①峰值信噪比（Peak Signal⁃to⁃Noise Ratio, PSNR），测量重演图像与真实图像之间的误差，评估重建的整体质量，PSNR值越高，表明生成的模型越真实；②结构相似性指数（Structural Similarity Index, SSIM），从亮度、对比度、结构三方面评估两幅图像的相似性，值越高表明生成的图像更真实；③学习感知图像块相似度（Learned Perceptual Image Patch Similarity, LPIPS），基于深度学习模型提取图像特征，计算特征空间的距离，衡量图像的感知相似度，值越低证明人眼感知上更像真实图像。这三种评价指标通过量化渲染图像与真实参考图像之间的误差，从不同维度对重建质量进行综合考量，共同构成了对本文模型精度的全面评估体系。测试用的数据集为PeopleSnapshot，是目前主流方法常用的测试数据集，其包含多个单人原地旋转的视频，通过使用手机在非实验室环境中拍摄，符合主流应用环境。本文与目前效果最好的方法InstantAvatar[18]和3DGS⁃Avatar[19]进行比较，实验结果（表1）表明，本文方法在所有指标上都具较为明显的优势，并且重建时间相较于3DGS⁃Avatar的45分钟，缩减至30分钟。综合多项指标，本文方法在效率上提升了33.33%，在重建精度上平均提升了10%。

表1　本文方法与文献[18,19]的定量对比结果

3.2 基于三维高斯泼溅的人体模型编辑系统

特殊表达的人体模型虽无法直接在工业引擎中快速编辑，但本文系统也提供了多种编辑方法辅助用户高效快速编辑人体模型（图4）。一种方法是将角色模型的多视角图片交给视觉模型进行部位分割，并针对图片整体及各个部位生成文字描述。之后，将文字描述及用户想要编辑部位一同输入给DeepSeek模型，针对用户需求生成并调整提示词（Prompt）。最后，将提示词和图片输入扩散模型进行图片编辑，并在修改的同时对角色模型进行优化和调整。由于扩散模型可能会使图像产生不可控制的变化，我们也提供了局部编辑的方法，用户能够使用局部框选工具来选择参数化人体模型的顶点，通过变换顶点映射的三维高斯点，实现对模型的几何和纹理进行编辑。

图4　单目视频条件下的三维数字人编辑流程图

3.3 系统应用

在电影制作领域，本文提出的系统具有显著优势，该系统不仅能生成目标角色，并且在高效生成的基础上创新性地提供了多种编辑方式，搭配使用DeepSeek模型可进一步降低用户操作难度，提供更加友好的交互方式。

如图5所示，用户仅需在拍摄好角色视频后上传到系统，系统会为用户生成该角色的数字人模型，之后用户即可使用自然语言为该模型进行不同类型的编辑。DeepSeek模型会分析自然语言，并生成图片编辑的提示词，以编辑图片并重新生成模型。为解决中小制作团队在独立创建数字人时所面临的高昂成本与技术壁垒问题，本系统提供了一套极其简化的解决方案。其直观的文本输入界面与便捷的操作流程，使非专业背景的用户也能够快速、高效地对数字人模型进行编辑与迭代。例如，编剧可通过简单的文本描述来编辑模型以确认角色的服饰和道具。这不仅能加快电影制作速度，还能提升电影整体质量。同时，相较于传统的数字人制作，采用该系统则不再需要耗费数天，创建一个数字人仅需30分钟，通过素材库进行编辑，可实现和建模软件一样实时编辑与“所见即所得”。

图5　单目视频条件下的三维数字人生成和编辑系统演示

4三维数字人技术对影视制作的影响

当前短视频平台上有较多用户使用单图或稀疏视图的生成方式快速创建数字化身（Digital Avatar‌），为自己的视频创作特定元素，获得了较好的用户反响。如使用Viggle AI快速创建动画化身，可实现在几分钟内创建出个性化数字人的舞蹈视频；而今年春晚舞台上的《笔走龙蛇》更是采用了类似数字人重建技术，通过多视角拍摄，快速生成包含4D时序信息的三维场景，这也表明了采用AI技术能大幅提高影视制作效率[41]。本节将从以下三个主要方向探讨三维数字人技术对未来影视制作的影响。

4.1 优化前期制作流程

随着技术的不断进步，数字人的创建成本已显著降低，并在数据输入复杂性、重建时间方面取得了质的飞跃。如前文所述，生成一个高精度、可直接应用于工业渲染管线的数字人已变得高效便捷。未来，通过演员的数字化身，可快速验证其外形是否符合剧本要求，并可直接将其嵌入目标场景，借助虚拟预演技术，创作者能够预先调整和评估场景光照，从而大幅减少实地踩点、光影调试等环节的资源浪费，显著提升影视制作效率。

这类技术的应用不仅优化了传统制作流程，还为创作团队提供了更加灵活的创意表达方式。通过虚拟化手段，创作者可在前期阶段快速迭代方案，避免后期调整带来的高昂成本。同时，数字化身的实时反馈能力也让团队能够更直观地调整角色与场景的契合度，确保最终作品的高质量呈现。这种效率与灵活性的结合，正在为影视制作行业带来前所未有的变革。

4.2 提高素材生产效率

在影视制作领域，虚拟角色的生成和编辑一直是电影数字资产的重要组成部分。从文字描述到画稿，再到三维建模，每一步都需耗费大量时间和人力。然而，随着大语言模型与三维数字人生成模型的飞速发展，这一流程正被彻底重塑。如今，通过DeepSeek和3DTopia等先进工具对创作需求的深度解析，创作人员的需求可被精准转化为数字模型的输入参数。这种技术不仅能够快速生成虚拟角色的草稿，还能在短时间内迭代优化，直至产出高质量的成品模型。整个过程大幅减少了传统美术流程中的冗余环节，将创作效率提升至前所未有的高度，通过深度结合多种AI工具，创作者们也能够以较低门槛快速参与到技术迭代中。美术人员也可从繁琐的重复性劳动中解放，将更多精力投入到创意本身。

4.3 激发小成本影视制作活力

随着数字人和虚拟角色生成技术的普及，制作成本的显著降低使越来越多的创作者能够通过虚拟化手段构建更加丰富的世界。中小成本剧组也能够借此突破传统制作的局限，通过使用丰富的虚拟角色素材，结合文本生成动作模型，能够在有限的成本下，让创作者能够轻松构建复杂的场景，如繁忙的街景或人山人海的演唱会现场。而这些群体动画在传统制作中往往需要极高的成本和资源投入。如今，数字人技术的引入不仅降低了制作门槛，还为创意表达提供了更广阔的空间。

5结语

尽管近年来AI技术的应用使三维数字人生成和编辑取得了显著进展，但其在电影制作领域的应用仍面临诸多挑战，在一定程度上限制了其在电影制作全流程中的普及与推广。例如，当前能够完全兼容工业渲染管线的技术较少，且生成的人体模型缺乏直接编辑性，使技术的实际应用受到制约。为应对这些挑战，本文提出的单目视频条件下的三维数字人生成和编辑系统，通过优化算法和模型架构，不仅能够高效生成适用于现有渲染管线的数字人模型，还为用户提供了丰富的编辑功能，进一步增强了系统的实用性和灵活性。这一创新系统为电影制作中的数字人应用提供了更高效、更便捷的解决方案。展望未来，随着AI技术的持续突破与创新，数字人生成和编辑技术将在电影制作领域释放更大潜能，不仅能显著提升创作效率、降低制作成本，更能为电影艺术创作开辟全新的表达维度和创意空间，推动电影艺术形式的革新与突破。

参考文献

（向下滑动阅读）

[1] 洪阳.高保真虚拟数字人的表示与重建[D].中国科学技术大学,2022.DOI:10.27517/d.cnki.gzkju.2022.000779.

[2] 王春水.人工智能技术的发展及其对影视制作的影响[J].影视制作,2023,29(10):13⁃21.

[3] DEBEVEC P, HAWKINS T, TCHOU C, et al. Acquiring the reflectance field of a human face[C]//Proceedings of the 27th annual conference on Computer graphics and interactive techniques, 2000: 145⁃156.

[4] USC Institute for Creative Technologies. Light Stage X [EB/OL] .(2022⁃03⁃01) [2025⁃07⁃13]. https://vgl.ict.usc.edu/LightStages/.

[5] GHOSH A, HAWKINS T, PEERS P, et al. Practical modeling and acquisition of layered facial reflectance[J]. ACM Transactions on Graphics, 2011, 30(6): 1⁃10.

[6] GRAHAM P, TUNWATTANAPONG B, BUSCH J, et al. Production facial capture and solving at scale[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2019 Courses, 2019:1⁃60.

[7] VLASIC D, PEERS P, BARAN I, et al. Dynamic shape capture using multi⁃view photometric stereo[M]//ACM Special Interest Group on Computer Graphics and Interactive Techniques Asia 2009 papers, 2009: 1⁃11.

[8] ZHENG Z, HUANG H, YU T, et al. Structured local radiance fields for human avatar modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 15893⁃15903.

[9] LI Z, ZHENG Z, LIU Y, et al. Posevocab: Learning joint⁃structured pose embeddings for human avatar modeling[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2023 conference proceedings, 2023: 1⁃11.

[10] LI Z, ZHENG Z, WANG L, et al. Animatable Gaussians: Learning pose⁃dependent gaussian maps for high⁃fidelity human avatar modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 19711⁃19722.

[11] CHEN Y, ZHENG Z, LI Z, et al. Mesh Avatar: Learning high⁃quality triangular human avatars from multi⁃view videos[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 250⁃269.

[12] CHEN J, HU J, WANG G, et al. TaoAvatar: Real⁃Time Lifelike Full⁃Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting[C]//Proceedings of the Computer Vision and Pattern Recognition Conference, 2025: 10723⁃10734.

[13] ZHENG Y, ZHAO Q, YANG G, et al. Physavatar: Learning the physics of dressed 3d avatars from visual observations[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 262⁃284.

[14] PENG S, ZHANG Y, XU Y, et al. Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 9054⁃9063.

[15] WENG C Y, CURLESS B, SRINIVASAN P P, et al. Humannerf: Free⁃viewpoint rendering of moving people from monocular video[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 16210⁃16220.

[16] CHEN J, ZHANG Y, KANG D, et al. Animatable neural radiance fields from monocular rgb videos[EB/OL]. (2021⁃06⁃25)[2025⁃07⁃21]. https://arxiv.org/abs/2106.13629.

[17] MÜLLER T, EVANS A, SCHIED C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics , 2022, 41(4): 1⁃15.

[18] JIANG T, CHEN X, SONG J, et al. InstantAvatar: Learning avatars from monocular video in 60 seconds[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 16922⁃16932.

[19] QIAN Z, WANG S, MIHAJLOVIC M, et al. 3DGS⁃Avatar: Animatable avatars via deformable 3d gaussian splatting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 5020⁃5030.

[20] HU L, ZHANG H, ZHANG Y, et al. Gaussianavatar: Towards realistic human avatar modeling from a single video via animatable 3d gaussians[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 634⁃644.

[21] SHAO Z, WANG Z, LI Z, et al. Splatting Avatar: Realistic real⁃time human avatars with mesh⁃embedded gaussian splatting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1606⁃1616.

[22] MOON G, SHIRATORI T, SAITO S. Expressive whole⁃body 3D gaussian avatar[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 19⁃35.

[23] XIU Y, YE Y, LIU Z, et al. PuzzleAvatar: Assembling 3d avatars from personal albums[J]. ACM Transactions on Graphics , 2024, 43(6): 1⁃15.

[24] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: A skinned multi⁃person linear model[M]//Seminal Graphics Papers: Pushing the Boundaries, Volume 2, 2023: 851⁃866.

[25] PAVLAKOS G, CHOUTAS V, GHORBANI N, et al. Expressive body capture: 3d hands, face, and body from a single image[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 10975⁃10985.

[26] MA Q, SAITO S, YANG J, et al. SCALE: Modeling clothed humans with a surface codec of articulated local elements[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 16082⁃16093.

[27] CORONA E, PUMAROLA A, ALENYA G, et al. Smplicit: Topology⁃aware generative model for clothed people[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021: 11875⁃11885.

[28] XIU Y, YANG J, CAO X, et al. ECON: Explicit clothed humans optimized via normal integration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 512⁃523.

[29] ZHANG Z, YANG Z, YANG Y. Sifu: Side⁃view conditioned implicit function for real⁃world usable clothed human reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 9936⁃9947.

[30] HUANG Y, YI H, XIU Y, et al. Tech: Text⁃guided reconstruction of lifelike clothed humans[C]//2024 International Conference on 3D Vision, 2024: 1531⁃1542.

[31] QIU L, GU X, LI P, et al. LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds[EB/OL]. (2025⁃03⁃18)[2025⁃07⁃21]. https://arxiv.org/abs/2503.10625.

[32] ZHUANG Y, LV J, WEN H, et al. IDOL: Instant Photorealistic 3D Human Creation from a Single Image[EB/OL]. (2024⁃12⁃19)[2025⁃07⁃21]. https://arxiv.org/abs/2412.14963.

[33] LIAO T, YI H, XIU Y, et al. Tada! text to animatable digital avatars[C]//2024 International Conference on 3D Vision, 2024: 1508⁃1519.

[34] MENDIRATTA M, PAN X, ELGHARIB M, et al. Avatarstudio: Text⁃driven editing of 3d dynamic human head avatars[J]. ACM Transactions On Graphics, 2023, 42(6): 1⁃18.

[35] SUNAGAD B, ZHU H, MENDIRATTA M, et al. TEDRA: Text⁃based Editing of Dynamic and Photoreal Actors[EB/OL]. (2024⁃08⁃28)[2025⁃07⁃21]. https://arxiv.org/abs/2408.15995.

[36] XIAO J, ZHANG Q, XU Z, et al. Neca: Neural customizable human avatar[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 20091⁃20101.

[37] FENG Y, LIU W, BOLKART T, et al. Learning disentangled avatars with hybrid 3d representations[EB/OL]. (2023⁃09⁃12)[2025⁃07⁃21]. https://arxiv.org/abs/2309.06441.

[38] LIN S, LI Z, SU Z, et al. Layga: Layered gaussian avatars for animatable clothing transfer[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2024 Conference Papers, 2024: 1⁃11.

[39] HO H I, XUE L, SONG J, et al. Learning locally editable virtual humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 21024⁃21035.

[40] ZHANG W, YAN Y, LIU Y, et al. E 3Gen: Efficient, Expressive and Editable Avatars Generation[C]//Proceedings of the 32nd ACM International Conference on Multimedia, 2024: 6860⁃6869.

[41] 诸杏娟. 这届春晚开始拼技术了！AI大模型绝美定格、机器人扭秧歌，云使用量达历年之最[EB/OL].(2025⁃01⁃29) [2025⁃07⁃13]. https://www.163.com/dy/article/JN2TK8L405566ZHB.html.

【基金项目】国家自然科学基金青年科学基金项目“有限标注下的室内三维场景感知与编辑关键方法研究”（62402306）；上海市“科技创新行动计划”自然科学基金项目“复杂室内三维场景细粒度感知关键方法研究”（24ZR1422400）。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.