《现代电影技术》｜吴方强等：人工智能生成内容（AIGC）驱动的电影虚拟角色面部特效研究|动画

分享至

本文刊发于《现代电影技术》2024年第11期

专家点评

在电影行业虚拟角色特效制作领域，表情制作的“逼真”与高效，一直是创作人员创新和专业技术领域突破的制高点之一。人工智能生成内容（AIGC）的颠覆式发展，给虚拟角色，尤其是非人虚拟角色的表情制作带来了新的探索思路。当下主要有两个技术路线：一是充分利用AI大模型的高效生成能力，同时加强对影像关键帧的描述性约束控制；二是在输入参考的图片和影像中，增强对虚拟角色表情和动作的迁移控制。总体上，随着AIGC技术的发展进步，其驱动虚拟角色表情制作的水平，在实验中已基本能够满足影视作品虚拟预演快速制作的技术要求，多用于电影特效镜头的辅助参考，但未来直接生成电影高质量内容的阶段应该很快就会到来，值得行业人员积极研究。《人工智能生成内容（AIGC）驱动的电影虚拟角色面部特效研究》一文，对当下特效领域应用AIGC驱动虚拟角色面部特效的方法进行了整体分析，对当下主流国产AI大模型在影视级虚拟角色表情特效制作中的实验效果进行了对比分析和整体判断，提出了符合行业实际的制作思路和优化流程，指出了高分辨率和多角色表演的未来持续研究方向。

——刘军

研究员

中国电影博物馆副馆长

中国电影电视技术学会先进影像专委会副主任

作者简介

吴方强

北京电影学院摄影系实验师，主要研究方向：数字电影色彩、数字电影CGI技术。

北京电影学院摄影系讲师，主要研究方向：数字电影摄影技术、虚拟摄制。

徐沁雪

周冰

北京电影学院表演学院副教授，主要研究方向：戏剧、电影表演艺术研究。

摘要

为研究AIGC技术对特效领域中虚拟非人角色表情制作带来的变革，本文结合当下主流国产AI大模型，对影视级虚拟角色表情特效制作开展实验，并提出制作思路和优化的制作流程。实验结果基本满足影视作品虚拟预演（PreViz）快速制作的技术要求，可用于电影特效镜头的辅助制作。本文最后总结了该实验方法的可拓展性及迭代方向。

关键词

AIGC；动作捕捉；文生视频；表情特效；国产大模型

1引言

随着计算机视觉（CV）技术的快速发展，特效制作成为影视作品的重要组成部分，模拟、仿真重现、再创造一直是该领域的研究重点。多年来，电影虚拟角色特效领域已具备完整的生产制作流程，从身体动作到面部表情均有不同路径的解决方案，这些方案基本围绕三维动画工具搭建，从三维模型到骨骼绑定，都与三维仿真技术高度关联。随着技术的发展，虚拟角色模型已有多种成熟解决方案，而虚拟角色表情一直是制作难度较高的环节。人工智能生成内容（Artificial Intelligence Generated Content, AIGC）技术的出现让笔者重新思考这一领域的制作，是否可用AIGC技术实现这一对传统三维制作富有挑战的环节。当下AIGC商用产品中有诸多使用视频驱动图片中角色面部动作的解决方案，主要用于真人角色面部动作制作，对其他非人类角色的支持并不友好。本文提出一种基于AIGC的解决方案，无需三维仿真工具介入，也能较好地处理虚拟角色表情特效，且可大幅降低制作成本。

虚拟角色在生产生活中应用广泛，本文讨论的虚拟角色主要指电影行业终端银幕影像中的虚拟角色。

2虚拟角色面部特效制作技术

虚拟角色面部特效制作技术复杂，主要使用基于计算机图形学（Computer Graphics, CG）的三维应用来生产，其关键技术主要有面部建模、材质贴图、骨骼蒙皮、动画模拟、渲染生成等[1]，制作工艺复杂，修改链条长，制作周期长。本文主要基于虚拟角色制作中的面部表情特效制作进行重点论述，这是虚拟角色特效制作的创作重点和技术难点，其制作技术主要有手动制作关键帧驱动的表情特效技术、基于面部动作捕捉的表情特效技术等。

2.1 手动制作关键帧驱动的表情特效技术

手动制作关键帧驱动的表情特效技术需要首先基于面部三维模型进行蒙皮骨骼绑定，得到面部特征控制的基本驱动点后，再通过动画艺术家手动为这些驱动点制作不同的表情动作关键帧以生成表情特效。该技术目前仍被大量用于表情特效制作，其优势在于可控性强，动态效果可夸张，亦可写实，但在工业化生产中对团队能力的依赖度高，角色创作上主要依靠动画艺术家的个人能力；技术操作上，对蒙皮绑定技术要求高，创作时效性主要依赖创作者的能力，在团队协作时，不同创作者间的能力差异往往导致时效管理难以标准化。

2.2 基于面部动作捕捉的表情特效技术

2001年，电影《指环王：护戒使者》（The Lord of the Rings: The Fellowship of the Ring）中角色“咕噜姆”的面部表情特效制作使用了面部动作捕捉（Facial Motion Capture）技术。面部动作捕捉又被称为面部表情捕捉（Facial Expression Capture），是动作捕捉技术的一部分[2]，主要使用人脸表演来驱动三维虚拟角色的表情生成，首先通过摄影机拍摄动作捕捉演员的面部表演获取视频图像素材，之后对素材进行分析得出演员面部特征点的空间运动数据，最后将这些数据和三维模型中的控制点相关联驱动三维模型呈现相应表情，《阿凡达》（Avatar）、《猩球崛起》（Rise of the Planet of the Apes）等影片中大量使用了该技术。其中，捕捉面部表情时，可通过有跟踪标记点和无跟踪标记点两种方式。

2.2.1 有跟踪标记点的面部动作捕捉

在面部动作捕捉技术的初期，主要使用有跟踪标记点的面部动作捕捉。该技术需要先在动作捕捉演员脸上按要求标记跟踪点并进行拍摄，得到带有跟踪标记点的视频素材；通过后期算法对跟踪标记点进行计算处理得到每个点的运动轨迹，之后在三维软件中将运动轨迹数据转换为控制面部动作的相关骨骼绑定数据，最终实现虚拟角色的表情动作。该技术的运用极大提高了生产效率，提升了表情特效的写实度、精准度。

该技术作为成熟的表情特效解决方案当前仍被广泛使用。其主要难点在于根据不同的后期算法，需在动作捕捉演员脸上按照不同方式标记跟踪点，跟踪点标记不完整或因演员表演导致的跟踪点模糊均会提高后期处理难度；动作捕捉演员口腔内部无法设置跟踪点，舌头的动态只能通过后期处理。

2.2.2 无跟踪标记点的面部动作捕捉

随着计算机视觉技术的发展，无跟踪标记点的面部动作捕捉得以实现，省去了为演员脸部提前进行标记的繁复工作，演员的表演体验也更加友好。其可分为两种：一是从拍摄的面部视频中提取相应的特征点（如嘴角、眼角、鼻翼、眉毛等）以生成关键部位的动作数据；二是使用深度摄影机拍摄带有深度信息的人脸数据，从中提取关键特征点的位置属性传递给三维软件[3]。无跟踪标记点的面部动作捕捉方式在实际拍摄中方便部署，生产流程环节相对较少，成本较低。其主要难点在于使用非深度相机在实际拍摄过程中，演员面部的光线可能会有各种变化，精度会出现一定程度的损失；无跟踪标记点也意味着面部画面信息数据和三维模型的匹配过程有较大容错空间，使表情的精确度和还原度有所降低。

2.3 传统技术的限制

使用有跟踪标记点的面部动作捕捉技术制作虚拟角色面部表情特效的方法在电影工业中的使用已十分成熟，从《指环王：护戒使者》的“咕噜姆”到《猩球崛起》中的一众猩猩，虚拟角色的表情越来越生动逼真。但这种工艺的制作流程环节复杂，人力资源需求高，只有具备丰富经验的特效团队才能较好完成虚拟角色的表情特效制作，使这类特效制作在影片制作中的成本升高，在一定程度上限制了技术本身的发展迭代。

随着显卡计算能力的不断提高，以虚幻引擎（Unreal Engine, UE）为代表的高写实度实时渲染引擎在电影生产中被广泛应用，而其基于苹果手机深度摄像头的面部动作捕捉也成为一种低成本、高响应度的解决方案。UE虚拟人（MetaHuman）中的虚拟角色及其表情驱动的解决方案将游戏行业的生产方式引入影视行业，使更广泛领域的创作者能参与到特效制作领域中，使技术的迭代速度更快，技术门槛更低。

以上提到的制作方法在后期处理中均需通过三维软件进行最终模拟渲染，而三维仿真技术本身制作流程较为复杂，制作成本较高，周期较长。

2.4 AIGC技术变革下的表情特效探索

当前AIGC技术发展迅速，诸多文本生成视频（Text⁃to⁃Video, T2V）模型相继推出，在电影美术设计、游戏设计等诸多领域得到广泛深入的应用。为研究AIGC技术革新下，虚拟角色的表情特效制作是否有可靠的制作方案，笔者对当前几款国产AI生成影像工具进行了测试研究，并总结提炼出一种基于Stable Diffusion[4]制作虚拟角色表情特效的方法。

3基于AIGC制作虚拟角色表情特效的方法

2024年2月，OpenAI 发布了名为 Sora的人工智能T2V模型[5]，虽然该模型至2024年8月还未发布用户版，但此后多家公司发布了自己的文生视频模型，如Runway Gen⁃3、Pika、Stable Video Diffusion、快手可灵、字节即梦、Luma AI等。这些模型使视频生产有了更多途径，除了T2V外，以上大部分产品也支持图片生成视频（Image⁃to⁃Video, I2V）的方式。相较而言，I2V比T2V可控性更高，笔者通过测试发现，需多次生成才能得到符合创作需求的表情表演结果，成功率低。

在影视工业化生产中，真人角色的表演主要使用摄影机拍摄，而虚拟角色需通过计算机制作，其中，表情特效的制作是本次研究的重点。为探索结合不同AIGC工具下虚拟角色表情特效生成的效果差异，本文在以下测试中建立了一个大猩猩的动物角色进行测试比较，通过Stable Diffusion生成了角色闭嘴状态和张嘴状态的两张图片，同时还拍摄了一段真人模拟大猩猩的表演素材用于驱动视频输入源（以下简称“输入源”）。

3.1 基于I2V的虚拟角色表情特效

在实际使用场景中，虚拟角色的造型通常是给定的，因此文字直接生成视频的可靠性较低，为保证角色一致性，需采用I2V的方法。

3.1.1 使用可灵AI生成虚拟角色表情

可灵AI（KLING AI）是快手推出的AI创意生产力平台，基于快手自研大模型可灵，提供高质量视频及图像生成[6]。我们选择了可灵AI的I2V模型，分别使用“高性能”和“高表现”两种模式进行测试。为避免模型中对猩猩张嘴表情理解的偏差，我们分别使用了闭嘴和张嘴的图像作为输入图像进行测试；为使虚拟角色的表情符合我们实际拍摄的真人表演，生成视频使用的描述语为“图中的大猩猩怒吼，转头，愤怒，固定镜头，电影质感，8K，写实”，通过多次生成，笔者选择其中最接近测试目的的结果进行比较。

在“高性能”模式下，生成5秒分辨率为720 × 720、帧速率为30 FPS的视频，两张图片的生成结果均只对镜头运动做了简单调整，角色基本无表演，不符合测试目的预期。在“高表现”模式下，生成同样的视频，视频内容更匹配描述语内容，除转头幅度较大的生成结果，角色造型基本和输入图片一致，表演节奏普遍较慢。这种方式需在多次生成的结果中选择符合预期的结果，与真人表演相比存在极大的不可控和表演节奏的差距。

3.1.2 使用智谱AI生成虚拟角色表情

清影是智谱AI推出的视频AI生成工具，清影依托智谱大模型团队自研打造的视频生成大模型CogVideo，支持文生视频、图生视频。该模型使用Transformer架构，并摒弃了传统的Cross Attention模块，创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐，并通过Full Attention机制优化模态间的交互效果[7]。

笔者使用清影的图生视频功能进行测试，使用与3.1.1相同的描述语，通过多次生成，选择其中较优结果进行比较。

该模型当前支持视频生成时长为6秒钟、分辨率为1440 × 960、帧速率为16 FPS，多次生成中最符合描述语的动作在实际表现中与我们预想目标有一定差距，表演较为简单，对描述语做出了简单的呈现，生动性较低，五官基本保持不变。在我们设定的需求下，清影和可灵AI存在相同的使用短板，可控性较差。

3.2 基于视频驱动的AI生成虚拟角色表情特效

基于视频驱动的AI生成视频方法，我们选择最新开源的MimicMotion和LivePortrait模型进行测试研究。

3.2.1 基于MimicMotion的制作方法

MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架。该框架利用先进的技术，根据用户提供的单张参考图像和一系列要模仿的姿势，生成高质量、姿势引导的人类动作视频。MimicMotion的核心在于其置信度感知的姿态引导技术，确保视频帧的高质量和时间上的平滑过渡[8]。其在基于扩散模型的多种方法中生成的面部动作与输入动作的相关性和合理性上均有更好的表现[9]。

本文使用MimicMotion官网推荐的工作流程在本地进行了环境部署及测试，由于输入的图片参考对结果有相应影响，我们分别使用了闭嘴和张嘴的猩猩图片作为参考图片进行测试。

MimicMotion生成视频时长与输入源相同，分辨率与输入图片同为1024 × 1024，帧速率与输入源同为25 FPS。通过测试，笔者发现该模型生成内容的大躯干运动表现尚可，头部结构和运动表现相对准确，但面部表情与输入视频相差较大，出现了不同程度的面部扭曲和错误。该结果符合模型论文研究结果，此模型主要用于人类动作的生成，对于非人类的猩猩角色理解有一定偏差，当前不适用于非人类造型虚拟角色的表情特效制作。

3.2.2 基于LivePortrait的制作方法

2024年7月4日，快手开源了图生视频模型LivePortrait，旨在将不同风格静态图像中的人像转化为动态肖像视频。LivePortrait 使用6900万高质量帧作为训练数据，并采用混合图像视频训练策略，使LivePortrait具备更强的泛化性，能够适应更多不同类型的输入数据。此外，LivePortrait利用紧凑的隐式关键点代表混合形状，并设计缝合和重定向模块，这些模块使用计算开销极小的小型多层感知器（Multilayer Perceptron, MLP），从而增强了对生成动画的控制能力[10]。2024年8月2日，该模型团队更新了支持动物面部的新版本。

本文使用该项目网站推荐的工作流程在本地进行了环境部署及测试，与3.2.1的测试方法相同，我们分别使用了闭嘴和张嘴的猩猩图片作为输入参考图片进行测试。

该模型下生成视频时长与输入源相同，分辨率也与输入图片相同（1024 × 1024），帧速率与输入源相同（25 FPS）。测试发现，该模型专注于角色颈部以上运动的生成，躯干无动作表现，表情基本模拟输入视频中的表情，但对于猩猩角色的生动性表现一般，夸张表情的表现较为保守，并且出现不同程度的五官特征扭曲。另外生成视频的动作连续性不佳，存在一定程度的抖动；对头部结构的表现不佳，主要体现在五官的动态表现缺少细节。该模型可用于类人化程度更高的虚拟角色表情特效制作，同时，由于该模型只专注于头部及表情动画，如有肢体动作表现需求需配合其他方法实现。3.1中所述的I2V测试方法结果如图1所示。

图1 I2V方法测试结果

4基于扩散模型的虚拟角色表情特效制作方法探索

经过以上测试发现，当下可用的AI工具在虚拟角色的表情特效制作上均展现出一定的可能性，但因其制作过程需多次生成，结果的确定性较低，不符合影视工业标准化制作需求，当前主要用于短视频制作。经过多次测试，本文试图提出一种可控性更高的制作方法，结合传统制作流程与AIGC技术，优化以上测试中遇到的问题，实现影视级的虚拟角色表情制作。相较于传统的制作流程，该方法成本更低、更高效，制作流程如图2所示。

图2　本文提出的制作流程

4.1 表演素材（输入源）拍摄

表演设计上需尽可能拟合最终的虚拟角色表情特征，本文测试使用了具备丰富表演经验的表演者进行素材拍摄。高可靠性的表演利于在影视行业应用中进行高效选择决策，为最终的虚拟角色表情提供相对可靠精准的制作参考。测试发现，表演过程中演员五官清晰度对AI生成十分重要，可适当化妆以保证拍摄到更为清晰的五官变化。为提供更为精准的每帧五官特征信息，减少运动模糊，素材宜采用50 FPS的拍摄帧速率以及更大的镜头光孔。为匹配Stable Diffusion XL（SDXL）的最优分辨率，我们对拍摄素材进行了裁切，最终使用1024 × 1024分辨率的素材。

4.2 基于扩散模型的流程搭建

如图2所示，为得到更高质量影像，本实验使用SDXL基础大模型进行图像生成。为使流程搭建方便调整，本实验在本地部署的ComfyUI[11]中搭建了整个工作流。ComfyUI节点式的使用方法清晰明了，可自定义节点为个性化使用需求提供便利，且方便多版本的修改和比较；同时，节点式操作方式与影视行业中其他后期特效软件的操作方式有一定相似性，比无界面的使用方法更易于在影视行业推广。

4.2.1 生成图像的潜空间控制

使用扩散模型生成图像时，一次生成过程会生成一幅图像，需使用图像约束控制生成大猩猩的姿态与输入姿态保持一致。我们使用了ControlNet对潜空间的图像样式进行约束控制，ControlNet可实现多种类型控制[12]，大部分控制类型可实现生成图像的轮廓控制，而我们的制作需求中虚拟角色和输入源的轮廓完全不一致，轮廓控制只会导致最终生成的角色造型不符合要求。因此，我们需提取输入源视频的表情及运动姿态，可使用的方法主要有DensePose[13]、OpenPose[14]及DWPose[15]；通过测试比较，DensePose主要专注于人物大的形体动态，继续保持了源视频的造型；OpenPose因输入源中胳膊有所裁切，生成的图像会出现肢体数据不完整的情况，在非正面表情中，五官的位置也会出现不同程度的错位；DWPose在各种姿态和表情下表现相对更稳定（图3）。

图3　姿态提取方式比较（从上至下逐行依次为源和DensePose、OpenPose、DWPose的处理结果）

我们选择了DWPose进行约束控制，在使用ControlNet前对源视频进行了预处理，得到源视频中角色的五官及骨骼，使最终生成的角色造型轮廓不受影响，又较好地迁移了输入源的姿态。

4.2.2 生成图像的连续性控制

使用姿态控制生成的图像虽在姿态和表情上每一帧与输入源视频较为一致，但将其合并为视频影像后存在严重的抖动和闪烁。传统影视后期特效工具可去除抖动和闪烁，但此图像序列连续帧的像素信息差异大，使用传统影视后期工具无法去除，使用AI工具改进流程可直接生成连续性更好的图片序列。

4.2.2.1 使用AnimateDiff控制图像连续性

由上海人工智能实验室、香港中文大学和斯坦福大学的学者们共同完成的AnimateDiff是一种将文生图模型转换为动画生成器的实用框架，其具有视觉质量保持、运动多样性、轻量级微调等优点，为视频生成提供了新的可能性。运动模块是该框架的核心模块，采用Temporal Transformer架构，在时间维度上进行信息交换，捕捉动画中视觉内容的变化，生成运动动态[16]。使用AnimateDiff保证生成图像运动的连续性，解决了直接使用ControlNet生成画面内容的抖动和闪烁。

图像序列中虚拟角色运动的连续性提高会导致内容变化的减少，无法实现输入源姿态有表现力的迁移，如我们考虑角色特点，希望猩猩张嘴时嘴张得比较大，但输入源中表演者因骨骼的局限无法实现类似猩猩的张嘴幅度。

4.2.2.2 基于关键帧的描述语

虽使用ControlNet进行了相应约束，该流程的核心仍是基于T2I的图像生成，因此描述语作为生成图像的第一引导要素十分重要。在一个连续的表情生成过程中如果只使用同样的描述语，势必造成表情的僵化，引入基于关键帧的描述语则很好地解决了该问题，对输入源的表情动作进行语义的关键帧拆分，再将其按输出的帧编号进行描述语的表情部分修改。如“1，金刚大猩猩，眨眼，平静；6，金刚大猩猩，张大嘴，愤怒……”，实现了输出结果与输入源视频表情的完整迁移。

4.2.3 制作结果

基于上述流程，我们进行了5秒的表演视频输入测试（基于T2I的生成模式，理论上生成时长可不受限），输入视频帧速率25 FPS（对原视频的50 FPS进行了抽帧处理）、分辨率1024 × 1024；最终输出视频时长、分辨率、帧速率与输入参考源视频一致。

从测试结果（图4）可知，输出的虚拟大猩猩表情符合输入源视频的表演特征，躯干姿态和表情动作都有较好的呈现，角色的一致性和动态的连续性能够较好地保持，并展示出较为生动的光影效果。

图4　基于本文工作流程的生成结果

4.3 优化和扩展

SDXL模型的最优分辨率为1024 × 1024[17]，在更高分辨率需求下直接生成的结果并不理想，可引入提升分辨率的方法进行二次生成。动态迁移中的表情变化因描述语和AnimateDiff平滑所需帧数因素会导致某些表演细节的损失，可使用更高帧速率的输入源视频和细分更小帧间隔的描述语来生成更长的视频，之后再对其进行降帧速率平滑处理。基于此工作流程，若我们在关键帧的描述语上加入角色变化，可制作某些需求下的变身特效（图5）。

图5　不同方法生成结果的对比

4.4 总结

基于本文提出的研究方向，我们选取当下热度较高的国产AI生成工具和两种针对表情迁移设计的国产开源大模型，分别基于I2V进行了生成测试，同时开发了一套基于 T2I 扩散模型的工作流程，对比结果如图5所示。

I2V的集成化产品可灵AI、清影均能生成流畅的表情，依赖多次生成中选择最接近目标视频的生成方式难以保证制作的时效性，可适用于对表演没有精确要求的使用场景，在表演要求精确的视频生产中可用性较低。基于国产开源MimicMotion和LivePortrait工具的工作流程开发较为容易，MimicMotion更适于肢体动作迁移，非人型虚拟角色表情与输入视频相差较大，出现了不同程度的面部扭曲和五官错误，生成视频平滑度较高，可用于类人型虚拟角色肢体动作迁移的场景；LivePortrait专注于表情迁移，非人型虚拟角色表情生动性较差，只简单模仿输入源的五官位置变化，无法实现肢体动作的迁移，较难满足角色肢体和表情同时变化的需求。

本文提出的制作流程部署较为简单，借鉴动作捕捉的技术路线，可实现虚拟角色的面部表情迁移，并保持在新角色中表情的生动性。在对表演有精确要求的视频制作中展现出较高可靠性，可用于影片虚拟预演及影视画面内容制作，在虚拟角色表情制作中可作为辅助方法。

5结语

本文通过对当下AI工具在虚拟角色表情制作中的深入研究，比较分析当下AI工具在这一细分领域的可用性，最终设计的工作流程实现了虚拟角色表情特征在骨骼形态差异较大的角色中的迁移，实现了基于输入源视频制作虚拟角色表情的可控输出及变换角色的特效。相信随着AI技术的快速发展，影视行业高可用AI技术和工艺流程会加速迭代，提高影视作品综合生产力。通过AI制作影视级的表情特效具有一定的可行性，在特定使用场景下完全可满足实际生产需求。国产视频生成模型发展迅速，为影视行业提供了诸多创作工具。影视行业的内容生产方式也将相应发生改变，拥抱新技术、用好新技术对于创作者十分重要。在本文实验过程中，笔者在传统工艺流程及AI技术领域进行诸多富有成效的探索，提出了制作虚拟角色表情特效可行的方法，也为我们指明了方向，高分辨率及多角色同时表演将是未来持续研究的重点。

参考文献

（向下滑动阅读）

[1] 徐成华,王蕴红,谭铁牛. 三维人脸建模与应用[J]. 中国图象图形学报（A辑）,2004,9(8):893⁃903. DOI:10.3969/j.issn.1006-8961.2004.08.001.

[2] Rahul M. Review on Capture Technology[J]. Global Journal of Computer Science and Technology: F Graphics & Vision,2018, 18(1):22⁃26．

[3] 贾云鹏,周峻. 作为技术史的艺术史——从《阿凡达》看电影技术的变革[J]. 北京电影学院学报,2010(3):21⁃28. DOI:10.3969/j.issn.1002-6142.2010.03.005.

[4] Rombach R, Blattmann A, Lorenz D, et al. High⁃Resolution Image Synthesis With Latent Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Com⁃ puter Vision and Pattern Recognition，2022：10684⁃10695.

[5] OpenAI. Sora[EB/OL]. [2024⁃07⁃19]. https://openai.com/sora.

[6] KLING AI: Next⁃Generation AI Creative Studio[EB/OL]. [2024⁃07⁃19]. https://klingai.com.

[7] 智谱AI技术文档[EB/OL]. [2024⁃08⁃15].https://zhipu-ai.feishu.cn/wiki/MFxywuqcbiKmOrkXwJzcEuqwnJd.

[8] windows 一键整合包 MimicMotion腾讯的AI人类高质量人像动态视频生成框架[EB/OL]. [2024⁃07⁃25]. https://cloud.tencent.com/developer/article/2433731.

[9] Zhang Y, Gu J, Wang L W, et al. Mimicmotion: High⁃quality human motion video generation with confidence⁃aware pose guidance[EB/OL].[2024⁃10⁃31]. https://arxiv.org/abs/2406.19680.

[10] Guo J, Zhang D, Liu X, et al. LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control[EB/OL].[2024⁃10⁃31]. https://arxiv.org/abs/2407.03168.

[11] ComfyUI [EB/OL]. [2024⁃07⁃19]. https://github.com/comfyanonymous/ComfyUI.

[12] Zhang L, Rao A, Agrawala M. Adding conditional control to text⁃to⁃image diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 3836⁃3847.

[13] Güler R A, Neverova N, Kokkinos I. Dense human pose estimation in the wild[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018：7297⁃7306.

[14] Cao Z, Simon T, Wei S E, et al. Realtime multi⁃person 2d pose estimation using part affinity fields[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 7291⁃7299.

[15] Yang Z, Zeng A, Yuan C, et al. Effective whole⁃body pose estimation with two⁃stages distillation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023: 4210⁃4220.

[16] Guo Y, Yang C, Rao A, et al. Animatediff: Animate your personalized text⁃to⁃image diffusion models without specific tuning[EB/OL].[2024⁃10⁃31]. https://arxiv.org/abs/2307.04725.

[17] Podell D, English Z, Lacey K, et al. SDXL: Improving Latent Diffusion Models for High⁃Resolution Image Synthesis[EB/OL].[2023⁃07⁃04]. https://arxiv.org/abs/2307.01952.

[18] 石乐民. 无标记面部表情捕捉系统关键技术研究[D]. 吉林:长春理工大学,2017.

[19] 何向真. 运动捕捉技术基础[M]. 北京：中国科学技术出版社，2022.

[20] Hu E J, Shen Y, Wallis P, et al. LoRA: Low⁃Rank Adaptation of Large Language Models[EB/OL].[2024⁃10⁃31]. https://arxiv.org/abs/2106.09685.

【本文项目信息】2022年北京市社科基金规划项目“未来高科技条件下电影影像发展前景研究”（22YTB014）。

主管单位：国家电影局

主办单位：电影技术质量检测所

标准国际刊号：ISSN 1673-3215

国内统一刊号：CN 11-5336/TB

投稿系统：ampt.crifst.ac.cn

官方网站：www.crifst.ac.cn

期刊发行：010-63245081

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.