本文刊发于《现代电影技术》2025年第5期
专家点评
近年来,人工智能生成内容(AIGC)技术在影视创制领域的应用正从概念验证逐步走向系统集成与流程优化。尤其是在影视前期的分镜制作环节,基于扩散模型的图像生成、多模态驱动的角色动画、语音驱动的面部表情合成等关键技术不断实现新突破,为传统依赖手绘与人工剪辑的流程注入了高效、可控的创新方案。《AIGC技术在影视动态分镜智能生成中的创新应用与实践》一文聚焦影视动态分镜智能生成任务,提出“角色/场景生成-分镜合成-动态分镜生成”三阶段创制流程,是对AIGC技术从静态图像生成向时序视频建模拓展的积极探索与实践。其在建模细节方面对LoRA微调、草图几何约束、图像和谐化算法与语音驱动动画方法进行了工程化集成,尤其在人脸属性控制、人物服饰还原及面部动画真实感等方面表现出清晰明确的技术路径,展示了AIGC从视觉生成向角色表演理解过渡的潜力。本文语言通俗而不失技术深度,逻辑清晰,相关案例很好地契合了影视分镜创作的实际流程,兼具技术传播性与视觉呈现力,具有较高的借鉴意义和阅读价值。
——王岚君
天津大学新媒体与传播学院研究员
博士生导师
作 者 简 介
黄东晋
上海大学上海电影学院、上海电影特效工程技术研究中心副教授、博士生导师,主要研究方向:虚拟现实、人工智能、数字影视技术等。
上海大学上海电影学院硕士研究生在读,主要研究方向:深度学习、生成式模型等。
汤译翔
黄 琦
上海大学上海电影学院硕士研究生在读,主要研究方向:图形图像处理。
上海大学上海电影学院硕士研究生在读,主要研究方向:图形图像处理。
皮祎恒
于 冰
上海大学上海电影学院、上海电影特效工程技术研究中心讲师,主要研究方向:电影修复、深度学习。
摘要
人工智能生成内容(AIGC)与影视行业的深度融合已成为行业重要发展趋势,尤其在影视创作的前期阶段,可为创意表达与内容多样化提供强大的技术支持。本文聚焦AIGC技术在影视动态分镜智能生成中的创新应用,提出基于LoRA微调、人脸交换、草图几何约束、和谐化算法、多模态驱动角色动画等技术的“角色/场景生成-分镜合成-动态分镜生成”智能创制管线,并利用自主构建的唐代人物形象数据集,实现了唐代仕女从静态形象到动态表演的智能生成,验证了该管线的可行性。实验结果表明,本文提出的智能创制管线,可实现高质量动态分镜的智能生成,显著提升影视创制效率,能有效辅助导演的创作决策,实现影视分镜制作的降本增效。
关键词
AIGC;动态分镜生成;角色-场景融合;角色动画;多模态技术
1引言
分镜设计是影视创作的核心环节,其通过视觉化的方式将剧本转化为连续的镜头语言,直接影响影片的叙事节奏、视觉风格和创制效率[1]。传统分镜制作高度依赖人工手绘,不仅耗时费力,且修改成本高昂。尤其在复杂场景或特效镜头中,分镜师需反复调整构图、运镜和角色表演,严重制约了创作迭代的速度。近年来,随着扩散模型(Diffusion Model)[2]、神经渲染[3]、高斯泼溅[4]等先进技术的快速发展,人工智能生成内容(AIGC)技术为影视创制带来了革命性影响。特别在分镜设计领域,通过文生图(T2I)、文生视频(T2V)、图生视频(I2V)等生成式模型,AIGC能快速生成多样化的角色造型、场景布局与镜头序列,显著提升前期视觉开发的效率与质量。
本文围绕AIGC技术在影视动态分镜智能生成中的创新应用,构建“角色/场景生成-分镜合成-动态分镜生成”的自动化创制管线,实现高质量动态分镜智能生成。本研究可为前期影视创作者的创意表达提供一套切实可行的动态分镜视频智能化、自动化制作方案,为导演提供更多可视化的创作参考。
2研究背景
AIGC技术在影视创制领域展现出颠覆性潜力,在国内外影视行业引起高度关注,影视制作流程正在经历革命性改变。第一,AIGC技术通过文本输入即可完成从概念设计到成片的一站式创作生产。该技术兼具强大的风格适应性,无论是历史复原、科幻未来还是艺术化表达,都能通过调整算法参数快速实现。第二,AIGC技术具备全流程动态可调的优势,AIGC的“生成-编辑-迭代”工作流,可实现真正意义上的非线性创作自由。第三,AIGC在降本增效方面表现突出,能将影视制作中耗时较长的前期分镜设计环节效率大幅度缩短,显著降低影视的开发成本。
目前,AIGC技术在影视动态分镜创作中尚未形成成熟确定的制作流程。本文重点研究基于AIGC技术的影视动态分镜生成与应用,主要涉及角色/场景生成、分镜合成、动态分镜生成等关键技术。
(1)角色/场景生成
角色设计作为构建叙事体系和视觉风格的核心环节,其质量直接影响作品的艺术表现力。近年来,在跨模态生成任务中,文本与图像联合驱动的图像生成已成为重要研究方向。目前主流的生成模型框架包括 Stable Diffusion 1.5[5]、Stable Diffusion XL[6]、Midjourney[7]以及Flux 模型[8]。虽然这些模型/工具能生成高质量的人物角色图像,但往往存在身份一致性、历史时代特征偏差等问题。
场景设计则通过空间布局、光影氛围和细节还原,为叙事提供视觉支点,其真实性与艺术性共同决定了影片的沉浸深度与美学高度。在影视场景设计领域,文生图和图生图(I2I)技术正逐渐成为概念设计、环境构建和风格化表达的重要工具。虽然文生图技术能快速输出概念草图,但复杂场景的结构合理性、细节精准度仍不稳定。图生图技术常用于场景迭代和风格统一,但通过参考图生成的场景视觉内容,在物理合理性(如阴影方向、透视关系)上仍需后期干预。
(2)分镜合成
分镜合成任务是将前景角色与背景场景进行无缝融合,主要涉及图像和谐化技术。通过调整颜色、光照等前景元素的视觉特征,以实现与背景图像的高质量合成,从而增强合成图像的真实感和视觉一致性。近年来,深度学习(DL)技术被广泛应用于图像和谐化领域,目前主流的模型框架主要包括DoveNet[9] 、RainNet[10]、Harmonizer[11]及AICT[12]等。其中AICT方法是目前图像和谐化领域的SOTA方法,其通过预测逐像素颜色变换,并自适应调整采样间隔以建模高分辨率下颜色变换的局部非线性特征,显著提升处理效率与质量,实现保持视觉一致的高分辨率图像合成。
(3)动态分镜生成
动态分镜生成主要涉及人体动画生成技术与面部动画生成技术。人体动画生成旨在基于静态图像以及特定的输入(如姿态序列、音频、文本等),生成连贯、逼真的动态人物视频。当前技术主要分为基于生成式对抗网络(GAN)和基于扩散模型两类方法。基于GAN的方法通过生成器和判别器的对抗训练生成人体动画序列,然而这类方法在时序一致性、多样性等方面仍存在较多局限。而基于扩散模型的方法(如DreamPose[13]、Champ[14]、UniAnimate[15]等)凭借其渐进式生成机制和强大的建模能力,在人体动画生成领域展现出显著优势,正逐渐成为主流技术。
语音驱动面部动画技术通过深度分析语音的声学特征、韵律和情感信息,利用机器学习(ML)算法自动生成与语音同步的逼真面部表情、精准口型和自然头部动作,为数字角色赋予生命力。近年来,深度学习技术的引入为语音驱动面部动画技术带来了重大突破。与传统的GAN方法相比,基于扩散模型的方法(如DiffTalk[16]、FaceDiffuser[17]等)在训练过程中更加稳定,生成的图像细节更加丰富,因此在语音驱动面部动画任务中展现出巨大潜力。然而,该技术仍面临时序连贯性不足、唇音异步以及生成效率低等关键瓶颈,制约了其在实时应用中的表现。
3基于AIGC技术的动态分镜制作流程与实践
本文构建“角色/场景生成-分镜合成-动态分镜生成”的智能化、自动化创制管线,实现高质量动态分镜生成。如图1所示,该流程主要包括三个步骤:首先,通过基于LoRA[18]微调的Flux模型,快速生成高质量的人物角色,并通过人脸交换技术实现角色面部属性编辑。然后,采用草图引导的背景生成技术,通过几何约束Flux模型精准生成布局合理的电影场景,并通过图像和谐化技术,将生成的前景角色与背景场景无缝融合。最后,采用动作驱动与语音驱动技术实现角色人体图像动画生成和面部表情动画生成,进而通过视频生成大模型生成符合电影运镜规范的镜头序列。
图1 基于AIGC技术的动态分镜制作流程
3.1 角色智能生成与编辑
在角色设计制作流程中,重点突破两项关键技术:(1)提出基于LoRA微调的服饰生成技术,实现符合历史时代特征的角色形象生成;(2)提出人脸属性编辑方法GPSwap[19],支持高分辨率下身份特征与表情的解耦控制。
3.1.1 角色智能生成
本节以唐代人物角色生成为例,基于自主构建的微调数据集,通过LoRA微调的Flux文生图大模型,实现面向写实风格的角色生成。
在数据集构建方面,本文构建了唐代人物形象数据集,用于文生图大模型微调。数据来源于两个渠道:(1)中国古代服饰三维数据库中的多视角渲染图像[20];(2)经过筛选的符合历史风貌的互联网素材。在数据质量控制方面,通过专业图像处理手段去除了字幕、遮挡物等信息,并进行了背景修复处理。最终形成包含227张高分辨率图像的数据集(图2),其中162张为完整服饰展示的全身图像,65张为妆容细节特写图像。为增强模型语义解析能力,本文借助WD14⁃Tagger自动标注工具[21],构建了包含服饰形制、首饰特征、妆容样式、人物类别及风格属性的多维度标准化标注方法,有效实现了图像语义特征的精细化描述。
图2 人物角色数据集
在模型研制方面,通过LoRA微调技术,对预训练的文生图模型Flux进行个性化调整,使其能够更好适应特定领域的文生图任务,生成高质量写实风格的唐代仕女图像。具体地,以flux1⁃dev.sft预训练模型[22]为基础架构,并集成ae.sft变分自编码器[23]进行特征提取。训练数据由高分辨率的唐代服饰人像组成,采用高效且稳定的PagedAdamW优化器[24],通过调节LoRA权重系数(0.2~1.0),有效控制不同风格的角色生成。
本文角色生成的结果如图3所示。模型对复杂纹样的处理尤为出色,联珠纹、团花纹等唐代典型纹饰均得到较为准确的还原。生成图像在细节表现方面,如纱罗面料的半透明性、锦缎的反光等都得到了真实呈现。同时,额黄、斜红等唐代特有妆容元素也清晰可辨。
图3 角色生成图像
3.1.2 人脸属性编辑
人脸交换技术作为影视制作领域的重要创新,通过分析源人脸和目标人脸的特征,精准迁移五官轮廓、皮肤纹理等面部特征,同时保留目标人脸的表情、姿态和外部光照,实现智能化面部特征迁移,可较好解决角色身份一致性问题。
本文采用笔者团队提出的人脸交换方法GPSwap[19],该方法创新性地利用StyleGAN的潜在空间特性,通过双模块协同架构实现高质量的人脸交换。该方法主要由面部特征重组(FFR)网络和图像重建(IR)模块组成,在保持高分辨率输出的同时,有效解决现有技术在特征解耦、训练稳定性和背景融合等方面存在的问题。FFR网络通过双路编码器架构实现身份特征与属性特征的完全解耦,IR模块则通过扩展潜在空间和自适应融合算法确保生成质量,共同解决了传统方法中特征混淆和训练不稳定的技术难题。
如图4所示,图4(a)为源人脸,提供眼睛、鼻子等身份特征;图4(b)为目标人脸,提供表情、姿态等属性特征;图4(c)为生成的交换人脸图,该图像包含了源人脸的身份特征和目标人脸的属性特征。本方法生成的图像在保持身份特征一致性和图像自然度方面均表现出色,能够实现高精度的面部特征转换和背景融合。需要说明的是,由于人脸数据涉及隐私和版权问题,本文所有实验均采用AI生成的虚拟人脸进行演示。在实际应用中,这项技术可广泛应用于影视制作领域。例如当演员无法完成特定镜头拍摄时,可通过AI换脸技术将其面部特征无缝移植到替身演员脸上,也可在历史题材影片中还原已故演员的形象,或为跨国合拍片快速生成不同语言版本的演员面部表情等。
图4 人脸交换实验结果
3.2 场景智能生成
本节围绕场景智能生成的核心技术展开,重点探讨两项关键技术:(1)提出一种多模态驱动的背景生成框架,通过手绘草图等图像引导实现背景的高质量生成;(2)针对合成图像的真实性问题,设计了粗合成-和谐化的两阶段处理流程,实现前景与背景融合的高质量分镜合成。
3.2.1 文本/草图生成背景图像
本文采用的方法是基于Flux⁃dev模型,结合ControlNet[25]和LoRA,通过手绘草稿图、线稿图或参考图等三种不同输入方式实现生成高质量背景图。具体流程如图5所示,首先,输入引导图片,并搭配文本提示词(如“传统中式庭院场景,日落时分,木质建筑,飞檐,红灯笼悬挂在墙上,大型陶瓷花瓶,石阶,温暖的阳光投下长长的影子”);之后,利用Flux⁃dev 模型的自注意力机制融合文本语义与图像结构信息,并结合 ControlNet 提供结构约束(如 Canny 线稿图或 Depth 布局)和 LoRA 增强背景建筑风格;最终,生成布局合理的高质量背景图像。
图5 文本/草图生成背景图像技术流程
图6 文本/草图驱动背景图像生成结果
具体方式上,第一种是通过输入手绘草稿图生成,先绘制详细草稿图并输入 Flux,若效果偏卡通风格则转为 Canny 线稿图,结合 ControlNet 指导生成更清晰的图像〔图6(a)〕;第二种通过输入Canny 线稿图生成,从手绘草稿图或参考图提取线稿图,搭配文本提示输入 Flux,生成结构更准确的图像〔图6(b)〕;第三种通过输入参考图生成,先找或用 Photoshop 拼接参考图(如调整墙面颜色、添加石狮),若分辨率不足可通过 Flux⁃fill 扩图,再结合 ControlNet 和文本提示生成,效果更稳定且易于定制,适用于快速生成符合预期的背景图像〔图6(c)〕。
3.2.2 分镜合成
本文采用粗合成-和谐化两阶段处理,实现前景-背景融合的高质量分镜合成。
在粗合成阶段中,通过Photoshop软件完成角色与场景的初步合成(图7)。初步合成的图像存在光照不一致、阴影错位、色调失衡及边缘生硬等问题,导致画面真实感弱且空间层次割裂。为使合成图像达到更加逼真、自然的效果,本文采用基于深度学习(DL)的和谐化算法,对光照、色调、色彩与边缘细节进行统一处理,以确保合成图像在视觉上能高度还原真实场景,满足高质量图像制作的要求。
图7 前景-背景粗合成结果
在和谐化处理阶段中,针对现有高分辨率图像协调方法存在的局部色彩不协调问题,本文采用了一种基于自适应间隔颜色变换的AICT图像和谐化方法[12]。本方法将色彩变换建模为逐像素操作,采用局部自适应的方式提升色彩协调的精细度。通过设计可生成位置敏感的3D查找表(LUT)网络,将像素坐标与RGB值共同作为输入,实现空间感知的逐像素颜色映射。采用双LUT级联结构实现色彩空间非均匀采样,前级LUT负责粗粒度调整,后级LUT进行细粒度补偿,自适应增强局部非线性表达能力。引入图像级权重学习模块,利用全局信息对各局部变换结果进行动态融合,保证局部调整与整体视觉的和谐统一,从而实现保持视觉一致性的高效图像和谐化。经本方法处理的结果如图8所示。
图8 图像和谐化后的结果
3.3 动作语音驱动的角色动画生成
本节聚焦多模态驱动技术,通过动作与语音两类核心输入实现真实感角色动画生成:(1)探讨基于UniAnimate[15]框架的动作驱动生成方案,通过参考图像、文本提示、音频节奏及动作序列的多模态输入,生成时序连贯的人体图像动画;(2)采用Diffused Heads模型[26]构建语音频谱到面部动作的智能映射系统,实现身份一致、唇音精准的高保真面部动画生成。
3.3.1 动作驱动人体图像动画生成
本文基于UniAnimate方法实现高质量人体动画生成。该方法提出统一的视频扩散模型架构和基于Mamba的时序建模技术[27],通过共享特征空间映射机制将参考图像与目标姿态序列统一编码,并利用状态空间模型的线性计算复杂度优势处理长序列,显著提升了生成视频的时序一致性和长度,在跨域生成任务中展现了优异的泛化能力。
如图9所示,输入的是一张古装少女的参考分镜图像,该图像是通过前景角色和背景场景图像合成。之后搭配文本提示词、音频资源、动作序列,生成连贯的、时序一致的角色动画视频。
图9 动作驱动人体图像动画生成
3.3.2 语音驱动面部动画生成
本文采用一种基于扩散模型的语音驱动面部动画生成方法Diffused Heads[26],能高效逐帧生成逼真的角色面部动画视频。本方法通过一张静态的身份帧和一段语音录音,生成与语音同步的面部动画。为提升生成结果的流畅性和表现力,引入运动帧和音频嵌入,分别提供过去帧的运动信息和未来表情的预测信息。此外,还通过嘴型同步损失强制关注嘴部区域细节,确保嘴型与语音的高度同步。
如图10所示,输入一段语音音频和一张静态角色图片,生成视频中的古装仕女在保持身份特征一致性、表情自然度和唇音同步精度等方面均表现出色,实现了高保真的语音驱动面部动画生成。
图10 语音驱动面部动画生成
3.4 基于大模型的动态分镜生成
3.4.1 视频生成技术流程
本文采用的视频生成大模型是由腾讯开发的混元图生视频模型HunyuanVideo⁃I2V[28,29]。这是腾讯团队于2025年3月6日新发布的图生视频模型,该模型采用标记替换技术,将参考图像的信息融入视频生成过程。与HunyuanVideo相同,HunyuanVideo⁃I2V使用了一个预训练的多模态大语言模型(Multi⁃modal Large Language Models, MLLM)作为文本编码器,采用仅解码器结构来提升模型对输入图像语义内容的理解能力,并整合图像及其相关描述中的信息。输入的图像先经过MLLM处理生成语义图像token,然后将这些token与video latent token进行拼接,从而能够在整合后的数据上进行全面的全注意力计算。
在整体的工作流程(图11)上,输入的文本描述会先经过一个CLIP⁃Large模型进行编码,再经过一个多层感知机进行处理,处理后的文本信息编码会与一个正弦编码结合,正弦编码用于引入时间步信息,表示视频帧的顺序;输入的图像会通过一个MLLM进行编码,编码后的图像信息通过一个Token Refiner进行进一步处理,以增强图像特征的表达能力;噪声输入通过Patchify和Linear层处理,生成初始的潜在表示;接下来,这三部分信息会经过一个双流 DiT 块和一个单流 DiT 块,其中双流 DiT 块分别处理图像和文本特征,使每种模态能够学习其适当的调制机制,而互不干扰,在单流阶段,图像和文本特征被连接起来,并输入到后续的 DiT 块中,以实现有效的多模态信息融合;最终经过 DiT 块处理后的特征通过一个Modulation层进行调整,以生成最终的输出潜在表示,再经过一个Linear层和Unpatchify层将潜在表示转换回图像空间,最终输出完整的视频帧。
图11 HunyuanVideo‑I2V的工作流程
3.4.2 应用案例
本文以古装影视剧的分镜制作为例,采用基于ComfyUI的工作流生成动态分镜视频[30]。本文将微调后的Flux模型所生成的唐代仕女图、文本描述“Keeping the background the same, the girl smiles”作为输入,在ComfyUI中使用HunyuanVideo⁃I2V模型输出了一段视频,关键序列帧如图12所示。生成的视频再现了唐代服饰的褶皱变化与唐代仕女微笑时的优雅姿态,视频中仕女的动作自然流畅,齐胸襦裙保持飘逸美感,为古装影视创作提供了高效的数字角色解决方案。
图12 生成视频关键帧序列
通过与传统影视制作流程的深度融合,制作唐代仕女从静态形象到动态表演的完整数字资产所需的时间和成本显著降低(例如,生成5 s内24 FPS的视频平均所需时间小于5 s),为古装剧的分镜制作开辟了全新可能性。
4总结与展望
本文通过构建基于AIGC技术的影视动态分镜智能生成方法,验证了“角色/场景生成-分镜合成-动态分镜生成”的智能化、自动化创制管线的可行性。实验结果证明,基于LoRA微调的Flux模型在保证生成质量的前提下实现了角色造型与服饰的多样性控制,采用Flux多模态条件生成技术有效解决了场景构建中空间布局与艺术风格的平衡问题,通过和谐化融合技术有效提高了分镜图像质量,应用动作驱动的人体图像动画与语音同步的面部动画技术显著提升了角色动画的真实性,以及通过大模型生成高质量的动态分镜镜头。
本文工作为影视创作者的创意表达提供了一种创新技术范式,通过验证AIGC技术在影视分镜制作流程中的应用可行性,为行业智能化转型提供了重要参考。未来,随着AIGC技术与影视创制全流程的深度融合,影视制作流程将进一步简化,影视创作者得以更专注于艺术表达与创意构思,为内容创作带来更多可能性,推动AIGC技术在影视领域的规模化应用。
参考文献
(向下滑动阅读)
[1] BLOCK B. The visual story: creating the visual structure of film, TV, and digital media[M]. New York: Routledge, 2020.
[2] KINGMA D P, WELLING M. Auto⁃encoding variational bayes[EB/OL]. [2025⁃04⁃17]. https://arxiv.org/abs/1312.6114.
[3] MILDENHALL B, SRINIVASAN P P, TANCK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[EB/OL]. [2025⁃04⁃17]. https://arxiv.org/abs/2003.08934.
[4] KERBL B, KOPONEN D M, LAINE S, et al. 3D Gaussian splatting for real⁃time radiance field rendering[EB/OL]. [2025⁃04⁃17]. https://arxiv.org/abs/2308.04079.
[5] ROMBACH R, BLATTMANN A, LORENZ D, et al. High⁃resolution image synthesis with latent diffusion models[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 10684⁃10695.
[6] PODELL D, ENGLISH Z, LACEY K, et al. SDXL: improving latent diffusion models for high⁃resolution image synthesis[EB/OL]. [2025⁃04⁃17]. https://arxiv.org/abs/2307.01952.
[7] TSYDILO I M, SENA C E. Artificial intelligence as a methodological innovation in the training of future designers: Midjourney tools[J]. Information Technologies and Learning Tools, 2023, 97(5): 203.
[8] Flux AI. Flux AI官方网站[EB/OL]. [2025⁃04⁃17]. https://flux-ai.io/cn/.
[9] CONG W, ZHANG J, NIU L, et al. DoveNet: deep image harmonization via domain verification[C]//Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2020: 8394⁃8403.
[10] LING J, XUE H, SONG L, et al. Region⁃aware adaptive instance normalization for image harmonization[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2021: 9361⁃9370.
[11] KE Z, SUN C, ZHU L, et al. Harmonizer: learning to perform white⁃box image and video harmonization[C]//Proceedings of the 2022 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 690⁃706.
[12] MENG Q, LI Q, ZHANG L, et al. High⁃Resolution Image Harmonization with Adaptive⁃Interval Color Transformation[J]. Advances in Neural Information Processing Systems, 2024, 37: 13769⁃13793.
[13] KARRAS J, HOLYNSKI A, WANG T C, et al. DreamPose: Fashion image⁃to⁃video synthesis via stable diffusion[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 22623⁃22633.
[14] ZHU S, CHEN J L, DAI Z, et al. Champ: Controllable and consistent human image animation with 3D parametric guidance[C]//Proceedings of the 2024 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 145⁃162.
[15] WANG X, ZHANG S, GAO C, et al. UniAnimate: taming unified video diffusion models for consistent human image animation[EB/OL]. (2024⁃06⁃03)[2025⁃04⁃17]. https://arxiv.org/abs/2406.01188.
[16] SHEN S, ZHAO W, MENG Z, et al. DiffTalk: Crafting diffusion models for generalized audio⁃driven portraits animation[C]//Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2023: 1982⁃1991.
[17] STAN S, HAQUE K I, YUMAK Z. FaceDiffuser: Speech⁃driven 3D facial animation synthesis using diffusion[C]//Proceedings of the 16th ACM SIGGRAPH Conference on Motion, Interaction and Games. New York: ACM, 2023: 1⁃11.
[18] HU E J, SHEN Y, WALLIS P, et al. LoRA: low⁃rank adaptation of large language models[C]//Proceedings of the 10th International Conference on Learning Representations. Virtual: ICLR, 2022: 1⁃13.
[19] HUANG D, LIU C, LIU J. GPSwap: High‐resolution face swapping based on StyleGAN prior[J]. Computer Animation and Virtual Worlds, 2024, 35(4): e2238.
[20] 中国服饰文化数据库. 中国历代服饰数据集[EB/OL]. [2025⁃04⁃17]. http://fushi.bowuyunzhan.com/data.html.
[21] pythongosssss. ComfyUI⁃WD14⁃Tagger: WD14 Tagger extension for ComfyUI[EB/OL].[2025⁃04⁃17]. https://github.com/pythongosssss/ComfyUI-WD14-Tagger.
[22] BLACK⁃FOREST⁃LABS. FLUX⁃1⁃dev扩散模型技术文档[EB/OL]. (2023⁃05⁃15) [2025⁃04⁃17]. https://huggingface.co/black-forest-labs/FLUX.1-dev.
[23] cocktailpeanut. xulf⁃dev/ae.sft: 稳定扩散微调的自编码器模型[EB/OL]. [2025⁃04⁃17]. https://huggingface.co/cocktailpeanut/xulf-dev/blob/main/ae.sft.
[24] HuggingFace. bitsandbytes: AdamW optimizer implementation[EB/OL]. [2025⁃04⁃17]. https://huggingface.co/docs/bitsandbytes/main/reference/optim/adamw.
[25] ZHANG L, RAO A, AGRAWALA M. Adding conditional control to text⁃to⁃image diffusion models[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2023: 3836⁃3847.
[26] STYPUŁKOWSKI M, VOUGIOUKAS K, HE S, et al. Diffused Heads: diffusion models beat GANs on talking⁃face generation[C]//Proceedings of the 2024 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2024: 5091⁃5100.
[27] HU V T, BAUMANN S A, GUI M, et al. Zigma: a DIT⁃style zigzag mamba diffusion model[C]//Proceedings of the 2024 European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 148⁃166.
[28] KONG W, TIAN Q, ZHANG Z, et al. Hunyuanvideo: a systematic framework for large video generative models[EB/OL]. [2025⁃04⁃17]. https://arxiv.org/abs/2412.03603.
[29] 腾讯. HunyuanVideo⁃I2V: 腾讯混元视频生成模型开源项目[EB/OL]. [2025⁃03⁃06]. https://github.com/Tencent/HunyuanVideo-I2V.
[30] ComfyUI Documentation Team. Hunyuan Video: related models manual installation[EB/OL]. [2025⁃03⁃06]. https://docs.comfy.org/advanced/hunyuan-video-related-models-manual-installation.
【项目信息】国家档案局科技项目“基于知识图谱的影像档案结构化数据管理系统研究”(2023⁃X⁃036);上海市人才发展资金资助项目(2021016);上海市教委AI赋能科研计划项目“面向影视的文本驱动3D超写实虚拟演员智能生成关键技术研究”(99⁃0307⁃24⁃102)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.