《现代电影技术》｜面向AIGC的文生视频应用进展与对比分析|算法|面向aigc的文生视频应用进展与对比分析

分享至

本文刊发于《现代电影技术》2024年第6期

专家点评

在当下影视及内容创意产业，人工智能生成内容（AIGC）已经逐步参与到生产制作的诸多环节，带来了前所未有的机遇和挑战。《面向AIGC的文生视频应用进展与对比分析》一文，选取了极具代表性的文生视频这一关键技术作为研究对象，梳理了实际应用的发展现状及相关进展，分析了其作为AIGC工具赋能影视制作的潜力和前景。作者结合影视实践经验，评估了各类AIGC工具的特性、性能、生成质量及效果，深入探讨了提示词设计、制作流程分析及画面参数管理等实际应用问题。本文的研究和建议对于从事视频创作的专业人士和研究人员具有重要的参考价值，有助于推动AIGC技术在影视制作中的广泛应用和发展。纵观影视技术发展历程，新技术的突破无不推动着影视产业革新，从Sora到Vidu，生成式人工智能不断提升着生成内容的镜头语言和叙事性。尽管目前在内容一致性、连续性、可编辑性以及与影视工业流程的适配性上，AIGC仍有较大的发展空间，相信随着技术的不断进步，未来必将为影视制作和内容创作行业带来视觉艺术生产范式革新，并将产生重要和深远的影响。

——王岚君

天津大学新媒体与传播学院研究员、博士生导师

作者简介

赵可傲

北京电影学院中国电影高新技术研究院2022级硕士研究生，主要研究方向：数字电影技术。

北京电影学院影视技术系讲师、硕士生导师，主要研究方向：人工智能、虚拟现实技术。

韩菲琳

摘要

随着人工智能生成内容（AIGC）技术的快速发展与应用，视频生成领域逐渐成为研究焦点，并成为未来视频内容创作的重要探索方向。本文通过分析视频生成技术的发展现状与应用进展，对比评估不同方法的生成格式与质量。通过视频评估工具对不同生成方法产生的视频进行了评分，并呈现了生成画面的效果。此外，研究探讨了构建提示词和设计制作流程的策略，以探索实现视频生成领域新的创作可能性。

关键词

AIGC；文生视频技术；生成式人工智能；视频生成技术

1引言

人工智能生成内容（Artificial Intelligence Generated Content, AIGC）涵盖领域广泛，包括文本、图像、声音、视频、三维模型等多种内容的生成。各类智能化和自动化工具的陆续出现，不仅降低了视频制作门槛，也预示着AI在未来短片和电影制作中将扮演更加关键的角色。

视频生成技术主要包括内容生成、视频理解和视频编辑三大类别[1]。与静态图像生成相比，视频生成面临的挑战更为复杂，不仅需确保视频内容的连贯流畅，还要维持视觉与逻辑的一致性，以及保证物理现象与动作的真实性。本文将围绕当前视频生成技术的发展状况，简述不同算法模型的技术要点，探讨与对比视频生成技术的生成效果与制作流程。

2视频生成技术

自Stable Diffusion推出以来，文生图（Text⁃to⁃Image）技术取得了显著进步，为创作者提供了全新的创作方式，引起了一系列AI创作热潮。随着时间推移与技术进步，视频生成领域也迎来了革命性变化，视频生成平台及产品不断涌现，极大丰富了创作手段，提升了创作效率。

2023年4月，Corridor Digital发布了AI动画短片《石头剪刀布》，探索了通过文生图模型生成视频的制作流程，包括微调Stable Diffusion模型以生成稳定的动画形象，通过虚幻引擎（Unreal Engine）5渲染背景等。漫威剧集《秘密入侵》的片头即采用Stable Diffusion技术，创意性地利用AI生成的不稳定特征增强画面神秘感与不确定性。在商业广告和预告片中，Runway与Pika也已被广泛运用。电影《瞬息全宇宙》使用Runway公司的视频技术实现画面的快速抠像与风格化转换，大大提升了制作效率，从而凭借小规模团队完成了整部影片的视效制作。Our T2 Remake成为了全球首部完全由AI制作的长篇电影。这部电影背后是一个由50位AI艺术家组成的团队，他们利用Midjourney、Runway、Pika等AIGC工具进行协同创作，展示了AI在艺术创作中的潜力和可能性。

2024年2月推出的Sora将AI生成视频的质量推向了新高度，其示例短片的质量与真实感远超目前其他生成方法与应用。2024年4月，OpenAI公布了由Sora生成的剧情短片Air Head等作品。尽管这些作品在画面一致性和细节处理上仍有改进空间，但它们展现出AI在视频制作领域的巨大潜力。此外，一些电影节已为AI视频作品设立了专门单元，如第十四届北京国际电影节[2]；知名AIGC公司Runway于2022年冬季举办了AI电影节，鼓励创作者用各类AI工具创作1~4分钟的短片。这一趋势不仅凸显了AI视频生成技术的飞速进步，而且为电影和视频创作领域注入了新的艺术表达方式，拓展了创作可能性。

3视频生成技术发展现状

相较于图像生成，视频生成面临着诸多挑战。

（1）在感知上，人类对动态影像的流畅与否更加敏感，这要求视频的生成过程需要考虑更多细节。

（2）算法方面，视频生成需要考虑帧序列的时空连续性，增加了神经网络（Neural Network）学习的复杂度。由于扩散模型（Diffusion Model）在生成过程中的不稳定性，逐帧生成图像时会产生画面闪烁，难以保证视频首帧与尾帧中人物与画面的一致性，给视频生成的连贯性带来了挑战。

（3）视频需正确还原自然世界中的物理法则与逻辑合理性，模拟出物体与环境相互作用下动态行为的真实物理规律，如重力、惯性、碰撞和流体动力学效应等。若运用到实际生产中，维持镜头之间场景角色的一致性与合理性也将是一项艰巨的任务。

随着视频生成领域研究的不断深入，行业涌现出众多技术路线与方法（图1），如通过文本驱动的视频生成、图片驱动的视频生成、深度或动作驱动的视频生成等。运用于实际制作流程中的视频生成方式主要为两类：一是基于开源的Stable Diffusion等文生图工具逐帧生成画面；二是基于商业化应用，如Runway、Pika等平台。

图1　视频生成代表性方法发展时间轴

3.1 视频生成方法概述

文本到视频的算法设计理念与图像生成领域有着紧密联系。在视频生成技术的早期发展中，方法主要依托于生成式对抗网络（GAN）、自回归模型（Autoregressive Model）、变分量化自动编码器（VQ⁃VAE）等基础架构，标志着视频生成领域早期的重要进展。然而，这些初期方法存在模式崩溃和低图像质量等问题，限制了实际应用潜力。

本节将根据技术类别与发展顺序，对目前热门视频生成技术进行简述。

（1）文本驱动的视频生成方法

随着扩散模型在图像生成领域的成功，视频生成领域也开始使用扩散模型作为基础架构。Ho等提出的VDM[3]（Video Diffusion Model）首次将扩散模型运用于文生视频领域中，实现了稳定且较为写实的64FPS 64×64分辨率图像。Make⁃A⁃Video[4]方法通过无标记视频素材进行训练，并集成了文生图模型生成的多样性。该方法可以直接输出16FPS的64×64分辨率图像，通过后处理阶段的超分辨率步骤，最终输出的分辨率可达768×768。Stable Video Diffusion[5]（SVD）是2023年11月由Stability AI 提出的开源方法。该方法基于预训练图像生成模型Stable Diffusion 2.1，可在ComfyUI平台上通过类似文生图方法的节点工作流进行视频生成。

（2）结合Transformer架构的视频生成方法

Transformer是基于自注意力的框架模型，常用于大语言模型（LLM）中，随着技术发展，不断有研究者将此基础框架用于生成模型领域。如：Google公司提出的VideoPoet[6]基于Transformer架构和大语言模型，引入了多模态学习，从而在实现文生视频外，还可结合图片、深度信息、遮罩等方式生成视频结果，并能额外进行视频编辑、风格化、图像扩展（Outpainting）等功能。

Sora[7]是由OpenAI发布的新一代视频生成工具，该模型采用结合扩散模型的Transformer架构，与早期仅能生成固定长宽比视频的方法相比，Sora将视觉数据以视频补丁（Video Patch）的形式转换成统一表示，以类似于大语言模型处理文本标记的方式，输入至Transformer网络中进行学习。在视频生成阶段，Sora利用扩散模型逐步去除带噪声的补丁，实现了分辨率和宽高比的灵活调整，从而生成适合各种平台和设备的内容。此外，Sora模型应用了在DALL·E 3 中引入的重新描述技术，并结合GPT技术对提示文本进行扩展描述，以进一步提升生成质量[8]。得益于庞大的参数量，Sora能生成高质量、时长最长达一分钟的视频片段，远超其他视频生成方法与工具。在其生成的视频中，人物和场景在动态运动过程中表现出一致性，且背景纹理保持稳定不扭曲。

Sora发布之后，类似结合扩散模型和Transformer框架的研究迅速受到多项近期工作的青睐。Open⁃Sora[9]作为一项开源复现项目，向所有用户开放了模型、工具和技术细节的全面访问，至今已取得显著的技术突破，可生成最高720p分辨率、长达15秒、支持任意长宽比的视频，并推出了包含剪辑、字幕生成等功能的完整视频处理流程，简化了视频制作步骤。

此外，由中国团队在2024年4月推出的Vidu，是一项基于结合Transformer的U⁃ViT技术的视频生成技术，可根据简单文本提示词生成长达16秒、1080p高清分辨率视频。Vidu的视频生成不仅遵循正确的物理规律，还可实现基本的镜头语言运用，在多机位镜头的生成中能够保证场景与主体的高度一致，接近实际项目的制作需求。

（3）基于Stable Diffusion的视频生成方法

这类生成方法基于开源的图片生成模型（如Stable Diffusion），通过生成连贯一致的序列帧达成视频生成目的。得益于Stable Diffusion丰富的生态和组件，创作者能够制作具个性化风格、指定人物形象的视频内容，同时还能精确控制物体运动和镜头变化，以适应复杂的叙事需求。为了进一步提升生成的精确度和可控性，视频生成也可使用多种插件对内容进行控制，通过引入条件生成的概念[10]，允许根据特定条件控制图片的生成过程（如深度、轮廓、姿态等），从而在连续视频序列中实现动作流畅性和角色形象稳定性。例如，AnimateDiff[11]采用运动模型嵌入方法，将现有个性化文生图模型转化为能够生成短时长动画片段的生成器。

3.2 针对视频生成算法的优化

与图像生成相比，视频生成算法的设计通常采用两种主要改进策略：一是在模型中融合时空注意力机制，以有效捕捉和学习视频帧之间的时序关系；二是对图像生成模型中的卷积层进行扩展，增加时间维度的处理能力。

AnimateDiff在训练阶段，模型学习视频帧与帧之间的运动先验知识。生成阶段，模块被插入个性化文生图模型中，使模型可输出连续序列帧，并保持帧之间的逻辑正确与自然运动。在执行生成操作时，各帧的去噪处理是同步进行的，而不是按顺序单独生成每一帧，这虽有利于视频帧之间的流程过渡，但由于同时占用GPU显存空间，导致生成内容的时长存在一定限制。在生成长度与速度的优化上，潜在一致性模型（Latent Consistency Model, LCM）[12]及 LCM⁃LoRA[13]使扩散模型的迭代次数显著降低，采样次数从原本数十次下降到个位数。同时其生成速度大幅度提高，GPU内存占用量减小，结合AnimateDiff等技术，可在相同算力下获得更快的生成速度以及更长的视频长度，甚至完成视频实时渲染工作。

3.3 视频生成应用

除了开源的研究型工作外，目前已有大量平台为用户视频生成提供了商业化解决方案。能使用文本或图像提示生成短时长视频，并提供一定的视频编辑功能。Runway[14]是面向个人用户的AI视频商业应用生成平台，目前技术成果已迭代两代：Runway Gen⁃1于2023年2月发布，允许用户输入图像与文本，实现视频风格迁移，输出如素描、油画、剪纸、水彩等不同效果视频；Runway Gen⁃2于2023年6月正式发布，允许用户通过参考图片或文本提示生成短时长、4K分辨率的视频，同时在物理真实性上实现一定拟真，如流水效果、火焰效果，并支持小幅度的镜头运动。其生成结果无明显抖动，但是在人物细节生成上仍不甚理想。Pika 1.0[15]支持用户通过文本、图像提示生成3~4秒视频，其对语义的理解更为优秀。

当前，国内在前沿的AIGC视频生成技术方面取得了显著进展，其中PixVerse[16]和Dreamina[17]两款应用已经实现了商业化。这两款应用都部署在网页端，允许用户通过文本提示生成视频内容。PixVerse以其卓越的画面质量和动作的流畅性脱颖而出，而Dreamina则以其对中文支持和快速生成能力受到用户的青睐，能够一次性生成帧率为8FPS、时长3秒的视频。尽管Dreamina在实现大幅度的镜头和角色运动方面表现出色，但在画面稳定性方面还有待提高。此外，基于Transformer架构的视频生成应用，如Vidu和可灵，仍处于内部测试阶段。这些应用有望在不久的将来为视频生成领域带来新的突破。

4视频生成方法对比

AnimateDiff、Runway Gen⁃2、Pika 1.0等方法与工具在现阶段被运用于AI视频的实际创作中。而在选择合适的视频生成方法时，需考虑多个因素，包括生成视频的质量、速度、可控性和成本等。例如，文本驱动的视频生成方法VDM和Make⁃A⁃Video等多为开源模型，但最终画面质量有所欠缺。基于文生图模型的视频生成方法如EbSynth[18]与AnimateDiff等，虽可使用个性化模型生成任意画风AI视频，但需通过实拍或CG源素材进行约束与转绘。Runway和Pika等商业应用，为用户提供了友好的界面和功能，更适合非专业用户使用，但在生成时长和个性化程度上有所限制。

4.1 性能参数对比

本文从生成格式、制作流程、可控性与生成方式特点等角度分析当下各类热门生成方式，探讨其实际制作效益，具体对比如表1所示。

表1　不同视频生成模型特性对比

其中，AnimateDiff （Stable Diffusion v1.5）的训练基于 512 × 512 分辨率，16 FPS的数据集。尽管通过调整文生图模型的参数可输出不同分辨率视频，但在视觉效果上可能不及在训练过程中设定的推荐分辨率。这是因为模型最初针对特定分辨率和帧速率进行优化，改变这些核心参数可能会影响最终视频细节表现和整体质感。

由于Runway和Pika用户无需深入了解复杂技术参数，只需输入简短文本提示或上传一张参考图片，即可迅速生成视觉效果丰富、镜头运动缓慢的视频内容，这意味着即便用户没有经过专门的训练也能轻松制作高品质视频作品。然而，这些平台在一定程度上限制了用户对视频细节的完全控制，例如无法精确指挥角色的具体动作或调整复杂的镜头移动，并且视频一旦生成，后续调整空间也相对有限。

使用文生图模型的方式则在创作过程中提供了更多自由度和多样性。AnimateDiff推荐使用正方形画幅比例，但用户可以利用文生图模型来生成各种不同尺寸比例的图像。通过微调模型或定制角色的个性化LoRA（Low⁃Rank Adaption），创作者能够保持一致的艺术风格并且创作出具有相似特征的角色。此外，用户还能选用更复杂的ControlNet，利用OpenPose来精准控制肢体动作，或可通过SoftEdge和Lineart处理器来约束角色轮廓，从而在视频制作中实现对细节的精准控制。

4.2 生成质量对比

生成结果与质量方面，本文借鉴Huang等[19]提出的VBench工具评估使用不同方式的AI生成视频质量。相较于常规的IS（Inception Score）与FID（Fréchet Inception Distance）视频质量指标，VBench是一个全面的人工智能视频评估框架，涵盖了多个评估维度，设计时充分考虑了人类观看偏好，能够平衡不同视频生成模型在能力维度上的表现，并揭示这些模型在特定内容生成方面的潜力。

使用提示词“a young woman waving her hand”运用Runway Gen⁃2、Pika 1.0、Moonvalley[20]、LVDM[21]、PixVerse、AnimateDiff生成方法生成长度为4秒的视频，其中Runway Gen⁃2、Pika 1.0、PixVerse、Moonvalley均使用首帧图片与文字作为提示词，AnimateDiff使用图片作为IP⁃Adapter参考帧，配合OpenPose对角色肢体动作进行控制。生成视频的内容与通过模型评价的结果如图2、表2所示。

图2　不同生成方式在“a young woman waving her hand”提示词下的效果对比

表2　生成结果质量对比

由表2可知使用Runway Gen⁃2生成视频画面质量更为优秀且写实，在面部、头发等细节处理上较为精细，接近真实拍摄水准，虽然在背景运动上能做到自然效果，但其无法通过简单文字提示控制主体人物的大幅度动作。Pika 1.0与PixVerse可正确生成挥手动画，但在动作与背景的稳定性以及画面细节上有所欠缺。Moonvalley虽能生成正确的挥手动画，但其无法受到图片约束。通过个性化的文生图模型与OpenPose控制下的视频生成，可实现自然的、大幅度的运动，但在单张图片作为画面风格提示的情况下，无法正确理解并生成合适的背景内容，且在画面质量上有所欠缺。

4.3 提示词设计对比

提示词的设计具有顺序逻辑，需要创作者在有限个数的提示词下，尽可能详细描述画面细节。相较于图片生成，视频提示词选择与控制更为复杂。除了需要通过文字描述画面场景外，需对画面中角色的肢体、表情、物体、镜头等运动进行额外描述。图3为不同平台下的提示词设计流程。

图3　不同应用下的提示词设计流程

在使用基于文本生成图像的视频生成方法（如AnimateDiff），提示词将经过冻结的CLIP（Contrastive Language⁃Image Pre⁃training）模型编码后嵌入生成过程中。在进行提示词设计时，每段提示需为英文单词或词组，并使用逗号隔开。提示词整体包含三个部分：前缀（画质、镜头、风格等）、主体（描述人物或物体）、场景与背景描述。在进行镜头运动描述时，受生成算法原理所限，模型不能在无图片约束条件下直接通过提示词描述镜头运动。Stable Video Diffusion、AnimateDiff等提出了Motion LoRA方法，通过嵌入微调模型来实现简单的镜头移动与特殊画面效果（如烟尘、粉碎等）。若画面内容有大幅度变化，可使用Prompt Travel功能，对不同帧区间的内容设置对应的提示词，以实现更好的稳定性和连续性。

商业化视频生成平台通常使用自然语言描述画面。通常而言，建议创作者用一句话描述主体内容，并辅以若干描述相机角度、画面细节、画面质量的单词。主体内容描述应当遵循英文简单句语序（如：主语+谓语+宾语+宾语补语），以便模型理解提示词。在镜头运动与画面风格方面，不同应用的解决方案有所区别，如 Runway Gen⁃2提供了可视化模块控制摄像机运动轨迹，并内置了十余种画面风格供用户选择；而Moonvalley只能通过提示词描述镜头运动与幅度。

4.4 制作流程对比

基于文生图模型的视频生成使创作者在计划制作流程时拥有更大自由度，能够依据自身创作意图和具体需求进行相应调整。通常来说，用户首先需选择或训练合适的模型来指定画面风格。其次，在生成复杂运动画面时，创作者需提供原始素材，通过抠像处理分离画面主体与背景，分别使用ControlNet技术提取轮廓与人物动作，从而精确控制视频画面，最终通过合成步骤输出完整视频画面。此外，用户可以利用自定义节点实现更丰富和个性化的视觉效果，如加入Segment Anything节点，在生成过程中额外输出简单的视频遮罩，以便于后期的制作（图4）。

图4　基于Stable Diffusion方法的视频生成工作流概览

商业化的生成方法常使用端到端的生成模式，仅需通过图片和文字引导便能直接制作出最终视频，省去了上述素材准备、后期视效和颜色校正等步骤，只需对生成素材进行剪辑即可产出成片。然而，这种端到端方法也给创作流程带来了挑战：鉴于现有生成过程仍然会产生一系列细节错误，如生成时人物手部和面部扭曲及画面中文字生成错误等，需要创作者对素材进行额外的修正；而商业化平台直接输出最终成果的方式使后续修改面临困难。

4.5 画面生成参数管理对比

画面生成参数的管理通常未能受到创作者的重视，尤其是在对画面和角色一致性要求较高的剧情短片制作项目中。通过管理生成参数，不仅可提升不同生成内容的准确度，还有助于后续追踪和版本控制。Runway和Pika的商业化平台提供了在线素材库功能，用户能够保存生成过程中使用的各种参数和提示图片等重要参数，为后续项目版本迭代和素材选择提供了便捷参考和追踪途径，从而可确保不同版本间的连贯性和一致性，同时也为未来创作提供了丰富的素材资源和历史记录。

使用ComfyUI或Stable Diffusion WebUI等工具会在生成的单帧图像中嵌入JSON文件以保留生成时所用的提示词、节点设计、采样方法等数据。将这些单帧图片重新导入到工具中，可复现生成时使用的节点和参数，极大地提高了创作过程的灵活性和可控性。创作者快速追溯生成过程的节点设计，并可以轻松地对生成图像进行修改、重绘或补充，而无需从头开始重新配置复杂参数。

5 总结与展望

AIGC技术在影视行业的发展正受到广泛关注，其生成的视频作品充分展示了这项技术的应用潜力和可能性。Runway和Pika等平台提供了用户友好的交互界面，使无AI操作经验的用户也能快速制作出具有真实感和简单镜头运动的短时长视频。基于Stable Diffusion的视频生成技术，为专业用户提供了更定制化的工作流程，使他们能够生成多样化风格的视频内容。Sora和Vidu的视频生成质量已达到令人难以辨别真伪的程度，用户仅需提供文字提示便能生成长时间、物理特性准确的逼真画面。

然而，当前技术仍存在一些局限性，包括但不限于：生成画面中物理现象和空间逻辑的错误；镜头长度的限制和帧与帧之间的连续性不足；快速移动镜头中的画面崩溃现象；以及在不同镜头间保持人物与场景一致性的困难等。目前，大多数生成结果在精细程度和过程可控性方面还未达到工业级标准，其与传统电影制作流程的融合也存在一定难度。

AI视频生成技术无疑将对内容创作领域产生重大而深远的影响。作为电影动态预演工具，其能够根据文字剧本和氛围图快速产生分镜的动态预览，极大地提高预演制作的效率与效果。作为短片生成平台，AI视频生成技术可以根据创作者的简单描述或概念，生成具有高度创意的视频短片，释放创作者的想象力，并为他们提供一个实验和探索新想法的平台。此外，通过人工智能算法对数据的学习与融合，视频生成技术甚至能够生成现实世界不存在的物体与组合，创造出完全虚构的场景和角色。

AI视频生成技术仍在不断进步和发展。随着算法的不断优化、数据的持续积累以及硬件计算能力的逐步提升，未来这项技术有望实现更加复杂的视频内容生成，在质量和流程控制方面实现质的飞跃，与影视制作的传统流程实现更紧密的融合。届时，AI视频生成技术既可以为影视合成提供丰富的素材，也可以作为风格转换工具，赋予影片独特的视觉风格，并将以更低的成本和更高的效率，为个人创作者提供更多的机会，对电影制作行业带来革命性影响。

参考文献

（向下滑动阅读）

[1] Xing Z, Feng Q, Chen H, et al. A survey on video diffusion models[EB/OL].(2023⁃10⁃16)[2024⁃04⁃30].https://arxiv.org/pdf/2310.10647.

[2] 北京国际电影节.AIGC单元[EB/OL].[2024⁃04⁃30].https://www.bjiff.com/xghd/jjdlllt_18698/

[3] Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in Neural Information Processing Systems, 2022, 35: 8633⁃8646.

[4] Singer U, Polyak A, Hayes T, et al. Make⁃A⁃Video: Text⁃to⁃Video Generation without Text⁃Video Data[EB/OL].(2022⁃09⁃29)[2024⁃04⁃30].https://arxiv.org/pdf/2209.14792.

[5] Stability AI. Stable Video Diffusion[EB/OL]. [2024⁃04⁃30]. https://stability.ai/stable-video.

[6] Kondratyuk D, Yu L, Gu X, et al. Videopoet: A large language model for zero⁃shot video generation[EB/OL].(2024⁃03⁃22)[2024⁃04⁃30].https://arxiv.org/pdf/2312.14125.

[7] OpenAI. Sora[EB/OL].[2024⁃04⁃30].https://openai.com/index/sora.

[8] Liu Y, Zhang K, Li Y, et al. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models[EB/OL].(2024⁃04⁃17)[2024⁃04⁃30].https://arxiv.org/pdf/2402.17177.

[9] Open⁃Sora.Open⁃Sora: Democratizing Efficient Video Production for All[EB/OL].[2024⁃05⁃29].https://github.com/hpcaitech/Open-Sora

[10] Zhang L, Rao A, Agrawala M. Adding conditional control to text⁃to⁃image diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 3836⁃3847.

[11] Guo Y, Yang C, Rao A, et al. Animatediff: Animate your personalized text⁃to⁃image diffusion models without specific tuning[EB/OL].(2024⁃02⁃08)[2024⁃04⁃30].https://arxiv.org/pdf/2307.04725.

[12] Luo S, Tan Y, Huang L, et al. Latent consistency models: Synthesizing high⁃resolution images with few⁃step inference[EB/OL].(2023⁃10⁃06)[2024⁃04⁃30].https://arxiv.org/pdf/2310.04378.

[13] Luo S, Tan Y, Patil S, et al. LCM⁃LoRA: A Universal Stable⁃Diffusion Acceleration Module[EB/OL].(2023⁃11⁃09)[2024⁃04⁃30].https://arxiv.org/pdf/2311.05556.

[14] Runway[EB/OL].[2024⁃04⁃30].https://runwayml.com/.

[15] Pika[EB/OL].[2024⁃04⁃30].https://pika.art/.

[16] PixVerse[EB/OL].[2024⁃04⁃30].https://pixverse.ai/.

[17] Dreamina[EB/OL].[2024⁃04⁃30].https://dreamina.jianying.com/ai⁃tool/home.

[18] EbSynth[EB/OL].[2024⁃04⁃30].https://ebsynth.com/.

[19] Huang Z, He Y, Yu J, et al. Bench: Comprehensive Benchmark Suite for Video Generative Models[EB/OL].(2023⁃11⁃29)[2024⁃04⁃30].https://arxiv.org/pdf/2311.17982.

[20] Moonvalley[EB/OL].[2024⁃04⁃30].https://moonvalley.ai/.

[21] He Y, Yang T, Zhang Y, et al. Latent video diffusion models for highfidelity long video generation[EB/OL].(2023⁃03⁃20)[2024⁃04⁃30].https://arxiv.org/pdf/2211.13221.

主管单位：国家电影局

主办单位：电影技术质量检测所

标准国际刊号：ISSN 1673-3215

国内统一刊号：CN 11-5336/TB

投稿系统：ampt.crifst.ac.cn

官方网站：www.crifst.ac.cn

期刊发行：010-63245081

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.