《现代电影技术》｜电影智能化制作新机遇：CVPR 2024多模态技术发展综述|算法|翻译|大模型|cvpr

分享至

本文刊发于《现代电影技术》2024年第7期

专家点评

电影是视觉艺术与听觉艺术的有机结合，通过视觉与听觉的传递，呈现给观众无与伦比的视听体验。多模态技术协同利用视觉、听觉、文本等信息，能够实现依靠单一感知通道难以完成的任务，有效提升信息处理性能和鲁棒性。不同于传统视觉生成任务，电影内容制作需要声画同步，单模态技术难以胜任这一任务，而多模态技术能够实现视听内容的同步合成与处理，为电影内容的自动生成提供了可能。此外，电影制作中的音效生成也有别于传统声音信号处理，电影中的音效轨道需根据画面对每个单一事件实施精细控制，声音的空间感需要与画面内容的变化相适应，这些任务都对配音师的创作编辑带来挑战。多模态技术能够根据输入数据自动生成与视觉画面相适应的音效效果，实现影片内容和音效的逻辑融合，有助于激发配音师的创作灵感，有效提升创作效率。《电影智能化制作新机遇：CVPR 2024多模态技术发展综述》一文讨论分析了2024年国际计算机视觉与模式识别会议（CVPR）中多模态领域前沿技术成果，客观展示了当前多模态技术的前沿发展现状，探讨其可能为电影智能化制作带来的新机遇，对电影从业者和相关研究人员具有较高的参考价值。

——刘世光

教授

天津大学智能与计算学部博士生导师

作者简介

谢志峰

上海大学上海电影学院、上海电影特效工程技术研究中心副教授，博士生导师，主要研究方向：电影高新技术、人工智能。

上海大学上海电影学院硕士研究生在读，主要研究方向：多模态模型、电影音效生成。

余盛叶

摘要

为了探讨电影智能化制作新机遇，本文深入分析2024年国际计算机视觉与模式识别会议（CVPR）中多模态领域前沿技术成果。具体而言，本文聚焦视觉、文本和音频三个模态的研究与多模态技术在电影制作领域的重要应用：视频生成、视频编辑和预告片剪辑技术，视频描述生成和视频内容解读技术，以及声画同步、音效生成和视频配乐技术。研究表明，电影制作过程与多模态技术的融合应用不仅大幅提高制作效率，也将显著增强艺术表现力。最后，本文总结了当前面临的多模态技术挑战，并展望了相关技术在未来电影制作中的发展方向。

关键词

人工智能；电影制作；多模态技术；大语言模型；计算机视觉

1引言

国际计算机视觉与模式识别会议（CVPR），自1983年在美国华盛顿特区首次举办以来，已经发展成为计算机视觉领域最具影响力的年度盛会。作为CCF⁃A类会议，CVPR每年吸引全球相关科研工作者分享最新研究成果，这些成果不仅能够指引未来的研究方向，还推动了技术的实际应用。截至2024年7月8日，谷歌学术引用（Google Scholar Citation）官方统计CVPR的H5指数①为422，位居全球出版物第四，在工程与计算机类出版物中排名第一。

CVPR以其严格的审稿标准和低录取率著称，收录论文通常涵盖从图像处理、物体检测到深度学习等广泛的研究方向。CVPR 2024于2024年6月17日至6月21日在美国华盛顿州西雅图召开，根据4月5日CVPR官方发布的结果，会议共收到研究者提交的有效论文11532篇，其中2719篇被接收，整体接收率约为23.6%[1]。对CVPR 2024的录用论文进行可视化分析后，发现扩散模型（Diffusion Model）、三维视觉、神经辐射场（NeRF）、大语言模型（LLM）、多模态（Multimodal）、语义分割（Semantic Segmentation）等领域应用已成为时下热点。这些研究不仅在学术界具有重要意义，其技术成果也极大地推动了影视、游戏、动画和交互等领域的应用创新。

2电影制作中的多模态技术融合

多模态是指结合来自多种不同感官通道的信息，例如视觉、语言和声音，用以改善和增强机器理解环境的能力。通过这种方式，模型不仅可以处理图像和视频，还可理解和生成描述这些视觉内容的文本或响应语音指令。多模态技术使计算机能够更全面地理解复杂的场景和交互，这在自然语言处理（NLP）、图像和视频分析、机器人技术以及改善用户界面的交互体验等方面尤为重要。

当代电影制作中，多模态技术的运用通过深度整合视觉、文本和声音三个核心模态，显著提升电影作品的艺术质量，促进影视技术革新，并进一步加深了电影的情感传递和视觉冲击力。

作为电影的基本构成元素，视觉模态通过高级摄影技巧和精细视觉设计来采集和呈现影像。优秀的摄影作品不仅关注画面的构图和色彩管理，还通过动态的镜头运用如推拉、旋转等手法，增强故事的视觉动态感，使观众感受到场景的真实性。文本模态通过剧本和对白展开，为电影提供了结构和叙事深度。剧本不仅是故事发展的蓝图，也是情感冲突和角色发展的核心。有效的对白能够加深角色的层次感，推动剧情发展，同时还能揭示更深层次的主题和寓意。声音模态则通过精心设计的音效和音乐来增强电影的情感表达。其范畴不仅限于背景音乐或主题曲，更包括环境声音、角色行动的声效等，这些声音元素在合适的时刻被精确地运用，可以极大地提升场景的紧张气氛或情感深度。当以上三个模态在电影中得到有效融合，便能相辅相成，共同构建多层次、多感官的丰富体验。视觉的震撼力、文本的叙事深度和声音的情感引导共同作用，为观众提供一种全方位的沉浸体验。

CVPR 2024会议上发表的多模态相关研究有望为电影制作行业带来技术创新，为简化制作流程、提升作品的艺术价值和市场竞争力提供技术支撑。本文将深入探讨这些技术在电影制作中的具体应用以及所带来的变革，从视频生成、视频编辑到预告片剪辑技术，视频描述生成与视频内容解读的进步，并讨论声音技术在声画同步、音效生成和视频配乐的创新应用。同时，总结当前面临的挑战与未来展望，探索多模态技术如何持续推动电影制作领域的创新。

3CVPR 2024 中电影制作领域多模态技术综述

3.1 视觉模态与电影制作

视觉模态是电影最直接和最具冲击力的表现形式。早期电影主要为黑白无声，仅依靠视觉讲述故事、表达情感。随着技术的进步，特别是彩色电影和数字影像技术的引入，电影视觉表现力得到了显著增强。现代电影制作中，高清摄影、特效和计算机生成图像（CGI）等技术被广泛使用，使创作者能够呈现出更精细、震撼的视觉效果。

（1）视频生成

视频生成任务是利用生成模型自动创建视频内容。其基于文本描述、图像等生成对应视频，可以得到高度逼真的场景和人物，并广泛应用于影视制作、广告创作、虚拟现实（VR）和动漫游戏等领域。

Wu等[2]提出的LAMP（Learn A Motion Pattern）技术，是一种通过微调少量视频数据上的预训练文本到图像模型来实现高效和低成本的视频生成方法。LAMP通过解耦内容和运动生成，优化帧间通讯，并采用共享噪声策略，有效提升了视频的质量和运动模式学习，展示出良好的泛化能力。

此外，Wang等[3]开发的MicroCinema方法，通过一个两阶段创新流程来解决视频生成的外观和时间连贯性问题。该方法首先利用文本到图像生成器创建关键帧，之后在第二阶段使用Stable Diffusion模型加入时间层，以实现高质量运动建模。引入的外观注入网络（Apperance Injection Network）和外观感知噪声（Apperance Noise Prior）策略确保了视频在保持外观一致的同时，展示出流畅的动态效果。

尽管单文本生成视频技术极具潜力，能够根据简单的文字描述生成丰富多样的视觉内容，生成的结果多元且自由，能够极大地拓宽创作者的想象力。然而，为了达到电影制作中所需的精细控制和高质量输出，这些技术在实际应用中还需满足更多条件。

Zeng等[4]提出的PixelDance技术采用了一种独特的方法，结合扩散模型、文本和图像指令，生成内容丰富的动态视频。该方法的核心创新在于同时使用视频的首帧和尾帧图像指令以及文本指令，使模型能更精确地构建复杂场景和动作，并提供了更精细的控制。

Jain等[5]的PEEKABOO方法在基于UNet的视频生成模型中引入了时空控制（Spatio⁃temporal Control）。该方法通过调整注意力机制，实现对视频详细内容的精确控制，同时保持低延迟。这不仅提高了视频生成质量，还允许用户交互式地控制视频中对象的大小、位置、姿态和运动，增强了视频内容的个性化和应用潜力。

Cai等[6]提出的Generative Rendering方法则进一步推动了视频生成技术的边界。这种基于扩散的方法利用UV空间初始化噪声，增强自注意力层以及深度线索引导，实现4D引导的风格化动画的高保真和帧间一致性生成。该方法将无纹理的3D动画场景直接渲染为风格化动画，并通过文本提示指定样式，为图像生成模型提供了更高的用户控制级别。

文本生成视频技术在电影制作中的应用包括预览、动画、概念验证和故事板（Storyboard）制作等。以故事板为例，其通常作为“可视化剧本”，包含一系列按时间顺序排列的插图和注释。它们由分镜师根据导演的指示和剧本内容绘制，详细描述了特定的情节或动作，如镜头角度、移动和关键事件。故事板不仅可帮助制作团队预览电影的视觉表现，也常作为沟通和协作的工具，确保电影的视觉风格和故事节奏得到统一和精确地执行。然而，传统的故事板制作过程复杂，耗时较长，且在展现复杂动作、特效和动态场景时存在局限性。文本生成视频技术在此显示出巨大潜力，通过将文字描述转换为动态、可交互的3D故事板，为导演和制片人提供了更直观、更详细的预览方式。通过简单的文字输入即时生成相应的动态场景和镜头，以便导演、制片人制作前期预览电影中的关键镜头，并根据需求进行调整。这种即时反馈极大提高了决策的准确性和效率。Wu等[2-6]研究不仅显示了文本引导视频生成领域的创新，也凸显了高质量电影制作过程中，细节把握和动态控制的必要性。

（2）视频编辑

视频编辑任务通过算法和模型对视频的视觉元素进行细化调整，例如视觉风格、角色和场景等，以提高视频质量和视觉效果，实现创作者的艺术意图。

在CVPR 2024上，Yang等[7]提出一种新颖的零样本扩散框架FRESCO，专注于保持视频编辑中的时空一致性。该框架通过结合光流引导（Optical Flow Guidance）和自相似性（Self⁃similarity）优化特征，显著提升了视频编辑的一致性和覆盖范围。用户只需提供输入视频，FRESCO就能根据目标文本提示重新渲染视频，同时保留原有的语义内容和动作。该框架与ControlNet、SDEdit 和 LoRA 等多种辅助技术兼容，提供灵活且个性化的视频转换和编辑能力。

Feng等[8]提出的CCEdit是一种先进的生成式视频编辑框架，通过三叉网络结构（Trident Network Structure）实现结构与外观的精确控制。该框架包含三个主要分支：文本到视频的主生成分支、结构控制分支和外观控制分支。主生成分支转换预训练的文本到图像模型以适应视频生成，结构控制分支处理输入视频的每帧结构信息，外观控制分支则允许编辑参考帧以精确控制外观。这些分支通过学习型时序层（Learnable Temporal Layers）集成，确保了视频帧的时间一致性。

Ma等[9]提出一种基于文本的视频编辑框架MaskINT，通过两阶段处理提高视频编辑的效率和质量。首先，使用预训练的文本到图像模型编辑关键帧；其次，通过非自回归生成变换器（Non⁃autoregressive Masked Generative Transformer）的结构感知帧插值模块，并行生成所有中间帧。MaskINT显著加快了视频编辑速度，实验表明其在时间一致性和文本对齐方面与传统扩散方法相当，推理时间快5~7倍。该框架可为广告、直播和电影行业提供高效的文本视频编辑解决方案。

Xing等[10]提出一种高效的视频扩散模型SimDA（Simple Diffusion Adapter），通过微调现有的大型图像扩散模型（如稳定扩散），增加极少的参数（仅2%）。SimDA采用潜移注意机制（Latent⁃Shift Attention, LSA）改进时间建模能力，显著提高处理效率和视频质量。此模型在训练和推理时显著降低了GPU内存需求和时间成本，使推理速度比传统自回归方法CogVideo快39倍，还可应用于视频超分辨率和编辑，训练速度提高3倍。SimDA不仅优化了视频生成和编辑的性能，还大幅减少了训练成本。

以上研究均基于二维视频，还有一些研究致力于三维立体场景和人物的画面编辑。Jiang等[11]提出一种新颖的电影行为转移方法。该技术利用基于神经辐射场（NeRF）的可微分拍摄技术，从现有影片中提取摄影机轨迹和角色动作，并将这些行为转换至全新的角色和场景中。该方法允许在不同的属性，如照明、角色动态和场景设置等方面进行修改。Liu等[12]提出一种新颖的视频编辑框架DynVideo⁃E，首次将动态神经辐射场应用于以人为中心的视频编辑中。传统的基于扩散模型的视频编辑在处理长视频或存在大规模运动及视角变化的视频时，难以保持时间上的高一致性。DynVideo⁃E通过将视频信息集成到三维动态人体空间和三维背景空间中，利用人体姿态引导的变形场（Deformation Field），实现了编辑内容在整个视频中的一致传播。此外，该技术支持360°自由视角的高保真新视图合成，显著优于当前最先进的SOTA方法，具有高达50%至95%的人类偏好改进率。DynVideo⁃E不仅提高了视频编辑的时间一致性和视觉效果，而且通过多视角多姿态的得分蒸馏采样（Score Distillation Sampling, SDS）、超分辨率技术以及风格迁移等策略，进一步增强了三维动态人体空间的编辑质量和动画能力。

通过以上方法，导演和制作团队能够在实际拍摄前模拟不同的拍摄效果进行预览和优化，或者在后期制作中根据需求进行动态调整。这些方法不仅省去了重拍镜头和定制动画的需求，也大幅提升了制作效率和艺术表现力。例如，电影《蜘蛛侠：纵横宇宙》运用平行宇宙的概念，将280余个蜘蛛侠角色集于一体，每个角色都呈现出独特的风格，如朋克蜘蛛侠、乐高蜘蛛侠和恐龙蜘蛛侠等。这种创新不仅突破了传统动画电影的统一画风规则，而且通过融合多种风格，如水彩画、铅笔手稿、漫画等，为观众创造了无缝且丰富多彩的视听体验，打破了次元壁，带来了前所未有的视觉冲击和情感共鸣。如果运用以上视频编辑技术，或可更高效、更低成本地实现电影风格化的创新。

（3）预告片剪辑

在电影产业中，预告片扮演着至关重要的营销角色。预告片通过展示引人入胜的关键场景、故事情节和演员阵容，激发观众的期待和兴趣，是影片上映前的关键营销手段。然而，传统的预告片制作过程不仅耗时而且依赖于专业知识，通常涉及繁琐的镜头选择和排序。

为了应对这些挑战，Argaw等[13]提出一种名为Trailer Generation Transformer （TGT）的创新自动化解决方案。该框架能够从整部电影中自动选取并合成镜头，生成具有逻辑连贯性的预告片。TGT框架借鉴了机器翻译技术的原理，将电影和预告片建模为镜头序列，并将预告片生成问题定义为序列到序列的任务。框架采用深度学习编码器-解码器架构，其中电影编码器利用自注意力机制将每个电影镜头嵌入整体上下文中，以此采集不同镜头之间的复杂关系。预告片解码器则以自回归模型预测下一预告片镜头的特征表现，并精确考虑镜头在预告片中的时间顺序。这种自动化剪辑技术既优化了预告片制作流程，还显著提升了制作效率和质量。

3.2 文本模态与电影制作

文本模态在电影中的应用可追溯到默片时代的标题卡，用以解释情节发展或展示对话。有声电影诞生后，文本通过对话和剧本直接参与声音叙事。剧本作为电影制作的基础，不仅提供结构化的故事线，还包含详细的场景描述、角色对话和动作指令，是电影叙事和情感表达的核心。

（1）视频描述

视频描述技术利用自然语言处理（NLP）算法，基于视频内容自动生成文字描述。该技术通过分析视频的视觉和音频信息，提取关键特征并转化为自然语言描述，广泛应用于视频搜索、推荐系统和无障碍辅助等领域，可显著提高视频内容的可访问性和检索效率。

Zhou等[14]提出的新型流式密集视频描述生成模型，采用基于K⁃means聚类的记忆机制和流式解码算法，能够处理长视频序列并实时生成描述，展示了该技术的实时应用潜力。

Xu等[15]进一步推进了视频描述的生成技术，通过构建第一人称和第三人称视频的统一表示空间，提出一种检索增强的描述生成方法EgoInstructor。该方法利用自动化流程生成视频伪配对，并通过EgoExoNCE损失函数训练交叉视角检索模块，有效对齐视频特征。这不仅提高了描述生成的准确性和相关性，还通过利用人类的自然学习过程来改善第一人称视频描述的生成。

Kim等[16]开发的CM2模型是一个基于外部记忆的跨模态密集视频描述生成框架，通过跨模态检索相关文本线索并结合视觉和文本交叉注意力机制，有效改进了视频中重要事件的定位与描述。CM2模型不仅能自然流畅地生成视频描述，还能显著提升视频内容的理解和交互体验。

Islam等[17]提出专为长视频设计的Video ReCap模型，通过递归视频-语言架构在不同层次上处理和生成描述，能够有效应对从几秒到几小时的视频长度。该模型采用层次化学习策略和伪摘要数据训练，在长视频描述生成任务中实现显著的性能提升。此外，其在长视频理解和复杂视频问答任务中的应用潜力使Video ReCap更适配于需要深入分析和描述视频内容的场景。

Raajesh等[18]研究提出一个名为MICap的新型单阶段影片描述模型，通过自回归的序列到序列生成方式，融合了填空任务（Fill⁃in⁃the⁃Blanks, FITB）和完整描述生成。MICap使用变换器基础的编解码器同时处理视频描述和角色身份标注，以提升处理效率和准确性。该模型较适合需要在多个视频中保持角色身份一致性的场景，能够生成包含角色具体身份的描述性字幕，如电影和电视剧制作。

Jin等[19]提出一种创新视频文本检索（VTR）方法MV⁃Adapter（Multimodal Video Adapter），专为提升任务效率和性能而设计。这种方法采用双分支结构，并通过瓶颈式架构（下采样、变换器、上采样）实现视频和文本的高效处理。为了增强时间建模能力，MV⁃Adapter引入了时间适应（Temporal Adaption, TA）模块，该模块能够根据视频的全局和局部特征动态生成权重。同时，跨模态绑定（Cross Modality Tying, CMT）模块通过共享模态参数空间生成权重，以提高跨模态学习效率。该方法的高效性和灵活性使其适用于需要快速准确检索视频和文本的各种应用场景，如自动化媒体分析和内容审查。

视频描述生成技术在电影制作中扮演着多重角色。它不仅能自动生成情节概要和场景描述，帮助导演、编剧和编辑快速回顾和调整情节发展，进而显著提升编辑效率；还能提取视频中的关键场景和高光时刻，为制作预告片或宣传短片提供素材。此外，该技术通过自动划分视频章节并生成对应的描述和总结，帮助观众更好地理解和导航视频内容。在内容审查方面，该技术还可辅助审查人员快速理解视频内容，确保内容符合相关法律法规，并有效标注及调整敏感情节。

（2）视频理解

视频理解技术利用计算机视觉算法，实现对视频内容的全方位理解。尽管当前的研究大部分集中在对基础情节发展和视觉元素交互的理解上，但在探讨高层次艺术和深层社会意义方面已初步显出成效。

Song等[20]提出的MovieChat框架，整合了视觉模型和大语言模型（LLM），专为处理长视频理解任务设计。MovieChat通过引入高效的记忆管理机制和滑动窗口方法提取视频特征，并通过短期与长期记忆系统处理这些特征，显著减少了计算复杂性和内存成本，增强了长时间序列的连续性。该模型可以根据观众的提问提供解答，例如解释剧情背景或角色关系，不仅能帮助观众更好地理解和讨论电影剧情，还能显著提升观众的参与感和满意度。

Wang等[21]开发的OmniViD框架，将视频任务视为基于视频的语言建模任务。通过编码器-解码器架构和多模态特征提取，OmniViD引入了文本、时间和画面框等不同条件，实现了对不同视频任务的统一处理。该方法有效统一了输出格式和训练目标，提高了处理效率，OmniViD在动作识别、视频字幕、视频问答及视觉对象追踪等多个视频任务上表现出色。

Nguyen等[22]提出的Hierarchical Interlacement Graph（HIG）框架，旨在深入理解视频中的复杂交互动态。HIG通过其独特的层次化结构和统一层，简化了操作流程，并增强了对视频内容中对象相互作用的全面把握。该框架不仅能适应不同视频序列，还能灵活调整其结构以捕捉视频中人物与物体的各种交互活动。

Jin等[23]提出的Chat⁃UniVi是一种新型的统一视觉语言模型，通过动态视觉令牌同时理解图像和视频。该模型采用多尺度表示法，通过基于密度峰值聚类的K近邻（Density Peak Clustering K⁃Nearest Neighbours, DPC⁃KNN）算法逐步合并视觉令牌，实现对图像空间细节和视频时间关系的综合捕捉。Chat⁃UniVi可在不进行微调的情况下，直接应用于图像和视频理解任务，并在这些任务上展示出了优越性能。

Tores等[24]提出了一种新的计算机视觉任务，用于检测电影中的角色物化现象。通过创建一个名为ObyGaze12的数据集，该数据集包括12部电影中的1914个视频片段，这些片段围绕多个物化概念由专家进行详细注释。研究团队采用概念瓶颈模型（Concept Bottleneck Models, CBMs）来评估和提升模型在解析拍摄类型、视线、姿态和外观等物化概念的能力。这一技术的应用场景主要是影视制作，目的是量化并识别影视作品中的性别物化现象，进一步探讨和挑战银幕上的性别偏见。这为影视行业的性别平等评估和学术研究提供了新的工具和视角。

视频理解是深入分析和理解电影内涵的过程，它对观众、电影研究者和创作者都至关重要。对观众而言，对电影的解读不仅加深了对剧情、人物和情感的理解，还提升了对视觉元素和叙事结构的审美鉴赏能力，促使他们深入思考影片背后的主题和艺术表达。对研究者来说，视频理解推动了电影理论的发展，帮助理解电影与文化、历史及社会的关系，并揭示了电影如何通过视觉叙事和情节发展反映时代背景和社会观念。同时，解读经典影片为创作者提供了学习和灵感的源泉，进而探索新的表达方式和主题，更好地理解观众需求，以创作出更具深度和影响力的作品。

3.3 音频模态与电影制作

声音在电影中的应用标志着电影从默片时代向有声电影的转变。这一转变始于20世纪20年代末，声音的引入不仅改变了电影的叙事技巧，也极大地增强了电影的情感表达和观众的沉浸感。随着技术的发展，环绕声系统和多声道立体声系统的引入进一步丰富了电影的声音层次，使声音设计成为电影艺术中不可或缺的一部分。

（1）声画同步

声音与画面的同步是所有视频内容提供者的基本要求，涵盖了视听轨道时间同步和视听内容同步两个关键方面。

视听轨道时间同步关注视频和音频流在时间上的精准匹配。这种同步的失误可能发生在从拍摄到播放的全过程中，包括内容编辑或编码阶段的错误。研究显示，即便是微小的同步偏差，如45毫秒，也可能显著影响观众的观看体验。尽管市场上有多种商业解决方案，但它们往往难以满足大规模生产的需求。

此外，视听内容同步主要指音频内容与视频中的视觉元素是否匹配，在电影译制片中常常存在这一问题。配音版需要精细调整口型和语言，以求达到对话的自然流畅。配音过程中，译员需在录音棚实时调整以确保音视频的一致性。尽管配音版在制作上投入更大，但由于人物口型与语言发音的不匹配，以及语言差异有时也会降低配音的自然度，它通常不如原音版更受观众欢迎。

针对视听轨道时间同步这一挑战，Fernandez⁃Labrador等[25]开发了一种基于Transformer的音视频同步模型DiVAS，直接处理原始音视频数据，有效应对不同帧速率（FPS）和采样率带来的挑战。DiVAS不仅在动作电影、电视剧等多种媒体内容上展示了其优越的同步精度和处理速度，而且能对片段和整体作品进行音视频同步分析，为内容创作者和分析师提供了一个全面而有效的解决方案。尽管如此，这种同步技术主要解决的是音轨和画面轨道时间上的对齐，并未涉及视听内容上的对应，如配音的自然度和语言的匹配问题。

在视听内容同步方面，Choi等[26]提出一种创新的视听语音翻译（AV2AV）框架，能将视听输入直接翻译成目标语言的视听输出，解决了传统语音翻译系统中常见的视听不一致问题。利用AVHuBERT模型的模态不可知（Modality⁃agnostic）特性和专门设计的AV渲染器，这一系统在翻译过程中保持了说话者音色和面部特征的一致性，只改变语言和口型，适用于多种跨语言交流场景，包括国外电影的本地化。

（2）音效生成

音效生成技术利用多模态生成模型，根据输入数据自动生成各种音效。该技术可根据文本描述、图像或视频内容生成与场景匹配的音效，广泛应用于影视制作、游戏开发和交互式媒体等领域。

Xing等[27]开发的Seeing and Hearing框架利用预训练的单模态生成模型和ImageBind对齐器，在多模态嵌入空间中同步生成视觉和音频内容。该框架利用双向引导信号建立视觉与音频间的连接，展现了优秀的性能，适用于多种视频到音频的转换任务，无需大规模数据集训练，资源消耗低。模型在视频到音频（V2A）、图像到音频（I2A）、音频到视频（A2V）和联合视频音频（Joint⁃VA）四个任务上展现了出色性能和广泛的适用性。

然而电影中音效轨道需要对每个单一事件进行精细控制，Xie等[28]通过视觉-语言模型提出可控的音效生成框架SonicVisionLM，根据音效是否在屏幕内可见将音效分为屏内音效和屏外音效，模型既可以自动识别并生成影片的屏内音效，并配套提供了用户交互模块，用于配音师对影片的屏外音效实现创作编辑，进一步激发创作灵感。在技术上针对生成音效与影片动作在时间同步上的难题，与生成音效与影片内容高度一致的问题，最终实现了影片内容与屏内音效的逻辑融合，以及对屏外音效的灵活编辑。

自20世纪90年代以来，多声道体系及数字技术的广泛应用对电影声音创作产生了深远影响。音效不再仅被视为电影的附属元素，而是成为了提升故事氛围和增强真实感的关键因素，且在电影艺术中的角色日益重要。电影音效的来源极为丰富和多样，包括自然声、室内外环境音及人物动作等，这些声音共同构建了场景的听觉背景和连贯氛围。环境音效如风声、水声和背景音乐等，与画面紧密结合，为电影场景勾画出听觉背景。硬音效则包括角色和物体活动产生的各种声音，如门的开关声和动作打斗声，而拟音（Foley）技术则通过后期制作同步录制声音，模拟角色与环境的交互作用。以上音效生成技术的应用，增加了电影音效自动生成的可行性，不仅可大幅降低电影声音的制作时间和人力成本，也能有效缩短电影制作周期。

（3）视频配乐

视频配乐技术根据视频内容和情感基调自动生成或推荐合适的音乐。该技术通过分析视频的视觉和音频特征，识别出情节和情感的变化，进而匹配相应的音乐片段，广泛应用于电影、广告、游戏和多媒体制作中。

Li等[29]开发的Diff⁃BGM模型，是一个基于扩散的生成框架，用于生成与视频内容高度对齐的背景音乐。该模型通过集成视频的语义特征和动态特征，利用片段感知的交叉注意力层，在扩散过程中实现音视频的精确同步。这种技术不仅提高了视频的吸引力和表现力，还为电影、短片、广告和社交媒体等视频内容的制作提供了自动配乐，极大地减少了对版权音乐的依赖，同时避免了版权问题。

在用户交互方面，Dong等[30]提出MuseChat，这是一个为视频内容设计的对话式音乐推荐系统。该系统通过自然语言对话，实时调整音乐选择以更贴近用户的具体需求和偏好。通过结合音乐推荐和句子生成两大模块，MuseChat使用户能够指定音乐风格、情绪和乐器使用等细节，从而生成与视频内容和用户偏好高度一致的音乐。该系统特别适用于社交媒体和个人视频制作，帮助用户快速且准确地匹配合适的背景音乐。

Chowdhury等[31]研究开发的MeLFusion模型是一种新型的扩散模型，其通过结合图像和文本输入来生成与之一致的音乐，克服了传统音乐生成模型在多模态条件下的局限性。运用“视觉突触”机制直接从图像和文本提示中提取特征，转换为音乐生成的输入。MeLFusion为社交媒体内容创作者提供了一种高效的音乐创作工具，支持在多种创作环境中高效生成与视觉内容一致的音乐。

以上技术为电影制作提供了一种灵活、高效、成本较低的音乐解决方案。电影音乐主要分为配乐和歌曲两大类，配乐包括主题音乐、场景音乐和背景音乐，而歌曲则包括主题曲和插曲。音乐是电影艺术的灵魂，不仅推动剧情发展，还可深化电影主旨和塑造人物形象。例如，《海上钢琴师》广泛使用配乐有效地参与叙事并加深情感表达。利用视频配乐技术，编曲家可快速定位音乐的基调，同时从中获取灵感进行更细致的创作。

4总结和展望

多模态技术正逐步改变电影制作领域，开拓了无限的创新可能性。这些技术不仅提高了内容生成的自动化水平，还增强了复杂场景的理解和情节的深度解析能力。通过整合视觉、听觉和文本数据，多模态技术可精确地生成与剧本描述相匹配的视觉场景和音频内容，极大提升了沉浸式体验和个性化内容的质量。此外，它还促进了跨学科的协同创作，使编剧、导演、配音演员、音效师和特效师能够在实时合作平台上高效工作，快速响应反馈和调整创意。

未来的研究将致力于进一步探索多模态技术在解决更加复杂的场景理解和情节构建中的应用。例如，通过高级算法自动分析和生成剧情摘要，以及提供详尽的角色交互和情感动态图谱，这些技术可以帮助创作团队更深入地挖掘剧本潜力，精确控制故事叙述的节奏和情感流动。同时，利用先进的机器学习模型，多模态技术将能够分析观众的行为和反应，从而提供极具针对性和吸引力的个性化推荐。

尽管多模态技术带来了诸多好处，它在实际应用中也面临着不少挑战。数据的整合和处理需要精密的技术支持，以确保不同模态之间的无缝对接和信息的一致性。深度学习模型的复杂性及其不透明性是另一个需要解决的问题，要求开发更为先进的可解释人工智能技术，使创作过程更加透明和可控。此外，实时处理能力的提升、数据隐私和安全的保护、多语言和跨文化内容的生成，都是技术发展中亟需克服的重要障碍。

在全球范围内，多模态技术的发展将持续推动电影制作的变革。随着技术的不断进步和创新，预计这些工具不仅将使电影制作过程更高效、成本更低，而且能够创造出前所未有的观影体验。随着研究的深入和技术的成熟，多模态技术将在未来的电影制作中发挥更加关键的作用，开辟新的艺术表达和商业模式。

注释和参考文献

（向下滑动阅读）

① H5指数，即H5⁃Index，是对某期刊最近5年间所发表论文引用数进行评价的数据。该指数具有广泛代表性且由于不受超高引用单篇论文的影响，相对比较客观。

[1] CVPR.#CVPR2024[EB/OL].(2024⁃04⁃05)[2024⁃07⁃10].https://x.com/CVPR/status/1775979633717952965.

[2] Wu R, Chen L, Yang T, et al. LAMP: Learn A Motion Pattern for Few⁃Shot Video Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7089⁃7098.

[3] Wang Y, Bao J, Weng W, et al. Microcinema: A divide⁃and⁃conquer approach for text⁃to⁃video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8414⁃8424.

[4] Zeng Y, Wei G, Zheng J, et al. Make pixels dance: High⁃dynamic video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8850⁃8860.

[5] Jain Y, Nasery A, Vineet V, et al. PEEKABOO: Interactive video generation via masked⁃diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8079⁃8088.

[6] Cai S, Ceylan D, Gadelha M, et al. Generative rendering: Controllable 4d⁃guided video generation with 2d diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7611⁃7620.

[7] Yang S, Zhou Y, Liu Z, et al. FRESCO: Spatial⁃Temporal Correspondence for Zero⁃Shot Video Translation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8703⁃8712.

[8] Feng R, Weng W, Wang Y, et al. Ccedit: Creative and controllable video editing via diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 6712⁃6722.

[9] Ma H, Mahdizadehaghdam S, Wu B, et al. Maskint: Video editing via interpolative non⁃autoregressive masked transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7403⁃7412.

[10] Xing Z, Dai Q, Hu H, et al. Simda: Simple diffusion adapter for efficient video generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7827⁃7839.

[11] Jiang X, Rao A, Wang J, et al. Cinematic Behavior Transfer via NeRF⁃based Differentiable Filming[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 6723⁃6732.

[12] Liu J W, Cao Y P, Wu J Z, et al. Dynvideo⁃e: Harnessing dynamic nerf for large⁃scale motion⁃and view⁃change human⁃centric video editing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7664⁃7674.

[13] Argaw D M, Soldan M, Pardo A, et al. Towards Automated Movie Trailer Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7445⁃7454.

[14] Zhou X, Arnab A, Buch S, et al. Streaming dense video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18243⁃18252.

[15] Xu J, Huang Y, Hou J, et al. Retrieval⁃augmented egocentric video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 13525⁃13536.

[16] Kim M, Kim H B, Moon J, et al. Do You Remember? Dense Video Captioning with Cross⁃Modal Memory Retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 13894⁃13904.

[17] Islam M M, Ho N, Yang X, et al. Video ReCap: Recursive Captioning of Hour⁃Long Videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18198⁃18208.

[18] Raajesh H, Desanur N R, Khan Z, et al. MICap: A Unified Model for Identity⁃aware Movie Descriptions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 14011⁃14021.

[19] Jin X, Zhang B, Gong W, et al. MV⁃Adapter: Multimodal Video Transfer Learning for Video Text Retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 27144⁃27153.

[20] Song E, Chai W, Wang G, et al. MovieChat: From dense token to sparse memory for long video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18221⁃18232.

[21] Wang J, Chen D, Luo C, et al. OmniViD: A generative framework for universal video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18209⁃18220.

[22] Nguyen T T, Nguyen P, Luu K. HIG: Hierarchical interlacement graph approach to scene graph generation in video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 18384⁃18394.

[23] Jin P, Takanobu R, Zhang W, et al. Chat⁃UniVi: Unified visual representation empowers large language models with image and video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 13700⁃13710.

[24] Tores J, Sassatelli L, Wu H Y, et al. Visual Objectification in Films: Towards a New AI Task for Video Interpretation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 10864⁃10874.

[25] Fernandez⁃Labrador C, Akçay M, Abecassis E, et al. DiVAS: Video and Audio Synchronization with Dynamic Frame Rates[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 26846⁃26854.

[26] Choi J, Park S J, Kim M, et al. AV2AV: Direct Audio⁃Visual Speech to Audio⁃Visual Speech Translation with Unified Audio⁃Visual Speech Representation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 27325⁃27337.

[27] Xing Y, He Y, Tian Z, et al. Seeing and hearing: Open⁃domain visual⁃audio generation with diffusion latent aligners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 7151⁃7161.

[28] Xie Z, Yu S, He Q, et al. SonicVisionLM: Playing sound with vision language models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 26866⁃26875.

[29] Li S, Qin Y, Zheng M, et al. Diff⁃BGM: A Diffusion Model for Video Background Music Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 27348⁃27357.

[30] Dong Z, Liu X, Chen B, et al. Musechat: A conversational music recommendation system for videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 12775⁃12785.

[31] Chowdhury S, Nag S, Joseph K J, et al. MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 26826⁃26835.

主管单位：国家电影局

主办单位：电影技术质量检测所

标准国际刊号：ISSN 1673-3215

国内统一刊号：CN 11-5336/TB

投稿系统：ampt.crifst.ac.cn

官方网站：www.crifst.ac.cn

期刊发行：010-63245081

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.