《现代电影技术》｜李梦甜等：基于AIGC的数字人驱动技术在电影制作中的应用研究|动画|动作|大模型

分享至

本文刊发于《现代电影技术》2025年第4期

专家点评

在现代科技浪潮的有力推动下，计算机图形学（CG）作为计算机科学的前沿领域，近年来发展迅猛，已成为人工智能（AI）技术体系中的关键基石。计算机图形学聚焦对世界的仿真模拟，而人工智能侧重于对世界的感知理解，二者深度融合催生出的生成式人工智能（GAI），不仅为真实世界模拟、世界模型构建及具身智能发展奠定基础，也为影视创作生产带来了革命性突破。在影视创作生产领域，AIGC凭借 “视觉思维”、模拟仿真和可视化能力，重塑了从剧本到成片的全流程，基于AIGC的虚拟数字人技术的发展应用便是其中之一。人体运动的仿真模拟是虚拟数字人仿真的关键要素，包括3D人体重建、骨骼运动迁移、动作风格迁移等。《基于 AIGC 的数字人驱动技术在电影制作中的应用研究》一文系统剖析了该技术在电影制作中的应用，从技术演进路径、现存关键瓶颈、系统研发实践到未来发展趋势，进行了全面系统且具前瞻性的探讨，提出了面向电影制作的数字人驱动生成系统，为电影行业创新与技术研究提供了重要参考。展望未来，计算机图形学与影视内容创作领域亟待深化协同创新，以创作生产实践需求为导向，加速技术迭代升级，为影视行业注入更多创新活力，开创影视数字内容创作的新篇章。

——陈宝权

北京大学博雅特聘教授、智能学院副院长

IEEE Fellow

长江学者特聘教授

作者简介

李梦甜

上海大学上海电影学院、上海电影特效工程技术研究中心讲师，主要研究方向：面向影视、游戏与艺术领域的数字内容理解与生成。

上海大学上海电影学院硕士研究生在读，主要研究方向：多模态模型、数字人运动生成。

翟承硕

摘要

随着人工智能生成内容（AIGC）技术的快速发展，生成式数字人驱动技术正受到越来越多的关注，并有望在未来电影制作中发挥关键作用。本文系统梳理了生成式数字人驱动技术的研究现状，针对目前该技术在电影制作领域存在的训练数据匮乏、生成时长受限等问题，创新性地提出了面向电影制作的数字人驱动生成系统。该系统基于扩散模型，不仅能根据文本生成高质量的数字人运动，同时还提供了预定义的动作模板，为电影制作流程中的数字人驱动环节提供可靠的技术支持。最后，本文分析和展望了AIGC技术在电影制作领域的发展趋势，指出其将在高效化剧本创作、个性化角色塑造、智能化场景交互等环节发挥作用，从而提高电影制作的整体效率。

关键词

人工智能生成内容（AIGC）；电影制作；数字人驱动生成；扩散模型；多模态数据融合

1引言

数字人的驱动主要关注于如何通过技术手段生成或控制虚拟数字人的行为、动作和表情等，以实现自然、逼真和强交互性的数字人表现。其为数字世界搭建了从静态向动态跨越的阶梯[1]，是电影制作中非常重要的技术手段。当前，中国电影工业正经历以人工智能生成内容（AIGC）为核心的科技变革[2]。在此背景下，基于AI的生成式数字人驱动技术逐渐成为电影制作领域的关键创新点。该技术不仅能显著提升电影制作效率，降低传统制作过程中的人力与时间成本，还能为创作者提供更加灵活、高效的创作工具，推动电影产业在虚拟与现实融合方向的持续创新。鉴于此，本文将深入探讨基于AIGC的数字人驱动技术发展状况，创新地提出基于扩散模型的数字人驱动生成系统，并分析其在电影制作中的实际应用价值。本文还将展望AIGC技术在电影制作领域的未来发展趋势，为行业的持续进步提供参考。

2基于AIGC的数字人驱动技术发展状况

在电影制作的早期阶段，数字人的驱动主要依靠手动设计关键帧动画或借助动作捕捉技术来实现角色的逼真运动。尽管这些方法在某些场景中表现出色，但其高度依赖人工调控且制作耗时。调整关键帧需设计师逐帧调整角色的姿态和运动轨迹，耗时耗力且对技术要求极高。动作捕捉则依赖于专业的设备和高成本的拍摄环境。这些因素极大限制了在电影制作中驱动数字人运动技术的普及应用和创作自由度。

随着生成式对抗网络（GAN）、变分自编码器（VAE）和去噪扩散概率模型（DDPM）等深度生成模型的引入，数字人驱动技术迎来了新的突破。仅需输入简单的控制条件（如文本），模型就能自动生成逼真的人体骨骼运动序列，进而绑定人物模型并驱动其运动。这种生成方式不仅突破了传统技术对专业设备和人工经验的依赖，而且大幅度提升制作效率，为电影制作提供了全新的技术支持（图1）。这一技术革新加速了数字内容生产流程，推动电影工业向智能化、高效化方向快速发展。

图1　数字人驱动方式及流程

2.1 基于AIGC的数字人驱动技术研究现状

当前，基于生成模型的数字人驱动技术能通过文本、音频或场景等多模态输入，直接生成逼真的人体动作序列。技术依托于人体运动数据训练的深度生成模型，可实现数字人驱动的快速生成。例如，导演或编剧仅需输入自然语言描述，如“角色向前跳了两下”，该技术便可自动生成与描述一致的动作，从而显著加速角色动画的设计流程，不仅提升了电影制作的效率，还推动了传统制作模式的变革。近年来，基于生成式AI的数字人驱动技术发展迅猛，相关研究成果在计算机视觉领域的国际顶级学术会议〔如IEEE国际计算机视觉与模式识别会议（CVPR）和国际计算机图形与交互技术会议（SIGGRAPH）〕中得到了广泛关注。本节系统综述了当前基于生成式AI的数字人驱动技术的研究进展，从控制信号维度出发，围绕文本驱动、音频驱动、场景驱动等多模态控制方式展开分析。表1列举了当前主流的数字人驱动技术的代表性工作。相关研究方法在动作生成质量、时序连贯性和动作多样性等方面不断取得进展，技术框架逐渐成熟。但由于训练数据质量的限制，现有方法生成的动作仍难以达到电影制作要求，尤其在动作真实性和长序列稳定性等关键指标上仍需提升。

表1　基于AIGC 的数字人驱动技术代表工作

2.1.1 以文本为控制条件的数字人驱动

2019年，Ahuja等[18]开创性地提出一种名为Joint Language to Pose（JL2P）的新型文本驱动人体动作生成模型。该模型通过动态深度神经网络实现了文本与姿态的联合嵌入，成功构建了从文本到人体运动生成的初步框架。这一研究不仅为后续的文本驱动数字人运动奠定了基础，还标志着自然语言与人体动作生成领域的深度融合。

近年来，文本驱动数字人运动生成的方法不断涌现，取得了显著进展。例如，MoMask模型通过分层量化和掩码建模技术，能根据文本描述生成高质量3D人体动作。MotionFix方法则通过条件扩散模型实现了文本驱动的动作编辑，支持对动作细节的精准调整。

2.1.2 以音频为控制条件的数字人驱动

除文本描述外，研究者还探索了通过音频信号生成人体动作的方法。与文本不同，音频信号通常不会明确描述相应的人体动作，这为生成任务提供了更高的自由度。同时，还要求生成的人体动作应在自然语义和音频节奏方面保持协调。2019年，Lee等[19]首次引入从音乐到舞蹈的跨模态生成任务，提出一种基于合成与分析的学习框架，将舞蹈分解为一系列基本的舞蹈单元。该模型通过这些单元学习如何移动，这一研究展示了音频信号在驱动人体动作生成中的潜力。

Zhang等[20]提出一种基于Conformer的自回归生成框架，通过音乐和舞蹈特征的跨模态建模，生成与音乐节奏同步的连贯舞蹈动作序列。此外，Li等[21]提出的Bailando框架引入编舞记忆和基于演员-评论员（Actor⁃Critic）的强化学习机制，生成的舞蹈动作不仅遵循编舞规范，还通过节拍对齐奖励函数实现了与音乐节奏的同步。Sun等[22]利用VQ⁃VAE学习低维流形的表示方法，并开发了过去-未来运动动态库，为未来动作提供明确的先验信息，保证了生成动作的连续性。Aristidou等[23]从姿态、动机和编舞三个层面入手，生成保持特定流派的有全局结构性的长时舞蹈。Tseng等[14]提出的Editable Dance GEneration（EDGE）方法，能创建真实且符合物理规律的舞蹈，并允许用户自由指定生成时间。Liu等[15]提出的EMAGE框架则进一步拓展了音频驱动动作生成的应用范围，能从音频生成全身动作，包括面部表情、身体局部动作、手部动作及整体的全身运动。这些方法提升了音频驱动人体动作生成的质量和多样性，为未来电影制作中数字人运动的驱动提供了技术支撑。

2.1.3 以场景为控制条件的数字人驱动

数字人的运动应具有目标导向性，以场景为控制条件的数字人驱动任务，旨在生成与场景一致且合理的人体运动。在实际情况中，被控制的个体在受到物理环境限制时，如何移动身体与环境进行合理交互，是数字人驱动任务中需要解决的关键问题。

Wang等[16]提出一种两阶段框架，用于根据场景语义和文本描述生成符合物理规律的人体运动。该框架以场景可供性（Scene Affordance）图作为中间表示，第一阶段基于3D场景和文本描述生成明确的场景可供性图，第二阶段则在第一阶段基础上结合该图和文本描述生成与之匹配的人体动作。该方法能同时满足以场景和文本为控制条件的动作生成需求，实现了两者在动作生成中的结合。Jiang等[17]提出一种基于自回归扩散模型的动作生成框架，通过编码场景的几何信息实现长时间、符合物理约束的人-场景交互（HSI）的动作生成。该方法提出的TRUMANS数据集和场景感知技术，能根据任意场景生成多样化且真实感强的长时动作，有效避免了穿模和失真问题的出现。Li等[24]提出名为ZeroHSI的零样本方法，用于生成4D的人-场景交互。该方法无需借助配对的运动-场景训练数据，能直接利用视频生成模型和神经渲染技术，实现在多种环境中生成与上下文高度相关的人-场景交互运动。

2.1.4 其他控制条件驱动的方法

随着技术的不断进步，研究者们逐渐认识到，单一的驱动条件或仅生成单一人体动作的任务，已难以满足复杂多变的电影制作需求。因此，近年来，研究者们聚焦于生成多样化的人体运动，为电影制作提供更加简单高效的工具。

Xu等[25]提出一种用于合成人体“动作-反应”序列的新方法，能够根据给定的人体动作生成合理且自然的人体反应动作。通过标注多个数据集，该方法明确了交互中的“主动者”和“反应者”角色，并借助基于扩散模型和Transformer解码器的生成框架，实现了在不同视角和未见过的动作序列下，高效生成逼真且自然的双人交互场景，满足在电影制作过程中对对话、冲突、协作等复杂情境的需求。Zhang等[26]的LMM模型支持文本、音乐、语音等多模态输入，实现“文字指挥手臂动作+音乐控制舞步节奏”的协同生成，为导演提供了从剧本台词到舞蹈编排的端到端创作工具。Ji等[27]提出一种基于文本引导的群体动作合成方法，能够根据自然语言描述生成多样化且自然的群体运动序列。该方法通过结合文本特征和群体运动模型，实现了对大规模群体行为的精准控制和个性化定制，不仅支持对群体动作的整体生成，还能针对个体行为进行动作微调。这一技术的引入将极大减轻手动设计复杂人群行为的负担，使大规模动态人群场景的高效生成成为可能。特别是在战争场面、城市生活风貌或自然灾难等包含大量角色交互的复杂场景中，该方法的应用将显著提升画面的真实感与制作效率，为虚拟环境的创作生产开辟了更加灵活多变、充满创新潜力的新天地。

2.2 基于AIGC的数字人驱动技术在电影制作中的应用

近年来，AIGC技术在电影制作中的应用逐渐深入，显著提升了制作效率和创意效果。例如，《哪吒之魔童闹海》[28]借助AIGC技术优化特效制作流程，降低了电影制作成本并提升了视觉效果。电影《我们的终结者2重制版》（

Our T2 Remake

）更是全程采用AI辅助制作，展示了AI在长篇电影创作中的可行性。然而，生成式数字人驱动技术在电影中的应用仍较为有限。当前该技术主要应用于动画和特效领域，如在《阿凡达》系列电影中用于增强面部表情捕捉和角色动作生成质量，但在完整电影制作流程中，此类技术的集成应用仍处于探索阶段。

在2025年央视春晚舞台上，由张艺谋执导的《秧BOT》[29]节目展示了生成式数字人驱动技术的前沿应用。在该节目中，宇树科技的16台H1机器人通过视频驱动的数字人运动生成技术，完成了与16位新疆艺术学院舞蹈演员的动作协同表演。这一创新应用不仅改变了传统艺术表现形式，也为电影制作开辟了全新的创作路径。由此可见，生成式数字人驱动技术未来将在电影特效、虚拟角色创作等领域发挥更为重要的作用。

2.3 基于AIGC的数字人驱动技术目前存在的挑战与瓶颈

基于AIGC的数字人驱动技术在电影制作领域应用前景虽然广阔，但当前仍面临诸多复杂的技术挑战。其中，数据资源的匮乏及生成动作的真实性和多样性不足是尤为突出的问题。

数据资源的稀缺性是制约数字人驱动技术广泛应用的关键瓶颈之一。高质量的动作捕捉数据和角色设定信息往往难以获取，导致算法在训练和优化过程中缺乏足够的支持。此外，数据不足直接影响了算法对角色真实情感和细腻动作的捕捉能力，影响了电影制作效果，削弱了电影表现力。

动作生成的真实性与多样性不足也是当前数字人驱动技术面临的核心挑战之一。尽管现有算法能够生成基本的动作序列，但在面对复杂多变的场景或细致入微的角色设定时，生成的动作往往显得机械、单调、缺乏灵活性。这种局限不仅影响了影片的真实感和观众的沉浸体验，也对电影制作的整体质量和效率提出了更高要求。

为突破这些瓶颈，未来数字人驱动技术的发展可从以下几方面入手：一是构建大规模、多样化的多模态数据集，特别是涵盖复杂动作和微表情的数据；二是通过更先进的生成模型和物理约束机制，提升生成动作的真实性与多样性。这些方向的探索将有助于推动数字人驱动技术在电影制作中的深入应用，为其开拓更加广阔的发展空间。

3面向电影制作的数字人驱动生成系统研发

本次研发以系统的实用性为核心出发点，考虑用户操作的便捷性，围绕“生成快速、操作简便、检索高效”等目标进行系统设计。通过引入最新的生成算法，系统不仅提升了生成式数字人驱动技术的精度与效率，同时简化了传统电影制作中数字人驱动操作流程，为电影制作中数字人驱动工作提供便利。

3.1 系统设计：生成快速、操作便捷的数字人驱动系统

该系统采用对用户友好的简单设计理念，通过直观的操作界面实现高效生成。系统包括运动生成和运动检索两部分。在生成过程中，通过用户输入的文本描述，系统即可基于以文本为控制条件的数字人驱动生成算法，生成与文本描述精准匹配的人体动作序列。同时，系统还配备了一个庞大的动作库，支持用户轻松检索所需动作，从而简化数字人驱动流程（图2）。

图2　数字人驱动系统流程图

3.1.1 数字人运动生成

在所有条件模态中，基于文本的人体动作生成一直在推动和主导研究前沿，这主要得益于语言描述为人们与计算机提供了方便自然的交互方式。文本输入不仅允许用户通过简单的文本描述生成目标动作，更降低了使用门槛，使非专业用户也能快速上手操作。基于此，本系统选择文本作为控制条件，通过整合先进的自然语言处理（NLP）技术和动作生成算法，构建了文本-动作生成框架，确保了从文本到动作转换的准确性和自然度。

（1）基于扩散模型的生成算法

在动作生成阶段，系统首先通过CLIP文本编码器对用户输入的文本描述进行文本编码，将编码的文本特征向量输入到潜在空间中扩散模型的反向过程。模型基于式（2）的噪声预测机制，通过多步迭代的反向扩散逐步去除初始随机噪声中的冗余信息，最终输出结构完整且与文本语义高度契合的人体运动序列。

（2）实验与结果

为验证生成效果，本文采用以下两种指标进行评估：（a）弗雷歇感知距离（Fréchet Inception Distance, FID），测量生成动作与真实动作的高级特征分布差异，来评估动作的整体质量，FID值越低，表明生成动作越接近真实动作；（b） R⁃Precision用于衡量输入文本与生成动作间的语义一致性，值越高，表明生成的动作越符合输入的文本描述。通过这两种指标，可全面评估生成动作的质量及与文本的匹配程度。测试用的数据集为HumanML3D⁃Extend，是目前包含最多文本描述、运动序列最长的文本-动作数据集。本文与目前效果最好的方法MotionDiffuse和MoMask进行比较，实验结果（表2）表明，本文方法生成动作的FID值达到了最低的2.28，动作质量最佳。在R⁃Precision指标上，本文方法仅比MotionDiffuse的结果低0.02。值得注意的是，MotionDiffuse在测试过程中消耗了大量时间，测试1000条数据耗时71小时，而本文方法测试5000条数据仅耗时24小时，效率最高。综合两项指标，本文方法在效率和质量上均具有显著优势。

表2　本文方法与MotionDiffuse、MoMask的定量对比结果

3.1.2 数字人运动检索

系统还提供了一个大型动作库，允许用户根据需求快速检索、调用和组合预定义的动作模板。该功能在简化动作制作的同时，还为用户提供了丰富的动作参考素材。这种设计降低了数字人驱动制作的技术门槛，为电影创作者提供了更便捷的工具。

3.2 系统应用：在电影制作过程中的应用

在电影制作领域，本文提出的系统展现出极高的应用价值，主要体现在以下两个方面：

3.2.1 便捷控制动作生成

该系统构建了一个对用户极为友好的动作生成界面。如图3所示，通过直观的文本驱动交互方式，只需用户在对话框中输入动作描述，系统即可自动生成相应动作。这一设计降低了电影制作中动作生成门槛，使导演等非技术成员也能直接参与动作设计，减少对专业动画师的依赖。

图3　文本生成动作序列操作

3.2.2 快速数据检索功能

本系统内置了丰富的动作资源库，为电影制作提供了大量预定义动作模板。用户可通过关键词或语义描述（例如“奔跑”“跳跃”等）快速检索和调用动作。如图4所示，系统支持将动作导出为常见的3D动画格式（如FBX），并与主流电影制作软件（如Unity、Blender等）无缝集成。导出的动作可直接绑定角色骨骼，或作为关键帧动画的编辑基础。通过系统的智能检索与一键下载功能，用户可快速获取高质量动作数据，避免了基础动作重复构建的问题。该功能大幅缩短了从动作设计到实际应用的周期，显著简化了电影制作中数字人驱动的流程。

图4　动作检索操作

4 基于AIGC的数字人驱动技术在电影制作中的发展趋势

生成式数字人驱动技术与多模态数据的结合，将极大提升电影内容的创作效率，构建出更加强大的多模态融合模型。这种模型能够同时处理文本、图像、声音和环境描述，实现从动作到镜头设计、从音效到台词的整体输出，从而推动电影内容创作全流程的自动化。例如，哈尔滨工业大学与清华大学联合推出的FilmAgent工具[31]，通过多智能体协作框架，模拟电影制作中的不同角色，可自动生成剧本、角色动作、镜头设置及语音对话。此外，Melies[32]平台整合了GPT⁃4、Runway等AI工具，提供从剧本创作到视频生成的统一解决方案，进一步简化了电影制作流程，拓展电影制作的边界与可能性。基于此，本文将从以下3个主要方向探讨AIGC下的数字人驱动技术在电影制作中的未来发展趋势。

4.1 高效化剧本创作

当前，电影技术领域已能在一定程度上依据简短文字描述生成角色动作，但针对长篇叙事文本的精确动作识别与生成仍面临诸多挑战。随着自然语言理解技术的深化研究，未来有望更深入地解析剧本中的丰富语义，从而实现“剧本直驱动画”的愿景。这一突破不仅能让编剧仅凭台词与动作描述轻松生成人体动作，更将从剧本到画面的转化流程大幅提速，显著提升创作效率。此外，未来该技术有望支持实时预览与即时修改功能，使创作者能在构思场景时即时生成角色动作并进行灵活调整。这一实时性特质极大提升了工作效率，尤其在面对较长时间的动作生成时，创作者能更直观地展现创意构想，并细致优化每一帧动作，确保最终作品的质量。例如， FasterLivePortrait[33]技术基于TensorRT优化，能在英伟达（NVIDIA）GeForce RTXTM 3090显卡上实现超30 FPS的速度，显著提升了实时动画生成的效率，该技术的发展为动画创作提供了更高效、更灵活的解决方案。

4.2 个性化角色塑造

随着生成式AI技术的迭代升级，个性化角色生成正逐步成为电影工业化进程中的关键突破方向。当前的生成式数字人驱动技术通过调整文本描述或增加特定参数输入，能生成与角色性格、情感状态及场景氛围高度契合的个性化动作。该技术的核心在于对角色细微情感和行为的精准捕捉，从而实现定制化的角色塑造。未来，随着技术的不断发展与进步，编剧或导演仅需对文本描述进行微调，即可捕捉到如忧郁的眼神、愤怒的手势或欢快的步伐等细腻的表演细节。这种精准化的角色控制手段，为角色塑造和叙事表达提供了更加丰富和细腻的工具，使电影中的角色更加鲜活、立体。由快手科技、中国科学技术大学和复旦大学联合开发的LivePortrait[34]技术通过隐式关键点方法和重定向模块，能精确控制角色的微表情和肢体动作，进一步增强了角色表现的个性化和自然感。此技术的应用不仅提升了角色的表现力，也为创作者提供了更广阔的艺术创作空间，推动了电影和动画作品在情感表达和叙事深度上的进一步发展。

4.3 智能化场景交互

在传统电影制作中，群体场景的拍摄和动作捕捉通常依赖大量演员的实际表演，这一过程不仅耗时且成本高昂。未来，基于生成式AI的数字人驱动技术将有望实现群体角色动作的智能化生成，为电影创作生产开辟全新可能。例如，在大规模战争场景中，该技术无需逐个捕捉每位演员的动作，可直接根据战斗策略、环境条件和角色设定，自动生成大批士兵的战斗动作及协同行为。

5 结语

尽管近年来在AIGC技术的驱动下，生成式数字人驱动技术取得了显著进展，但其在电影制作领域的应用仍面临诸多挑战，在一定程度上阻碍了该技术在电影制作全流程中的推广。例如，当前的人体动作数据在数量上难以满足生成式数字人驱动技术的需求，且生成的人体动作在复杂场景下的适应性还有待提升。为应对这些挑战，本文提出的基于扩散模型的数字人驱动生成系统通过算法优化与模型架构改进，实现了2.28的FID值和0.35的文本匹配度，在有效提升动作生成质量和效率的同时，也为用户提供更为丰富的动作数据资源。展望未来，随着AIGC技术的持续突破与创新，数字人驱动技术将在电影制作领域释放更大潜能，不仅能显著提升创作生产效率、优化制作成本，更能为电影艺术创作开辟全新的表达维度和创意空间，推动电影艺术形式的革新与突破。

参考文献

（向下滑动阅读）

[1] 晏轶超,程宇豪,陈琢,等.基于神经网络的生成式三维数字人研究综述:表示、渲染与学习[J].中国科学:信息科学,2023,53(10):1858⁃1891.

[2] 王之若,杨云添.AIGC赋能电影虚拟角色的影像生产力——基于计算机图形技术的考察[J].中国电影市场,2025(01):47⁃54.

[3] ATHANASIOU N, PETROVICH M, BLACK M J, et al. Teach: Temporal action composition for 3d humans[C]//2022 International Conference on 3D Vision (3DV). IEEE, 2022: 414⁃423.

[4] ZHANG M, CAI Z, PAN L, et al. MotionDiffuse: Text⁃driven human motion generation with diffusion model[EB/OL]. [2025⁃02⁃22].https://arxiv.org/abs/2208.15001.

[5] CHEN X, JIANG B, LIU W, et al. Executing your commands via motion diffusion in latent space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 18000⁃18010.

[6] DABRAL R, MUGHAL M H, GOLYANIK V, et al. MoFusion: A framework for denoising⁃diffusion⁃based motion synthesis[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2023: 9760⁃9770.

[7] ZHANG J, ZHANG Y, CUN X, et al. Generating human motion from textual descriptions with discrete representations[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2023: 14730⁃14740.

[8] JIANG B, CHEN X, LIU W, et al. MotionGPT: Human motion as a foreign language[J]. Advances in Neural Information Processing Systems, 2023, 36: 20067⁃20079.

[9] SHAFIR Y, TEVET G, KAPON R, et al. Human motion diffusion as a generative prior[EB/OL]. (2023⁃03⁃02) [2025⁃02⁃22]. https://arxiv.org/abs/2303.01418.

[10] ATHANASIOU N, CSEKE A, DIOMATARIS M, et al. MotionFix: Text⁃driven 3d human motion editing[C]//SIGGRAPH Asia 2024 Conference Papers, 2024: 1⁃11.

[11] BARQUERO G, ESCALERA S, PALMERO C. Seamless human motion composition with blended positional encodings[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 457⁃469.

[12] GUO C, MU Y, JAVED M G, et al. MoMask: Generative masked modeling of 3d human motions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1900⁃1910.

[13] PINYOANUNTAPONG E, WANG P, LEE M, et al. MMM: Generative masked motion model[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1546⁃1555.

[14] TSENG J, CASTELLON R, LIU K. EDGE: Editable dance generation from music[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 448⁃458.

[15] LIU H, ZHU Z, BECHERINI G, et al. EMAGE: Towards Unified Holistic Co⁃Speech Gesture Generation via Expressive Masked Audio Gesture Modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1144⁃1154.

[16] WANG Z, CHEN Y, JIA B, et al. Move as You Say Interact as You Can: Language⁃guided Human Motion Generation with Scene Affordance[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 433⁃444.

[17] JIANG N, ZHANG Z, LI H, et al. Scaling up dynamic human⁃scene interaction modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1737⁃1747.

[18] AHUJA C,MORENCY L P.Language2pose:Natural language grounded pose forecasting[C]//2019 International Conference on 3D Vision (3DV).IEEE, 2019: 719⁃728.

[19] Lee H Y, Yang X, Liu M Y, et al. Dancing to music[C]// Advances in Neural Information Processing Systems 32 (NeurIPS 2019) . Vancouver, Canada: NeurIPS, 2020.

[20] Zhang M, Liu C, Chen Y, et al. Music⁃to⁃dance generation with multiple conformer[C]//Proceedings of the 2022 International Conference on Multimedia Retrieval, 2022: 34⁃38.

[21] LI S, YU W, GU T, et al. Bailando: 3d dance generation by actor⁃critic gpt with choreographic memory[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 11050⁃11059.

[22] SUN J, WANG C, HU H, et al. You never stop dancing: Non⁃freezing dance generation via bank⁃constrained manifold projection[J]. Advancesin Neural Information Processing Systems, 2022, 35: 9995⁃10007.

[23] ARISTIDOU A, YIANNAKIDIS A, ABERMAN K, et al. Rhythm is a dancer: Music⁃driven motion synthesis with global structure[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 29(8): 3519⁃3534.

[24] LI H, YU H X, LI J, et al. ZeroHSI: Zero⁃Shot 4D Human⁃Scene Interaction by Video Generation[EB/OL]. [2025⁃02⁃22].https://arxiv.org/abs/2412.18600.

[25] XU L, ZHOU Y, YAN Y, et al. ReGenNet: Towards Human Action⁃Reaction Synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1759⁃1769.

[26] ZHANG M, JIN D, GU C, et al. Large motion model for unified multi⁃modal motion generation[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 397⁃421.

[27] JI X, PAN Z, GAO X, et al. Text⁃Guided Synthesis of Crowd Animation[C]//ACM SIGGRAPH 2024 Conference Papers, 2024: 1⁃11.

[28] 贾文婷,崔越. 从《哪吒2》看“中国风”的全球表达[EB/OL].（2025⁃02⁃18） [2025⁃02⁃22]. http://world.people.com.cn/n1/2025/0218/c1002-40420749.html.

[29] 邢郑,孙娜. 机器人秧歌“搭子”、“如意变化” 揭秘春晚彩蛋[EB/OL].（2025⁃01⁃30） [2025⁃02⁃22]. http://kpzg.people.com.cn/n1/2025/0130/c404214-40410871.html.

[30] RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical text⁃conditional image generation with clip latents[EB/OL]. [2025⁃02⁃22].https://arxiv.org/abs/2204.06125.

[31] XU Z, WANG L, WANG J, et al. FilmAgent: A Multi⁃Agent Framework for En d⁃to⁃End Film Automation in Virtual 3D Spaces[EB/OL]. [2025⁃02⁃22].https://arxiv.org/abs/2501.12909.

[32] Melies[EB/OL].[2025⁃04⁃02]. https://www.aitoolnet.com/zh/melies.

[33] FasterLivePortrait-实时让肖像动起来！支持onnx/tensorrt[EB/OL].[2025⁃04⁃02]. https://www.aibase.com/zh/tool/31754.

[34] GUO J, ZHANG D, LIU X, et al. LivePortrait: Efficient portrait animation with stitching and retargeting control[EB/OL]. [2025⁃02⁃22]. https://arxiv.org/abs/2407.03168.

【基金项目】国家自然科学基金青年科学基金项目“有限标注下的室内三维场景感知与编辑关键方法研究”（ 62402306）；上海市“科技创新行动计划”自然科学基金项目“复杂室内三维场景细粒度感知关键方法研究”（24ZR1422400）。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.