模拟真实世界:多模态生成模型的统一综述
Simulating the Real World: A Unified Survey of Multimodal Generative Models
https://arxiv.org/pdf/2503.04641
![]()
摘要
——理解和复现现实世界是通用人工智能(AGI)研究中的一项关键挑战。为实现这一目标,许多现有方法(如世界模型)试图捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前方法通常将不同模态(包括2D图像、视频、3D和4D表征)视为独立领域,忽视了它们之间的相互依赖关系。此外,这些方法往往聚焦于现实的孤立维度,未能系统性地整合各维度之间的关联。在本综述中,我们对多模态生成模型进行了统一梳理,重点考察其在真实世界模拟中数据维度演进的脉络。具体而言,本综述从2D生成(外观)出发,逐步推进到视频生成(外观+动态)、3D生成(外观+几何),最终达到融合所有维度的4D生成。据我们所知,这是首次尝试在单一框架内系统性地统一2D、视频、3D和4D生成的研究。为指导未来研究,我们全面回顾了相关数据集、评估指标及未来方向,以帮助新进入者获得深入见解。本综述旨在搭建一座桥梁,推动多模态生成模型与真实世界模拟在统一框架下的发展。
关键词—生成模型,图像生成,视频生成,3D生成,4D生成,深度学习,文献综述。
I. 引言
数十年来,研究界一直致力于开发能够封装物理世界基本原理的系统,这是通向通用人工智能(AGI)[1] 之路的基石。这一努力的核心在于用机器模拟现实世界,通过多模态生成模型的视角捕捉现实的复杂性。由此构建的“世界模拟器”有望深化对真实世界的理解,并催生变革性应用,如虚拟现实 [2]、游戏 [3]、机器人 [4] 和自动驾驶 [5]。
“世界模拟器”一词最早由 Ha David [6] 提出,其灵感源自认知科学中的“心智模型”(mental model)[7] 概念。在此基础上,现代研究者 [8] 将该模拟器形式化为一个抽象框架,使智能系统能够通过多模态生成模型模拟现实世界。这些模型将现实世界的视觉内容与时空动态编码为紧凑表征。由于几何结构、外观表现和动态行为共同构成了生成内容的“真实感”,这三个方面已成为学界广泛研究的重点 [9]。
传统的现实世界模拟方法长期依赖图形学技术,整合几何、纹理与动态特性:具体而言,通过几何与纹理建模 [10] 构建物体,再借助关键帧动画 [11] 或基于物理的仿真 [12] 模拟物体随时间的运动与行为。
尽管取得了显著进展,这些传统方法通常需要大量人工设计、启发式规则定义以及计算成本高昂的处理流程,限制了其在多样化场景中的可扩展性与适应性。近年来,以数据驱动为核心的学习型方法,尤其是多模态生成模型,彻底革新了内容生成方式。这类方法减少了对人工干预的依赖,提升了跨任务的泛化能力,并实现了人与模型之间更直观的交互。例如,Sora [13] 因其逼真的模拟能力广受关注,展现出对物理规律的初步理解。
此类生成模型的出现带来了全新的视角与方法论:它们通过减少繁重的人工设计和高成本建模需求,同时增强在多样模拟场景中的适应性与可扩展性,有效克服了传统方法的局限。
尽管现有生成模型在各自的数据维度上提供了强大的逼真内容合成能力,但现实世界本质上具有高维复杂性。目前仍缺乏一份系统性综述,将不同维度上的进展有机整合。本文旨在填补这一空白,从数据维度增长的视角统一梳理现实世界模拟的研究(如图1所示):我们从仅包含外观的2D生成出发,逐步扩展至引入动态特性的视频生成和引入几何结构的3D生成,最终融合所有维度,达到4D生成。
![]()
综上所述,本综述做出三项主要贡献:
第一,从数据维度演进的视角,通过多模态生成模型系统性地回顾现实世界模拟方法。据我们所知,这是首个将2D、视频、3D和4D生成研究统一起来的综述,为该领域提供了结构清晰且全面的概览。
第二,全面调研了常用数据集及其特性,并从多角度梳理了相应的评估指标。
第三,识别了当前开放的研究挑战,旨在引导该领域的进一步探索。
以往关于生成模型的综述通常分别聚焦于文本到图像、文本到视频和文本到3D生成,未能深入探讨它们之间的内在联系。相比之下,本综述通过追踪生成模型如何从仅处理外观(2D生成),发展到融入动态(视频生成)和几何(3D生成),最终在4D生成中整合外观、动态与几何,提供了一个更集成的多模态生成模型研究视角。这一维度演进的框架旨在连接以往孤立的研究方向,并凸显跨领域的共性挑战与机遇。
我们期望本综述能为初学者提供宝贵洞见,并激发资深研究者的批判性思考。全文结构如下:
第二节介绍深度生成模型的基础概念;
第三节阐述四大范式:2D、视频、3D 和 4D 生成;
第四节回顾各范式对应的数据集与评估指标;
第五节展望未来研究方向;
第六节总结全文。
II. 预备知识
![]()
![]()
与GAN训练相关的挑战有几个。例如,纳什均衡可能并不总是存在[19]或难以实现[20],导致训练不稳定。另一个问题是模式崩溃,其中生成器只产生特定类型的样本,多样性较低[20],[21]。
![]()
其中d是序列长度。这种分解简化了多变量密度估计,并已被广泛采用来顺序地对图像中的像素进行建模[23]–[25]。 为了降低标准基于Transformer的AR模型中注意力的二次成本,最近引入了几种非Transformer架构。RWKV [26]、Mamba [27]和RetNet [28]用递归或状态空间机制替换或增强注意力。RWKV和Mamba采用纯粹的递归设计,保持固定大小的内存,在适度的序列长度上提供线性时间推理,但在极端上下文大小下仍面临挑战。RetNet通过保留机制更新隐藏状态,为全局自注意力提供了一种有效的替代方案。尽管这些架构在语言和其他序列任务上显示出有希望的结果,但它们作为深度生成模型的骨干使用仍然有限。将它们整合到生成管道中的未来工作可能会改善样本质量、可扩展性和内存使用之间的权衡。
D. 归一化流(NFs)
NFs使用可逆神经网络g(·)将z从已知且易于处理的分布映射到真实数据分布。通过这种方式,pθ (x)可以被表述为,
![]()
III. 范式
本节从数据维度增长的角度介绍了模拟真实世界的方法。它从2D生成(第III-A节)开始,用于外观建模,然后转向视频生成(第III-B节)和3D生成(第III-C节),通过结合动态和几何维度。最后,通过整合所有这三个维度,介绍了4D生成的最新进展(第III-D节)。
A. 2D生成
最近,生成模型领域,特别是在文本到图像生成方面,取得了显著进展。文本到图像生成因其能够从文本描述中生成真实图像而受到关注,这种能力通过捕捉真实世界的外貌来实现。利用扩散模型、大型语言模型(LLMs)和自编码器等技术,这些模型实现了高质量和语义上准确的图像生成。
算法:Imagen [29] 在GLIDE建立的原则基础上进行了构建,但引入了显著的优化和改进。与从头开始训练特定任务的文本编码器不同,Imagen使用预训练和冻结的语言模型,从而降低了计算需求。Imagen测试了在图像-文本数据集(例如,CLIP [30])上训练的模型和在纯文本数据集(例如,BERT [31] 和 T5 [32])上训练的模型。这一实践表明,扩大语言模型的规模比扩大图像扩散模型更有效地增强图像保真度和文本一致性。
DALL-E[33](版本1)使用一种Transformer架构,将文本和图像作为单一数据流进行处理。DALL-E 2 [34]利用了CLIP [30]强大的语义和风格能力,采用生成扩散解码器来逆转CLIP图像编码器的过程。DALL-E 3 [35]在DALL-E 2 [34]的进步基础上进行了构建,显著提高了图像保真度和文本对齐度。它增强了文本理解能力,允许从复杂描述中生成更准确和细致的图像。DALL-E 3与ChatGPT [36]集成,使用户能够在ChatGPT界面内直接进行头脑风暴和完善提示,简化了生成详细和定制提示的过程。该模型生成的图像具有更高的真实性和与所提供文本更好的对齐度,使其成为创意和专业应用的强大工具。
DeepFloyd IF [37]以其出色的照片真实感和先进的语言理解能力而闻名。该系统是模块化的,具有一个静态文本编码器和三个连续的像素扩散模块。最初,基础模型从文本描述中创建64×64像素的图像。然后,这些图像通过两个超分辨率模型分别增强到256×256像素,再进一步增强到1024×1024像素。每个阶段都使用来自T5 [32] Transformer的静态文本编码器生成文本嵌入,随后由具有集成交叉注意力和注意力池化机制的U-Net架构进行处理。
Stable Diffusion (SD)[38],也称为潜在扩散模型(LDM),在有限的计算资源上提高了训练和推理效率,同时产生高质量和多样化的图像。去噪过程发生在预训练自编码器的潜在空间中,这些自编码器将图像映射到空间潜在空间。底层的U-Net架构通过交叉注意力机制增强,以模拟条件分布,可以包括文本提示、分割掩码等。它使用CLIP [30]文本嵌入作为条件,并在LAION [39]数据集上训练,以生成512×512分辨率(潜在分辨率为64×64)的图像。在Stable Diffusion的基础上,SDXL [40]采用了一个大三倍的U-Net骨干网络。它通过使用第二个文本编码器引入了额外的注意力块和更大的交叉注意力上下文。此外,SDXL还包括一个细化模型,该模型通过事后图像到图像技术增强由SDXL生成的样本的视觉保真度。
FLUX.1[41]利用混合架构,集成了多模态和并行扩散Transformer块,实现了120亿参数的显著规模。通过采用流匹配,这是一种简单但有效的训练生成模型的技术,FLUX.1超越了以前的最先进扩散模型。该套件还具有旋转位置嵌入和并行注意力层,大大提高了模型性能和效率。
B. 视频生成
由于图像和视频之间的结构相似性,早期的视频生成方法主要适应和微调现有的2D图像生成模型(第III-A节)。最初对这一挑战的看法集中在引入时间动态建模机制上,通常是通过在架构中添加时间层(图2),如注意力和卷积。一种常见的训练策略还涉及混合2D图像和视频数据,以提高生成视频的视觉质量。受到Sora [13]的启发,最先进的模型现在经常采用扩散Transformer架构。这些模型通过将视频分解为一系列“块”来操作压缩的时空潜在空间,这些块作为Transformer的标记。这种方法同时处理空间和时间信息。尽管这些模型复杂,但它们通常保留了处理单帧图像作为一帧视频的能力,使它们能够利用2D图像生成的大量数据。
![]()
在本节中,我们将这些模型根据其底层生成机器学习架构分为三个主要类别。图3总结了最近的文本到视频生成技术。对于寻求更深入探索的读者,详细的调查可以在[42],[43]中找到。
![]()
算法:(1) 基于VAE和GAN的方法。在扩散模型之前,视频生成研究主要通过两种方法推进:基于VAE和基于GAN的方法,每种方法都为视频合成的挑战提供了独特的解决方案。基于VAE的方法从SV2P [44]的随机动态发展到VideoGPT [72]中VQ-VAE [71]与Transformer的结合,通过分层离散潜在变量有效处理高分辨率视频。显著的改进来自FitVid [45]中的参数高效架构和对抗性训练的整合,以实现更真实的预测。并行的基于GAN的方法带来了显著的创新,从MoCoGAN [46]开始,它将内容和运动组件分解以进行控制生成。StyleGAN-V [47]通过位置嵌入将视频视为时间连续信号,而DIGAN [48]引入了隐式神经表示以改进连续视频建模。StyleInV [49]利用预训练的StyleGAN [73]生成器和时间风格调制反演网络,在具有时间一致性的高质量帧合成方面标志着另一个里程碑。
(2) 基于扩散的方法。文本到视频生成最近取得了显著进展,方法通常分为两类:基于U-Net的架构和基于Transformer的架构。 (i) 基于U-Net的架构。开创性的视频扩散模型(VDM)[50]通过扩展图像扩散架构并引入联合图像-视频训练以减少梯度方差,实现了高保真度、时间一致的视频生成。Make-A-Video [51]通过利用现有的视觉表示[30]和创新的时空模块,在没有配对文本-视频数据的情况下推进了文本到视频生成。Imagen Video [52]引入了一系列扩散模型,结合基础生成和超分辨率,而MagicVideo [53]通过在低维空间中的潜在扩散实现了高效生成。GEN-1 [54]专注于使用深度估计进行结构保持编辑,而PYoCo [55]通过精心设计的视频噪声先验,在有限数据上展示了高效的微调。Align-your-Latents [56]通过扩展Stable Diffusion [38]与时间对齐技术,实现了高分辨率生成(1280 × 2048)。Show-1 [74]结合了基于像素和基于潜在的方法,以提高质量和减少计算。VideoComposer [57]通过时空条件编码器引入了一种新的可控合成范式,实现了基于多个条件的灵活组合。AnimateDiff [58]提出了一个可插拔的运动模块,具有可转移的运动先验,并引入了MotionLoRA以实现高效适应。PixelDance [59]通过结合文本提示以及第一帧和最后一帧图像指令来增强生成。
(ii) 基于Transformer的架构。在扩散Transformer(DiT)[75]的成功之后,基于Transformer的模型获得了显著地位。VDT [62]引入了模块化的时间和空间注意力机制,用于包括预测、插值和完成在内的多样化任务。W.A.L.T [63]通过统一的潜在空间和因果编码器架构实现了照片级真实感生成,生成512 × 896的高分辨率视频。Snap Video [76]通过空间和时间冗余像素处理,提高了3.31倍的训练效率,而GenTron [64]在无运动引导下扩展到超过30亿参数。Luminia-T2X [65]通过零初始化注意力和标记化潜在时空空间整合了多种模态。CogVideoX [66]通过专家Transformer、3D VAE和渐进训练,在长时间视频生成方面表现出色,通过多个指标验证了最先进的性能。开创性的Sora [13]是一种先进的扩散Transformer模型,强调在不同分辨率、纵横比和持续时间下生成高质量图像和视频。Sora通过标记化潜在时空空间实现了灵活和可扩展的生成能力。
(3) 基于自回归的方法。与基于扩散的方法并行,受大型语言模型(LLMs)启发的自回归框架已成为视频生成的替代方法。这些方法通常遵循两阶段过程:首先使用像VQ-GAN [77]和MAGVIT [68],[78]–[81]这样的向量量化自编码器将视觉内容编码为离散潜在标记,然后在潜在空间中对标记分布进行建模。CogVideo [69],一个基于预训练文本到图像模型CogView [82]的90亿参数Transformer模型,代表了这一方向的重要进展。它采用多帧率分层训练策略来增强文本-视频对齐,并且作为第一个开源的大规模预训练文本到视频模型,它在机器和人类评估中都建立了新的基准。VideoPoet [70]引入了一种仅解码器的Transformer架构,用于零样本视频生成,能够处理多种输入模态,包括图像、视频、文本和音频。遵循LLM训练范式,通过预训练和任务特定适应阶段,VideoPoet在零样本视频创作中实现了最先进的性能,特别是在通过其多样化的生成预训练目标在运动保真度方面表现出色。
评估。随着任务复杂性的增加,视频生成模型的评估也不断发展。早期方法依赖于基于分布的指标,最显著的是弗雷切特视频距离(FVD)[50],[56],[83]。作为图像弗雷切特初始距离(FID)[84]的时间扩展,FVD比较时空特征分布以评估视觉质量和一致性。最近的基准测试,如VBench [85],提供了更细粒度的特定属性分析,如运动平滑度和主体身份,使用来自模型如CLIP [30]和DINO [86]的特征。然而,由于自动化指标往往与人类感知不一致,该领域越来越多地转向人类研究,以进行更全面和准确的评估,特别是对于先进的开放领域模型。表II展示了现代视频生成模型的人类偏好评估。
![]()
应用:(1) 视频编辑最近从扩散模型中显著受益,能够在保持时间一致性的同时进行复杂的修改。该领域通过几种创新方法发展,解决了视频操作的不同方面。早期发展包括Tune-A-Video [90],它开创了一次性调整范式,通过时空注意力机制将文本到图像扩散模型扩展到视频生成。通过各种方法解决了时间一致性问题。VidToMe [91]引入了标记合并以对齐帧,而EI [92]开发了专门的注意力模块。几项工作专注于专门的编辑能力。Ground-A-Video [93]通过基于基础的框架解决了多属性编辑,而Video-P2P [94]引入了跨注意力控制以进行角色生成。最近的框架如UniEdit [95]和AnyV2V [96]代表了最新的发展,提供了无需调整的方法和简化的编辑过程。专门的应用如CoDeF [97]和Pix2Video [98]引入了创新技术,用于时间一致性处理和渐进变化传播。这些方法成功地平衡了内容编辑与结构保留,在视频操作技术方面取得了显著进展。
(2) 新视角合成通过视频扩散模型得到了革命性的改变,这些模型受益于对真实世界几何形状的学习先验,能够从有限的输入图像中生成高质量的视角。ViewCrafter [99]通过将视频扩散模型与基于点的3D表示集成,引入了迭代合成策略和相机轨迹规划,从稀疏输入中获得高保真度结果,开创了这一方向。相机控制已成为一个关键方面,CameraCtrl [100]通过可插拔模块引入了精确的相机姿态控制。几种创新方法解决了视角一致性挑战。ViVid-1-to-3 [101]将新视角合成重新定义为相机运动的视频生成,而NVS-Solver [102]引入了一种零样本范式,通过给定视图调制扩散采样。这一趋势表明,利用视频扩散先验的同时保持几何一致性和相机控制,使合成应用越来越真实。
(3) 视频中的人物动画在视频生成中获得了重要性,这在世界模拟器中起着关键作用,如在第III-B1节中讨论的。这一点尤其重要,因为人类是现实世界中最重要的参与者,使他们的现实模拟至关重要。由于生成模型的早期成功,有一些代表性的工作[46],[103],[104]引入了生成对抗网络(GAN)[14]来在视频中动画化人类。尽管取得了这些进展,但人类视频动画的最关键问题仍然是生成视频的视觉保真度。ControlNet [105]和HumanSD [106]是基于基础文本到图像模型(如Stable Diffusion [38])的即插即用方法,用于根据姿势动画化人类。此外,为了解决这些方法的泛化问题,animate-anyone [107]提出了一个ReferenceNet来保持更多参考视频的空间细节,并推动野外生成质量达到一个新的里程碑。还有一些后续工作[108],[109]试图简化训练架构和成本。此外,随着计算机图形学领域对几何和纹理的深入研究,一些工作将3D建模引入人类视频动画。Liquid Warping GAN [110]、CustomHuman [111]和LatentMan [112]是将3D人体先验引入生成循环的早期尝试。最新的进展,MIMO [113],明确地分别建模角色、3D运动和场景,以驱动野外的人类动画。这些有或没有3D先验的方法为将人类引入世界模拟器循环迈出了重要一步。
C. 3D生成 3D生成专注于几何和外观,以更好地模拟真实世界场景。在本节中,我们探索各种3D表示和生成算法,提供近期进展的结构化概述。具体来说,我们根据输入模态对3D生成方法进行分类,包括文本到3D生成,它直接从文本描述合成3D内容,图像到3D生成,它引入图像约束以优化文本驱动的输出,以及视频到3D生成,它利用视频先验实现更一致的3D生成。这些进展的按时间顺序的总结在图7中展示,而表IV提供了尖端方法的全面比较。值得注意的是,几种方法跨越多个类别,展示了现代3D生成技术的多功能性。 与其从头开始构建3D生成模型,大多数现有方法与2D和视频生成模型高度耦合,以利用它们强大的外观建模能力来更好地进行3D生成,如图5、图8和图10所示。首先,2D中编码的图像先验和视频生成模型中编码的几何线索可以用来为3D生成模型提供监督。其次,可以微调2D和视频生成模型以接受额外的3D信息(例如,法线)作为输入,以合成3D感知的多视图图像,以促进3D生成。
![]()
![]()
![]()
![]()
![]()
![]()
3D表示:在3D生成领域,选择最优的3D表示至关重要。对于神经场景表示,3D数据通常可以分为三个主要类别:显式、隐式和混合表示,如图4所示。 (1) 显式表示。显式表示提供由一组元素定义的对象和场景的精确可视化。传统形式,如点云、网格和体素,多年来已被广泛使用。


为了便于优化,协方差矩阵 Σ 通常被分解为一个缩放矩阵 S 和一个旋转矩阵 R,使得:

(2) 隐式表示。隐式表示使用连续函数(如数学模型或神经网络)来描述3D空间,捕捉体积属性而非表面几何。隐式神经表示通过神经网络来近似这些函数,以更高的训练和推理开销为代价增强了表达能力。主要方法包括有符号距离场(SDF)[117]和神经辐射场(NeRF)[123]。



(3) 混合表示。大多数当前的隐式方法依赖于回归NeRF或SDF值,这可能限制它们利用目标视图或表面的显式监督的能力。然而,显式表示在训练期间提供了有用的约束并改善了用户交互。为了利用两种范式的互补优势,混合表示可以看作是显式和隐式表示之间的权衡。
(i) 混合体素网格可以作为混合表示在方法如[124]–[126]中使用。[125]使用密度和特征网格进行辐射场重建,而Instant-NGP [126]使用基于哈希的多级网格,优化GPU性能以实现更快的训练和渲染。
(ii) DMTet [119]结合了四面体网格和隐式SDF,以实现灵活的3D表面表示。神经网络预测每个顶点的SDF值和位置偏移,允许对复杂拓扑进行建模。网格通过可微分的Marching Tetrahedra(MT)层转换为网格,实现高效、高分辨率的渲染。通过使用基于网格的损失优化几何和拓扑,DMTet实现了更精细的细节、更少的伪影,并在从粗体素到复杂3D数据集的条件下的形状合成方面超越了以前的方法。
(iii) Tri-plane提供了一种内存高效的替代方案,用于3D形状表示和神经渲染。它将3D体积分解为三个正交的2D特征平面(XY, XZ, YZ)。EG3D [127]利用这种结构,使用MLP从平面中聚合特征,并预测任何3D点的颜色和密度值。这种方法比基于体素的NeRF减少了内存消耗,并实现了更快的渲染。
算法:(1) 文本到3D生成。通过模拟真实世界的几何形状,从文本提示生成3D内容,已经进行了大量的研究,可以分为三个分支。读者可以参考[128]–[130]以获得该领域的更全面的调查。不同的方法分支的比较如图5所示。正如我们所看到的,图像生成模型作为文本到3D方法的关键组件,提供监督(即,SDS损失)或合成多视图图像以实现更准确的3D生成。
(i) 正向方法。受文本到图像生成的启发,一种主要的方法分支扩展了现有的成功生成模型,以直接从文本提示中合成3D表示。成功的关键在于将3D几何编码为紧凑的表示,并将其与相应的文本提示对齐。
Michelangelo [131]首先构建了一个VAE模型,将3D形状编码为潜在嵌入。然后,这个嵌入与使用CLIP [30]模型从语言和图像中提取的特征对齐。使用对比损失进行优化,可以从文本提示中推断出3D形状。ATT3D [132]使用Instant-NGP模型作为3D表示,并通过映射网络将其与文本嵌入桥接。然后,从Instant-NGP模型渲染多视图图像,整个网络使用SDS损失进行优化。受ATT3D的启发,Atom [133]学习从文本嵌入中预测一个三角表示,并采用两阶段优化策略。Hyperfields [134]训练了一个动态超网来记录从不同场景中学到的NeRF参数。
最近,扩散模型的出色表现激励研究人员将其扩展到3D生成。早期的方法侧重于从文本提示中学习合成显式的3D表示。具体来说,Point-E [135]首先使用GLIDE [136]合成多个视图,然后使用这些视图作为条件,使用扩散模型生成点云。后来,MeshDiffusion [137]使用扩散来建立从文本到网格的映射。后续的方法尝试将扩散模型应用于隐式的3D表示。Shap-E [138]首先将3D内容映射到辐射场的参数,然后训练一个扩散模型,根据文本嵌入生成这些参数。3D-LDM [139]使用SDF来表示3D内容的几何形状,并训练一个扩散模型进行文本条件生成。同样,Diffusion-SDF [140]构建了一个SDF自编码器,使用体素化的扩散模型从文本提示生成体素化的有符号距离场(SDFs)。LATTE3D [141]开发了一个纹理网络和一个几何网络,分别根据文本嵌入生成NeRF和SDF。然后,通过SDS损失优化3D感知扩散模型。
讨论。与基于优化的方法相比,正向方法更倾向于高效率,并能够在没有测试时优化的情况下生成3D内容。然而,这些方法严重依赖于数据的数量,通常在结构和纹理细节方面表现较差。
(ii) 基于优化的方法。除了文本到图像生成之外,另一种方法分支通过利用强大的文本到图像生成模型提供丰富的监督来优化3D表示。 DreamFusion [142] 首先引入得分蒸馏采样(SDS)损失来优化NeRF,使用从文本提示合成的图像。MVDream [143] 微调多视图扩散模型,生成具有跨视图一致性的多视图图像,以训练NeRF捕捉3D内容。Magic3D [144] 使用纹理网格来表示3D对象,并采用SDS损失进行优化。Dream3D [145] 首先从文本提示生成图像,然后用于产生3D形状以初始化神经辐射场。接下来,使用CLIP指导优化NeRF。Fantasia3D [146] 进一步结合DMTet和SDS损失,从文本提示生成3D对象。ProlificDreamer [147] 开发变分得分蒸馏(VSD)来模拟3D表示的分布,并产生具有丰富细节的更高质量结果。为了解决多面Janus问题,PI3D [148] 首先微调文本到图像扩散模型以产生伪图像。然后,这些图像被用来使用SDS损失生成3D形状。VP3D [149] 首先使用文本到图像扩散模型从文本提示生成高质量图像。然后,通过SDS损失优化3D表示,使用生成的图像和文本提示作为条件。 随着3D高斯的显著进展,它在文本到3D生成领域得到了广泛研究。DreamGaussian [150] 首先使用扩散获得3D高斯,并使用SDS损失进行优化。然后,从3D高斯中提取网格,并对纹理进行细化以获得更高质量的内容。为了促进收敛,GSGEN [151] 和GaussianDreamer [152] 首先使用Point·E从文本提示生成点云,以初始化高斯的位置。然后,这些高斯被优化以细化它们的几何形状和外观,使用SDS损失。Sculpt3D [153] 通过在数据库中检索参考3D对象引入3D先验,可以无缝集成到现有流程中。
讨论。由于文本到图像模型中的丰富知识,基于优化的方法产生了更精细的细节。然而,这些方法需要昂贵的每次提示优化,并且耗时。
(iii) 基于MVS的方法。与直接从文本提示生成3D表示不同,为了更好地利用文本到图像模型,已经有许多尝试合成多视图图像以进行3D生成。 Instant3D [154] 首先微调文本到图像扩散模型以生成四视图图像。然后,这些图像被传递给一个Transformer以预测三平面表示。Direct2.5 [155] 在2.5D渲染和自然图像上微调多视图法线扩散模型。给定文本提示,Direct2.5首先产生法线图,并通过可微分光栅化进行优化。然后,最优法线图被用作条件来合成具有3D一致性的多视图图像。Sherpa3D [156] 首先使用3D扩散模型从文本提示生成粗略的3D先验。然后,产生法线图并用于合成具有3D一致性的多视图图像。
讨论。随着VLMs的最近进展,通过注入3D先验来提升这些2D生成模型进行3D生成引起了越来越多的兴趣。然而,3D一致性的制定和有限的3D数据微调仍然是开放问题。
评估。文本到3D方法的定量评估仍然是一个开放问题。对于主观质量评估,常见的基于参考的指标(例如,PSNR)不适用,因为缺乏真实数据,而非参考质量(例如,FID)指标可能并不总是与人类偏好一致。因此,大多数方法采用CLIP分数和CLIP R-Precision来评估3D模型与文本提示的对齐。最近,已经建立了几个基准[158],[159]来全面评估文本到3D生成方法。在这里,我们在表III中报告了代表性方法的定量分数,并在图6中展示了它们的视觉结果。读者可以参考[158],[159]以获取更多细节。
![]()
![]()
(2) 图像到3D生成。图像到3D任务的目标是生成与给定图像身份一致的高质量3D资产。由于3D数据收集成本高,文本到3D生成缺乏足够的高质量文本注释来扩大规模,与图像和视频生成相比。由于图像自然捕获更多与3D模态紧密对齐的低级信息,图像到3D任务缩小了输入和输出之间的模态差距,与文本到3D生成相比。因此,图像到3D已成为推进原生3D生成的基础任务。为了利用图像生成模型中的知识,它们经常被用作图像到3D模型的组成部分(图8)。部分方法的定性比较显示在图9中,定量比较在表V中说明。由于论文中使用的评估数据集或指标的不一致性,一些工作未在图和表中列出。
![]()
(i) 前馈方法。这些方法首先使用压缩网络(如VAE)将3D资产编码为潜在代码,然后训练潜在空间样本的生成模型。3DGen [160] 引入三平面作为潜在空间,提高了压缩网络的准确性和效率。Direct3D [163] 采用三平面表示,并直接使用3D监督进行训练,在潜在三平面中保留详细的3D信息。Michelangelo [131] 从3Dshape2vecset [184] 中汲取灵感,使用1D向量作为潜在空间,并在占用场的监督下输出。CraftsMan [162] 进一步引入多视图生成模型,生成多视图图像作为扩散模型的条件,随后基于法线的细化生成网格。Clay [161] 引入了一个全面的系统,预训练在大规模3D数据集上进行3D生成,包括基于1D向量的VAE和扩散模型用于几何生成,材料扩散用于PBR纹理,以及跨各种模态的条件设计。
讨论。原生方法在3D数据集上训练压缩网络和生成模型,并在几何生成方面表现出优越的性能,与基于MVS和基于优化的方法相比,能够产生更细粒度的几何细节。然而,由于制作和收集成本高,3D数据集[185],[186]的规模比图像或视频数据集[187],[188]增长得慢得多。因此,原生方法缺乏足够多样化和广泛的数据进行预训练。因此,如何利用来自视频和图像的先验来增强3D生成的多样性和泛化能力,特别是在纹理生成方面,仍然是一个需要进一步探索的领域。
(ii) 基于优化的方法。随着文本到3D模型中基于蒸馏方法的发展,基于优化的方法通过预训练的图像到图像或文本到图像生成模型的SDS损失监督的训练过程直接优化3D资产,同时通过各种额外的损失约束保持图像身份。
从Dreamfusion [142]、Magic3D [144]和SJC [189]适应而来,RealFusion [165]仅从预训练的文本到图像模型中提取先验,使用SDS损失,同时使用图像重建损失和文本反转分别保留低级和语义身份。随着大规模开放集3D数据集[185]的出现,Zero123 [166]通过替换文本到图像模型为新视图合成模型来引入3D数据集的先验到图像到3D任务中。具体来说,Zero123在3D数据集上微调预训练的图像到图像生成模型,通过引入相机姿态作为条件来控制生成图像的视点。预训练的新视图合成模型保留了图像模型的细节和3D数据集的多视图一致性,显著缓解了Janus问题。
一系列工作在Zero123 [166]的基础上进行了扩展。Zero123-xl [186]在10倍大的3D数据集上预训练Zero123管道,以获得更好的泛化能力。Magic123 [167]同时利用2D和3D先验进行蒸馏,以管理泛化和一致性之间的权衡,并使用粗到细的管道以获得更高质量的结果。SyncDreamer [168]和Consistent123 [169]都通过引入同步多视图扩散模型进一步改进了NVS模型的多视图一致性,前者利用3D体积来模拟图像的联合分布关系,后者利用跨视图注意力和共享自注意力。Toss [170]此外将文本标题作为3D数据的高级语义引入NVS模型预训练中,以增强不可见视图的合理性和可控性。ImageDream [171]通过设计多级图像提示控制器和使用文本描述进行训练,解决了多视图一致性和3D细节问题。Wonder3D [173]结合了跨域注意力机制,使NVS模型能够同时去噪图像和对齐法线图,同时在优化过程中额外引入法线图。IPDreamer [172]通过引入IPSDS(SDS的一种变体)和多提示一致性的掩码引导对齐策略,实现了从复杂图像提示的可控3D合成。
讨论。继承了图像生成模型的强大先验,基于优化的方法展示了强大的泛化能力,并且能够模拟高精度纹理。然而,由于新视图合成(NVS)模型在预训练期间仅使用从3D采样的2D数据而不是直接3D数据进行监督,多视图一致性问题无法从根本上解决,尽管通过3D体积建模或跨视图注意力有所改进。因此,基于优化的方法通常由于优化范式而遭受过于平滑的几何形状和长时间的训练。
(iii) 基于MVS的方法。基于MVS的方法将图像到3D生成分为两个阶段:首先使用NVS模型从单个图像生成多视图图像,然后直接使用前馈重建网络从这些多视图图像创建3D资产。
基于Zero123 [166]预测的多视图图像,One-2-3-45 [174]提出了一个高度估计模块,并利用基于SDF的可推广神经表面重建模块在3D数据集上进行预训练,以实现360°网格重建,与基于优化的方法相比,将重建时间减少到45秒。CRM [175]进一步将多视图生成模型的输出图像冻结到六个固定相机姿态,大大提高了多视图之间的一致性。然后CRM将多视图图像输入卷积U-Net,以深度和RGB图像为监督创建高分辨率三平面。InstantMesh [176]也冻结了多视图图像的相机姿态,但采用基于LRM [177]的基于Transformer的多视图重建模型来重建3D网格,以牺牲一些图像到3D细节一致性为代价提供更好的泛化。Unique3d [178]引入了多级放大策略,逐步生成更高分辨率的多视图图像,并使用法线图扩散模型预测多视图法线图,用于粗略网格的初始化,然后根据多视图图像进行细化和上色。
讨论。与基于优化的方法相比,基于多视角立体视觉(MVS)的方法在3D数据集上训练前馈重建模型,从多视角图像中重建出高质量的3D模型,显著提升了3D一致性,并将推理时间缩短至秒级。然而,由于模型规模的限制,MVS方法通常缺乏高质量的几何细节。
(3)视频到3D生成。视频到3D生成方法从根本上建立在2D扩散模型的进展之上,将基于图像的生成先验扩展到时间域。通过建模具有连贯纹理、光照和几何结构的帧序列,视频扩散模型能够利用2D视频中捕捉到的运动和视角变化,隐式地学习3D结构。诸如SV3D、Hi3D和V3D等框架,采用预训练的视频扩散主干网络生成多视角帧序列,然后通过体渲染(volume rendering)、网格优化(mesh optimization)或高斯泼溅(Gaussian splatting)等技术整合为显式的3D几何结构。这种协同机制既利用了2D视频模型强大的内容合成能力,又引入了稠密3D重建所必需的空间一致性和相机控制能力。
海量的在线视频数据构成了丰富的3D信息库,其中包含物体运动、视角变化和相机转场等内容,揭示了静态图像中通常无法获得的多视角信息[190]–[195]。这类动态内容在连续帧之间提供了时间连贯性与空间一致性,对于理解复杂3D场景和生成高保真3D结构至关重要[13]。因此,利用这些多视角且随时间变化的数据已成为重建和合成3D一致对象的一种有前景的方法[196]。
近期研究探索了基于视频的先验用于鲁棒3D生成[180]–[182],旨在学习跨帧保持一致、并能适应视角变化的3D表示。总体而言,这些视频到3D生成工作的核心思想是:将具备相机可控能力的视频模型用作一致的多视角生成器,以实现稠密3D重建(见图10)。
近期视频扩散模型的进展凸显了其在生成逼真视频方面的卓越能力,同时展现出对3D结构的隐式推理潜力。然而,在将其有效用于3D生成方面仍存在显著挑战,尤其是在精确的相机控制方面。传统模型[197]–[199]通常仅限于生成具有平滑且短程相机轨迹的片段,难以有效构建动态3D场景或整合多样化的相机角度。
为应对这些局限,研究人员已开发出若干创新技术,以增强视频扩散框架中的相机控制能力。早期方法之一是AnimateDiff [58],它采用低秩自适应(LoRA)[200]对视频扩散模型进行微调,使其适配固定的相机运动类型。该方法可在指定相机动力学约束下合成结构化场景。另一项重要进展是MotionCtrl [201],它引入了条件机制,使模型能够遵循任意相机路径,从而在生成多样化视角方面获得更大灵活性,克服了以往方法的僵化性。
基于可控相机视频生成能力的发展,SVD-MV [202]、SV3D [181] 和 IM-3D [179] 等工作探索了如何利用相机控制来提升从视频数据生成3D对象的效果。例如,SV3D训练了一个能够渲染任意视角的视频扩散模型,展现出更强的泛化能力和高分辨率输出(576×576像素)。这种能力可在适应不同视角的同时维持帧间空间一致性,有效应对稠密重建中的关键挑战。尽管效果显著,这些方法通常仍将相机运动限制在围绕中心物体的固定轨道路径上,限制了其在具有丰富上下文背景的复杂场景中的适用性。然而,在生成包含多物体交互和视角剧烈变化的复杂环境的高质量3D表示方面,许多现有方法仍显不足。
鉴于视频模型中的相机控制可补充新视角信息,一些方法已探索视频扩散模型在新视角合成(NVS)中的潜力。例如,Vivid-1-to-3 [101] 有效融合了视角条件扩散模型与视频扩散模型,能够生成时间一致的新视角。通过确保帧间平滑过渡,该模型显著提升了合成输出的质量,特别适用于3D场景表示。CAT3D [182] 则通过多视角扩散模型增强了丰富的多视角信息。
讨论。利用视频先验进行多视角生成,可将视频扩散模型转变为用于稠密3D重建的一致性多视角生成器。进一步的探索将有助于提升高保真3D表示能力,尤其是在需要鲁棒多视角合成的复杂动态环境中。
3)应用:
(1)虚拟化身生成(Avatar Generation)。随着元宇宙的兴起以及VR/AR技术的普及,3D虚拟化身生成引起了越来越多的关注。早期工作主要聚焦于头部化身的生成 [203]–[205],利用文本到图像的扩散模型与神经辐射场(Neural Radiance Fields)来创建面部资产。后续方法则更加关注逼真的全身化身生成,通过将神经辐射场与统计模型相结合来实现 [206], [207]。近期,化身生成的动画能力受到广泛关注,大量相关方法被提出 [208], [209]。
(2)场景生成(Scene Generation)。除了化身生成之外,在元宇宙和具身智能等应用中,对创建逼真3D环境的场景生成也存在强烈需求。早期方法聚焦于以物体为中心的场景,利用条件扩散模型合成多视角图像,进而优化神经辐射场 [139], [140]。后续工作通过引入渐进式策略,将这些方法扩展至房间尺度的场景 [210], [211]。受其成功启发,近期研究进一步探索了户外场景的生成,范围从街道尺度 [212], [213] 到城市尺度 [214], [215]。
(3)3D编辑(3D Editing)。强大的3D生成能力催生了3D内容编辑这一下游应用。一些方法专注于全局性地改变3D内容的外观或几何结构 [216], [217],而无需从场景中分离出特定区域。例如,场景风格化方法 [218], [219] 旨在操控3D资产的风格,如调整光照或模拟气候变化。近期的研究致力于实现更细粒度的灵活3D内容编辑。具体而言,外观修改 [220], [221]、几何形变 [222], [223] 以及对象级操控 [224], [225] 均已被深入研究,并取得了富有前景的编辑效果。
D. 4D生成我们通过整合所有维度,最终实现4D生成。作为计算机视觉领域的前沿方向,4D生成聚焦于根据文本、图像或视频等多模态输入,合成随时间演化的动态3D场景。与传统的2D或3D生成方法不同 [226],4D合成带来了独特的挑战:它不仅要求空间一致性(spatial coherence)和时间连续性(temporal consistency),还需在高保真度、计算效率和动态真实感之间取得平衡 [227]。
本节首先介绍4D表示(4D representation),该表示建立在3D表示基础之上;随后总结当前的4D生成方法。近期研究主要探索了两种范式:一是基于优化的方法,利用分数蒸馏采样(Score Distillation Sampling, SDS);二是前馈式方法(feedforward-based approaches),避免对每个提示进行逐次优化。这两种范式应对不同的技术挑战,凸显了该领域的复杂性,以及在视觉质量、计算效率和场景灵活性之间寻求可行平衡的持续努力。代表性4D生成工作汇总见表VI。
![]()
1)4D表示:4D表示将时间维度引入3D建模,为理解动态场景提供了坚实基础。通过在静态3D空间坐标(x, y, z)基础上增加时间维度(t),这类方法能够编码场景的动态变化与形变,对于非刚性人体动作捕捉、物体轨迹模拟等应用至关重要 [257]–[260]。
大多数4D表示可分解为两个模块:规范3D表示(canonical 3D representation)和形变模块(deformation)。第一个模块用于建模静态模板形状;第二个模块则通过对该模板进行形变以合成运动。常见的形变表示包括:
- 形变场(deformation fields):一种神经网络,将时空点映射到其在规范模板上的对应位置;
- 形变基元(deformation primitives):如线性混合蒙皮(linear blend skinning),通过将某一点的运动表示为与不同身体部位或控制点相关的刚性运动的组合。
这两种形变表示各有优劣。形变场比形变基元更灵活,理论上可拟合更复杂的运动,具有更强的通用性;而针对关节化物体(如人或动物)设计的形变基元,在处理大幅关节运动时更具鲁棒性,因为形变场缺乏必要的归纳偏置(inductive bias),尤其在快速运动下难以实现精确重建。
下文我们将重点讨论采用规范3D表示+形变场这一类型的4D表示。
4D表示面临的一大挑战是单个场景重建的高昂计算成本。为解决此问题,显式(explicit)与混合(hybrid)方法在不牺牲质量的前提下提升了效率。例如,平面分解(planar decompositions)通过将4D时空网格拆分为更小的组件来简化计算 [261]–[263];基于哈希的表示(hash-based representations)则降低了内存与处理需求 [264]。3DGS(3D Gaussian Splatting)通过形变网络将静态高斯分布自适应为动态高斯,从而在速度与质量之间取得良好平衡 [116], [265]。
近期进展进一步将静态与动态场景成分解耦,以高效渲染刚性与非刚性运动。例如:
- D-NeRF 首先将场景编码到规范空间,再映射到随时间形变的状态 [266];
- 3D Cinemagraphy 从单张图像生成基于特征的点云,并利用3D场景流(scene flow)进行动画化 [267];
- 4DGS 通过将尺度、位置、旋转等属性建模为时间函数来捕捉时间动态,同时保持静态场景不变 [268]。
基于NeRF的混合方法通过引入平面或体素特征网格扩展了4D建模能力。这些网格与MLP结合,不仅支持高效的多视角合成,还可通过引入时间平面(temporal planes)扩展至动态场景 [261], [262]。可变形NeRF(Deformable NeRFs)将几何与运动分离,简化了运动学习过程,支持如图像到4D视频生成、多视角重建等应用 [126]。
总体而言,这些进展反映了在实现高效、高质量动态场景时间建模方面的持续进步。
2)算法:现代4D生成方法在很大程度上植根于3D生成所奠定的基础。特别是NeRF和3DGS等3D重建技术的突破,直接影响了我们对动态4D场景的建模与渲染方式。这些3D框架不仅提供了高效的数据结构和渲染技术,还引入了对4D时间建模至关重要的归纳偏置。
在表示层面,3D方法提供的规范空间先验(canonical spatial priors)可通过形变场或运动轨迹扩展,以捕捉时间演化。在训练层面,3D中的快速训练技术(如哈希编码、分层采样)已被适配用于加速4D优化。作为最具代表性的4D任务,人体动画尤其受益于3D人体建模的成果。SMPL(-X)、线性混合蒙皮、神经形变场等技术为关节化运动建模提供了强大的结构先验,显著提升了4D人体运动合成的真实感与可控性。
(1)前馈式方法(Feedforward Approaches):前馈式方法通过单次前向传播生成4D内容(见图11),绕过了SDS流水线所需的迭代优化,提供了一种高效替代方案。这些方法依赖预训练模型,利用时空先验实现快速且一致的生成。
![]()
- Control4D [228] 和 Animate3D [229] 可直接从文本或视觉输入合成动态场景,适用于交互媒体、个性化内容创作等实时应用;
- Vidu4D [230] 通过引入时间先验优化运动轨迹,确保帧间连贯性和平滑过渡;
- Diffusion4D [231] 将扩散模型的能力扩展至4D场景合成,结合时空特征提取与高效推理机制;
- L4GM [232] 进一步增强前馈技术,通过集成潜在几何建模(latent geometry modeling),在保持计算效率的同时产出高质量结果。
讨论:前馈式方法在强调速度与适应性的场景中表现优异,如实时内容生成和消费级设备上的轻量部署。然而,其对预训练模型的依赖以及在处理复杂动态时的灵活性有限,使其在细节丰富度和多样性方面仍难以匹敌基于优化的方法。尽管如此,前馈技术代表了迈向实用化4D生成的重要一步,有效应对了计算效率与可扩展性的关键挑战。通过弥合质量与速度之间的鸿沟,这些方法有望在广泛的4D内容生成应用中发挥关键作用。
(2)基于优化的方法(Optimization-based Approaches):基于优化的方法是4D生成的基石,采用迭代技术(如分数蒸馏采样SDS)将预训练扩散模型适配用于合成动态4D场景(见图12)。这些方法充分利用来自文本到图像、多视角图像及文本到视频生成模型的强大先验,生成具有丰富运动动态且时间连贯的场景。
![]()
例如:
- MAV3D [237] 在文本提示引导下,对NeRF或HexPlane特征进行SDS损失优化;
- 4D-fy [238] 与 Dream-in-4D [241] 通过在SDS监督中融合图像、多视角和视频扩散模型,提升3D一致性与运动动态;
- AYG [239] 提出使用可变形3DGS作为内在表示,通过简单的Δ形变场轻松解耦静态几何与动态运动,从而提升灵活性。
基于此类流程,近期工作从多个维度进一步改进4D生成:外观质量、几何一致性、运动保真度和生成可控性。具体而言:
- TC4D [242] 与 SC4D [246] 支持用户自由控制4D对象的运动轨迹;
- STAG4D [248] 采用多视角融合策略,增强帧间的时空对齐,确保平滑过渡与一致性;
- DreamScene4D [249] 与 DreamMesh4D [251] 采用解耦策略,将优化集中在局部区域,显著降低计算开销同时保持高保真度;
- 最新进展如 4Real [243] 与 C3V [244] 通过将组合式场景生成与高效优化相结合,进一步拓展了基于优化方法的边界。这些方法将动态场景分解为模块化组件(如静态几何与运动场),支持灵活更新与多样化内容生成。
尽管基于优化的方法在生成高质量、时间一致的结果方面具有优势,但其计算成本高昂,运行时间通常无法满足实时应用需求。随着研究推进,当前努力正聚焦于在不牺牲视觉保真度或动态真实感的前提下,提升可扩展性并降低延迟。
评估(Evaluation):
4D生成方法的定量评估主要聚焦于以下三个方面:
1)生成单个4D资产所需的时间成本;
2)CLIP分数,用于评估生成结果与真实新视角图像之间的图像相似性;
3)生成结果与真实新视角图像之间的感知相似性(LPIPS)。
我们在表VII中报告了代表性方法的定量评分,并在图13中展示了其视觉结果。读者可参考文献[232]获取更多细节。
![]()
![]()
3)应用:
(1)4D编辑(4D Editing):
基于指令的编辑(instruction-guided editing)允许用户通过自然语言对场景进行编辑,提供了一种用户友好且直观的操作方式。这一能力已在2D图像领域通过如Instruct-Pix2Pix(IP2P)[271]等模型成功实现,在3D场景中也已通过Instruct-NeRF2NeRF(IN2N)[217]得以达成。然而,将其扩展至4D场景仍面临显著挑战。
近期文本到图像扩散模型与可微分场景表示的发展,使得利用文本提示编辑4D场景成为可能。例如,Instruct 4D-to-4D [272] 将4D场景视为伪3D场景,采用视频编辑策略,迭代生成时空一致的编辑后数据集。同期工作如Control4D [228] 则结合GAN与扩散模型,根据文本指令对动态4D人像进行一致性编辑。
(2)人体动画(Human Animation):
作为4D仿真中的核心组成部分,人体运动生成是社区关注度最高的研究分支之一。不同于第三节-B2中所述的以人体为中心的视频生成,3D人体运动生成更便于在3D应用(如游戏、具身智能)中驱动角色动画。近期3D人体运动生成的成功主要得益于成熟的人体参数化模型研究 [273], [274]。
人体运动生成的目标可概括为:在数字世界中模拟4D人体对象,具体可分为两个方向:
1)基于稀疏控制信号的运动生成:主要根据用户指定的稀疏动作(如关键帧)在虚拟世界中模拟人体动画。
- Robust motion in-between [275] 提出了“到达时间嵌入”(time-to-arrival embedding)和“调度目标噪声向量”(scheduled target noise vector),以鲁棒地实现不同过渡长度下的运动插值。
- 鉴于运动空间的相位流形(phase manifold)具有良好的结构,Starke 等人 [276] 提出使用混合专家网络(mixture-of-expert network)在相位流形中进行运动插值。
- 此外,稀疏控制引导的运动生成另一重要方向是运动预测(motion prediction),亦称运动外推(motion extrapolation)。早期研究 [277]–[280] 尝试以确定性方式预测运动;考虑到运动预测具有主观性,后续多项工作 [281]–[285] 转而生成多样化的预测运动。
2)基于多模态条件的运动生成:旨在利用其他模态输入(如文本、音频、音乐)来模拟人体动作。
- 为解决文本-动作配对数据稀缺的问题,Guo 等人 [286] 构建了规模相对较大的文本-动作数据集 HumanML3D,其体量远超以往数据集,极大推动了该任务的发展。
- 同时,有研究验证了VQ-VAE [286]–[291] 是另一种利用文本合成动作的有效范式。
- 随着扩散模型的快速发展,大量工作 [292]–[297] 将扩散模型引入该任务,并取得了优异的生成质量。
- 类似于文本到动作生成任务 [298]–[303],音乐驱动舞蹈生成的技术路线也可划分为三类:cVAE [304]、VQ-VAE [305] 和基于扩散的方法 [306], [307]。
IV. 数据集与评估(DATASETS AND EVALUATIONS)
本节中,我们在表VIII中汇总了2D、视频、3D和4D生成任务中常用的数据集。随后,在表IX中对评估指标进行了统一且全面的总结。
![]()
在定量分析方面,我们从两个角度评估指标:
1)质量(Quality):评估合成数据的感知质量,不依赖于输入条件(如文本提示);
2)对齐性(Alignment):衡量条件一致性,即生成数据与用户预期输入的匹配程度。
在定性分析方面,生成结果的视觉质量在方法评估中起着关键作用。因此,我们纳入了一些基于人类偏好的指标作为参考,以更有效地开展用户研究,从而获得更具说服力的定性分析结果。
此外,我们主张在评估中应重视生成模型部署时所面临的实际挑战,尤其是与计算效率相关的问题。许多当前最先进的方法需要大量GPU资源和较长的推理时间,这限制了它们在现实应用中的可及性与可扩展性。这些因素虽未必总体现在评估指标中,但在资源受限环境或交互式系统中部署时至关重要。我们鼓励未来的基准测试纳入运行时间、内存占用和训练成本等指标,以更真实地反映生成模型的实际可行性。
V. 未来方向(FUTURE DIRECTIONS)
尽管2D、视频、3D和4D生成领域进展迅速,但仍存在诸多开放性问题,尤其是在多模态交互的场景下。这些问题因空间与时间维度整合的复杂性而进一步加剧。
- 2D生成中,提升生成图像的真实感与多样性仍是关键障碍;
- 视频生成中,建模长期时间动态并确保帧间平滑过渡是核心挑战;
- 3D生成中,如何在高质量输出与计算效率之间取得平衡仍是关键问题。
解决上述挑战对推进4D生成至关重要,因为4D生成建立在这些已有基础之上。因此,一条清晰的技术路线图不仅有助于4D研究,也对4D模型所依赖的2D、视频和3D相关领域具有指导意义。
多模态生成(Multimodal Generation):
生成多样化且逼真的4D内容十分困难,因为真实场景在空间、时间及感官通道上跨越多种模态。多模态学习的研究揭示了三个持续存在的障碍:
1)需要可靠的跨模态对齐机制,以确保合成的4D资产能准确遵循给定的文本、图像或视频提示;
2)高质量标注的多模态数据集稀缺,尤其在专业领域,限制了当前模型所能学习的真实世界动态范围;
3)现有架构难以扩展到高分辨率3D场景随时间演化的内存与计算开销。
尽管条件扩散模型、组合式潜在空间和跨模态对比预训练已提升了生成质量,但在上述约束下同时实现多样性与保真度仍是一个开放的研究问题。
时间一致性与连贯性(Temporal Consistency and Coherence):
在4D生成中,确保长时间序列中帧与帧之间平滑且逼真的过渡是一项重大挑战。与静态3D生成不同,4D生成需在时间步长上维持形状、纹理和运动的一致性。闪烁(flickering)或非自然形变等伪影极易在长序列中出现。如何在不牺牲细节或真实感的前提下强制实现时间连贯性,仍是一个未解难题。
效率与可控性(Efficiency and Controllability):
4D资产生成涉及庞大的时空张量和漫长的优化周期,对GPU内存与算力造成巨大压力。当使用分数蒸馏采样(SDS)时,这种开销进一步加剧,因其隐式形式使结果对控制信号和扩散先验高度敏感。亟需紧凑的表示方法与可扩展的架构以降低这些负担。同时,当前流程仅支持粗粒度控制;精确的运动路径与语义级编辑仍然困难。未来进展将依赖于面向控制的算法设计和清晰的交互界面。
保真度与多样性(Fidelity and Diversity):
在4D生成中同时维持高保真度与多样性依然困难。
- 保真度方面:形状、纹理和运动必须在时间上保持一致;否则,长序列会出现闪烁、细节模糊以及几何或光度漂移等问题。当前用于图像到4D、视频到4D、3D到4D生成流程中的扩散模型,难以从有限输入中推断缺失视角和高频细节,凸显出对更强时间正则化、视角感知条件机制以及内存高效架构的需求——这些架构需在保障逐帧质量的同时确保平滑演化。
- 多样性方面:当前模型在不同物体、运动风格和环境下的泛化能力较差,因为动态3D内容高度可变,而训练数据集仍较为狭窄。要实现鲁棒泛化,需更广泛的数据覆盖、自适应条件机制和模块化训练策略,以确保在未见场景中仍能维持高保真合成。
物理与动力学建模(Physics and Dynamics Modeling):
逼真的4D生成必须以物理精度再现碰撞、弹性/塑性形变和流体流动。然而,将此类物理规律嵌入生成模型极具挑战,因其涉及求解偏微分方程或实时模拟交互过程,难以在物理保真度与计算速度之间取得可行平衡。一个有前景的方向是将生成网络与可微分模拟器或神经常微分方程(Neural ODE)层相结合,通过基于梯度的训练强制满足牛顿力学定律。构建此类耦合系统可形成一种“世界模型”(world model),封装真实世界特性,并为评估物理与动力学一致的4D生成提供天然基准。未来研究可在此类基准基础上,更好地模拟真实交互,同时保持计算效率。
VI. 结论(CONCLUSIONS)
在本综述中,我们回顾了用于模拟现实世界的多模态生成模型的最新进展,聚焦于外观、动力学与几何这三个交织的维度。我们对2D、视频、3D和4D生成领域的现有方法进行了分类,讨论了其代表性方法、跨域关联与技术差异,并辅以对比性视觉示例。此外,我们汇总了常用数据集与评估指标,为基准测试提供了实用参考。
尽管进展迅速,根本性挑战依然存在,例如生成流程的可扩展性、长序列中的时间一致性,以及对真实世界动态的适应能力。我们指出了若干开放研究方向,包括:跨模态的统一表示、稀疏监督下的高效训练,以及融入物理约束以增强真实感。
我们希望本综述不仅能为初学者提供全面概览,也能为未来研究奠定基础,推动构建更加连贯、可控且物理可信的多模态生成系统。
原文链接:https://arxiv.org/pdf/2503.04641
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.