扩散模型综述:方法与应用|分类器|多模态

分享至

扩散模型综述:方法与应用

A Survey of Diffusion Models: Methods and Applications

https://www.mdpi.com/2076-3417/16/5/2482

摘要：

扩散模型已成为最先进的生成式范式，在合成高保真图像、视频和音频方面超越了生成对抗网络（GANs）。然而，其对迭代去噪过程的依赖带来了显著的计算负担与内存开销，构成了其在资源受限的边缘设备上部署的重要障碍。与现有广泛涵盖通用方法的综述不同，本文提供了一篇聚焦性的综述，特别强调高效与轻量级的扩散模型。我们系统性地分析了生成质量与计算成本之间的权衡，将加速技术归类为采样优化、架构压缩与知识蒸馏。此外，我们探讨了扩散模型与新兴架构（例如 Mamba）的融合，以及其向通用世界模拟器方向的演进。本综述旨在为"绿色人工智能"提供一条技术路线图，弥合高端学术研究与实际现实应用之间的差距。

关键词：生成式模型；扩散模型；轻量级架构；边缘计算；扩散模型的应用；效率

引言

近年来，生成式模型在视觉与跨模态任务中进入了发展快车道。在扩散模型兴起之前，主要有三种主流模型：生成对抗网络（GANs）、变分自编码器（VAEs）以及基于流的模型（flow-based models）。GANs 通过生成器与判别器之间的对抗博弈进行训练，能够生成非常清晰且逼真的图像 [1]。然而，其训练过程极其敏感且不稳定，常常面临模式崩溃（mode collapse）问题，即对抗模型中的生成器只能产生有限种类的样本，无法覆盖完整的数据分布。VAEs 以变分推断为基础，通过最大化证据下界（ELBO）来学习数据的潜在表征，Kingma 与 Welling [2]。其训练过程稳定，但由于优化目标中保真项与正则化项之间的权衡，所生成的样本（尤其是图像）往往显得略微模糊。基于流的模型利用一系列可逆变换将简单分布（如高斯分布）映射到复杂数据分布上，从而实现数据似然的精确计算 [3]。然而，其架构设计受限于可逆性要求，计算成本高昂，且在处理高维数据（如高分辨率图像）时，性能通常逊于 GANs。这些模型共同面临着在生成质量、多样性与训练稳定性之间取得平衡的挑战。因此，研究人员亟需一种新型模型，能够同时确保生成质量、训练稳定性以及对数据分布空间的全面覆盖。如图 1 所示，与依赖对抗学习或显式潜在映射的 GANs、VAEs 及基于流的模型不同，扩散模型通过学习逆转一个渐进的噪声退化过程，引入了一种范式转变。

扩散模型的概念最初由 Sohl-Dickstein 等人 [5] 提出，其灵感来源于物理学中的非平衡态热力学。其核心概念极为简洁优雅：一个复杂的生成过程可以被分解为一系列极其简单、渐进式的去噪步骤。该过程包含两个阶段：首先，前向过程是一个固定的、不可学习的程序。它模拟数据退化过程，在多个时间步长内逐步向原始数据注入少量高斯噪声，直至数据最终转化为纯粹的标准正态分布噪声。最后，反向过程构成了模型的核心学习组件。它试图逆转前向过程，从纯噪声输入开始，通过一系列去噪步骤逐步移除噪声，最终重建出清晰、真实的样本。得益于这一独特机制，扩散模型相较于其他模型具有以下优势：首先，扩散模型展现出卓越的训练稳定性。其训练目标为最大似然估计或其代理目标，不涉及对抗训练，从而使训练过程高度稳定。其次，扩散模型能够生成高保真度的输出。通过多步迭代去噪，模型能够精细地捕捉数据细节，生成具有卓越保真度与颗粒度的样本，在多项基准测试中表现优于 GANs。最后，扩散模型展现出强大的多样性。由于其训练目标是拟合整个数据分布，因此不易陷入模式崩溃，能够生成多样化的样本。

扩散模型凭借稳定的训练过程与高保真生成能力已成为主流研究范式。学术界将该方法形式化为"前向加噪–反向去噪"的可逆过程。Ho 等人 [6] 基于离散马尔可夫链给出了一个可操作的范式；Song 等人 [7] 则利用随机微分方程（SDE）与概率流常微分方程（ODE）提供了连续性视角与理论统一性，而工程实践将这两条研究路线融合，形成了清晰的训练与采样流程。为降低计算门槛，Rombach 等人 [8] 将去噪过程迁移至潜在空间，并通过交叉注意力机制接入文本条件，使实际系统能够在高分辨率下稳定运行。可控性迅速成为核心需求：用户不仅期望模型能够理解文本，还希望其能够遵循结构信号，如边缘、深度、姿态、布局，乃至音频或参考图像。为此，学术界提出了两类控制机制。一类源于引导强度：Dhariwal 与 Nichol [9] 提出的分类器引导（classifier guidance）以及 Ho 与 Salimans [10] 提出的无分类器引导（classifier-free guidance），允许在保真度与多样性之间进行权衡调节。另一类源于结构化条件：Zhang 与 Agrawala [11] 提出的 ControlNet 通过零卷积（zero convolution）将控制分支挂接至主干网络，可组合多种条件输入；Hertz [12] 则直接重写交叉注意力热力图，以实现局部与细粒度编辑。视频与 3D 任务进一步增加了难度，长期一致性、身份稳定性与成本控制相互制约。因此，研究人员采用"关键帧–插值–超分辨率"的级联方案，并利用 DPM-Solver 与知识蒸馏技术减少采样步数。在复现实验中，研究团队通常将采样步数从 50–100 步缩减至 20–30 步，并通过 LoRA 或适配器（adapters）部署多种风格与条件。这些实践可显著降低推理延迟，但也带来了细节丢失与外观僵化等副作用。

1.1. 与现有综述的关系及贡献

尽管 Yang 等人 [13] 与 Croitoru 等人 [14] 等综合性综述已对扩散模型的整体格局提供了出色的概述，但它们主要聚焦于生成质量与广泛的应用场景。随着扩散模型从学术研究向工业部署过渡，性能与资源消耗之间的权衡变得日益关键。本文的独特之处在于优先关注扩散模型的效率与轻量级部署。我们的主要贡献体现在三个方面：

我们提供了加速技术的专门分类体系，将其归类为算法求解器、架构压缩与系统级轻量级范式。
我们弥合了高端基础模型与边缘端应用之间的差距，强调了在移动设备与嵌入式设备上部署扩散模型的策略。
我们对新兴架构（例如 Mamba/状态空间模型）及其与大语言模型（LLMs）的融合提供了更新的视角，超越了传统以 U-Net 为中心的观点。

1.2. 论文组织结构

本综述的其余部分旨在引导读者从理论基础走向实践实现与未来趋势。第 2 节统一了扩散模型的理论基础，整合了概率马尔可夫链与连续微分方程两种视角。基于这些理论支撑，第 3 节剖析了关键方法论，包括主干架构的演进与可控生成机制。随后，第 4 节探讨了不断扩展的应用领域，涵盖从二维图像到复杂的三维、视频与音频内容。本综述的核心组成部分是第 5 节，该节对高效与轻量级扩散模型进行了深入分析，全面详述了旨在降低计算开销的量化、剪枝与蒸馏技术。在完成技术分析之后，第 6 节探讨了相关的社会与伦理挑战，而第 7 节则提出了未来的研究方向。最后，第 8 节给出总结性论述。

扩散模型的基本原理

整体概率框架如图 2 所示，其中反向过程 p θ 通过迭代移除噪声以生成逼真样本。

2.1. 前向过程

2.2. 反向过程

2.3. 训练目标与损失函数

3.方法学

3.1. 基础框架与架构

3.1.1. DDPMs（去噪扩散概率模型）

2020年，Ho 等人 [6] 提出的 DDPM 标志着现代扩散模型的一个里程碑。它不仅提出了前述简洁的损失函数，还采用了 Ronneberger 等人 [15] 提出的 U-Net 架构作为去噪网络。U-Net 的编码器–解码器结构和跳跃连接使其 exceptionally（极其）适合处理图像中的局部和全局信息，从而能够从噪声图像中有效地恢复结构。DDPM 在图像生成任务中取得了显著成果，其输出质量首次在 CIFAR-10 等数据集上超越了当时最先进的 GAN 模型，正式宣告了扩散模型时代的黎明。早期的 DDPM 主要依赖卷积 U-Net 架构。然而，大约在 2022 年，扩散模型的核心架构经历了从 U-Net 到 Transformer 的深刻转变。以 Peebles 和 Xie [16] 提出的 Diffusion Transformer (DiT) 为例，模型将图像、视频和其他数据视为时空补丁（spacetime patches）的序列，利用 Transformer 的长程依赖建模能力来学习复杂的时空关系。

3.1.2. 从离散马尔可夫链到连续 SDE 和 ODE

当将扩散过程写为 SDE 时，有一个重要的推论：只要知道每个噪声尺度的分数（scores），就可以写出一个逆时间 SDE，通过沿其模拟，就可以回到数据分布 [7]。同一组边缘分布也对应一个确定性概率 ODE。如果使用 ODE，可以使用更大的步长和高阶数值积分器，从而减少函数评估次数。EDM 清楚地表明，使用 Heun 二阶方法，并配合适当的 sigma 采样分布和损失权重，可以提高稳定性和速度 [18]。这引出了一个问题：SDE 的“预测器–校正器”（predictor-corrector）与 ODE 的“高阶求解器”（higher-order solver）哪个更好？实践表明，如果目标是感知质量和更少的生成步数，结合 DPM-Solver 或 Heun 等的概率 ODE 更合适；但如果目标是严格的似然评估或需要注入随机性，SDE 和 PC 采样更灵活，而上述离散方法侧重于实际实现。Song 等人 [20] 建立了严格的理论基础，他们证明了随着时间步数趋于无穷大 ( T → ∞ )，离散扩散过程收敛于连续时间随机微分方程 (SDE)。前向过程可以建模为一个 Itô 过程：

如图 3 所示，该常微分方程（ODE）在数据分布与潜在噪声之间建立了一种平滑且双射的映射。这一视角不仅统一了去噪扩散概率模型（DDPMs）与基于分数的模型，而且还使得能够使用高级数值求解器（例如 DPM-Solver [23]）进行快速采样，与传统方法相比，显著减少了所需的推理步数。

3.1.3. 主干架构与条件注入

目前，U-Net 仍然是扩散模型中的主导主干架构。它具有两个实际优势：多尺度特征和跳跃连接能够保留局部细节，同时卷积的感受野和计算模式对高分辨率图像非常友好。扩散模型版本的 U-Net 通常包含时间嵌入（正弦位置编码加感知机）、归一化层（通常使用组归一化）以及交叉注意力层（用于接收文本或其他模态信息）。许多项目还利用通道的缩放和偏置参数，类似于 FiLM 技术，将条件注入到每一层归一化中 [8,15]。Transformer 主干架构带来了另一种平衡。DiT 将图像分块与位置和时间标记相结合，将去噪过程视为序列建模；U-ViT 和 MDT 分别证明了长跳跃连接和掩码训练有助于提升稳定性 [24,25]。在实际项目中，Transformer 能够实现更好的可扩展性和分布外泛化能力，但代价是二次复杂度和内存开销。因此，许多团队在处理高分辨率任务时以 U-Net 为基础，而在多模态对齐或全局建模的均衡设计中采用 Transformer，这在视频和 3D 任务中更为常见。从可控性的角度来看，主干架构中最常用的三个关键机制是：交叉注意力（用于接入文本或语义序列）、归一化调制（利用条件生成的缩放/偏置参数来控制通道）以及旁路控制分支（例如 ControlNet 的零卷积注入）。这三个关键机制的选择取决于条件的形式：例如，语义类条件更适合交叉注意力，结构类条件（边缘、深度、姿态）更适合空间对齐和旁路特征，而混合类条件通常结合使用 [11]。

3.2. 采样加速与效率

为了提供对主干架构进展的结构化概述，我们在图 4 中展示了架构的演进过程，该图描绘了从传统的基于 CNN 的 U-Net 和基于 Transformer 的 DiT 向新兴的 SSM 框架的转变。

3.2.1. 速度与效率的突破

缓慢的采样速度构成了早期扩散模型（如 DDPM）的核心限制。Song [7] 提出的去噪扩散隐式模型（DDIM）代表了该领域最具影响力的工作之一。DDIM 表明，支撑 DDPM 的马尔可夫链假设并非必不可少，其通过非马尔可夫前向过程实现了更快的采样。它引入了一个额外的参数 η；当 η = 1 时，采样过程等价于 DDPM。当 η = 0 时，它变为一种称为隐式模型的确定性生成过程。这使得 DDIM 仅需数十步即可生成与 DDPM 千步采样质量相当或更优的图像，生成速度提升了 10 至 50 倍，显著增强了扩散模型的实用性。尽管 DDIM 等技术实现了初步加速，但跨越数十步的迭代对于实时应用而言仍然过于迟缓。近期研究的一个核心焦点是将生成速度推向极限，通过单步或少步过程实现高质量输出 [26]。Kim 等人 [26] 提出了一种称为一致性模型（Consistency Models）的训练范式，旨在直接学习从任意噪声点到生成样本的一致性轨迹的终点。通过一种称为一致性蒸馏（Consistency Distillation）的技术，训练好的多步扩散模型可以被蒸馏为能够在单步内生成高质量图像的模型。类似地，流匹配（Flow Matching）的理论框架将扩散过程重新表述为常微分方程（ODE）。它专注于学习一条从噪声分布到数据分布的“更直”的路径，从而规避了传统扩散模型固有的弯曲、低效的采样轨迹。通过学习这种优化的映射，修正流模型能够在最少步数内实现高质量生成，同时保持理论上的优雅性与可解释性 [27]。这些技术的成熟预示着扩散模型将彻底摆脱“迟缓”的标签，将其应用从离线内容创作扩展到交互式设计、实时渲染乃至更广阔的领域。同年，Wang 等人 [28] 提出了一种名为 Diffusion-GAN 的新型 GAN 框架。该方法利用预训练的扩散模型作为“教师”，通过对抗训练将教师模型的多步生成能力蒸馏至单步生成器（即“学生”模型）中。该方法在 ImageNet 等基准测试上取得了出色的单步 FID 分数，标志着单步生成质量迈上了新高峰。

3.2.2. 采样与加速

DDIM 将反向过程表示为确定性映射，使得仅需十几步即可获得良好的结果 [29]。随后，PNDM、DEIS、EDM 以及 DPM-Solver 系列将常微分方程的数值方法引入扩散采样中，减少了误差累积并降低了所需步数 [30,31]。这些方法逐渐成为了视频与高分辨率生成的通用加速器。当单步生成仍然较慢时，研究人员采用蒸馏方法，通过逐步合并两步并循环多轮，将 50–100 步缩减至个位数 [10]。尽管引导蒸馏（guided distillation）也可行，但它需要处理与引导强度和分布漂移相关的问题 [32]。在多模态场景中，一种常见做法是先使用高阶求解器将步数减少至 10–20 步，然后再进行蒸馏，这可以显著降低质量损失。一些研究提出将迭代过程压缩至单步或少步的一致性模型中，该方向在图像任务中已取得可行结果，但针对大分辨率与视频的最佳实践仍在演进中。

3.2.3. 训练目标、采样间隔与权重

许多项目已将所有时间步的损失权重改为根据信噪比（SNR）或 sigma 分布进行采样。这是因为噪声极高或极低的样本要么太难、要么太易，而平均权重会导致网络在不相关的区间浪费学习能力。最小 SNR 加权与 EDM 的损失公式均在不同数据集上展现出一致的改进 [19]。步长与时间步的选择也具有显著影响。在大多数实践中，前密后疏的步长分配更为稳定；在 ODE 求解器中，末端密集段可以减少最终伪影；在 SDE 的 PC 采样中，校正步数不宜过多，否则时间成本将迅速上升 [18]。这些经验看似零散，但在多模态可控性与视频编辑中，它们往往决定了能否在 10–20 步内达到标准。在实现层面还有两点常被忽视。第一点是指数移动平均（EMA）权重几乎是一个必要条件，尤其在少步采样与蒸馏场景中。第二点是混合精度与梯度裁剪可显著减少 NaN（非数字）与溢出问题，尤其在强引导与大批量设置中。这些实践并非算法层面的贡献，但它们往往决定了复现过程是否顺利。

3.3. 可控生成机制

在本节中，我们回顾不同的可控生成机制。表 1 展示了可控生成机制的分类。

3.3.1. 条件生成与引导

3.3.2. 形式与目标

可控性并非简单地在模型外部添加另一层规则；相反，它将约束条件、偏好和先验知识集成到生成过程本身之中。语义、空间、身份和风格是四种常见的高频需求。它们对应于不同的信息形式，并决定了不同的控制接口。

首先是语义控制。模型需要理解文本或类别，并在生成过程中保持语义一致性[9,17]。属性不匹配和目标缺失是常见的失败模式，尤其在包含多个实体和长描述的场景中[37]。

其次是空间控制，包括布局、分割、边缘、草图、深度和姿态，其要求明确“何处出现何物”。这些条件通常以图像或网格的形式给出[11]。对齐精度与局部细节是空间控制的关键点[38]。

然后是身份控制，它要求绑定到特定的个体或对象，并在新场景中保持其外观与几何结构。这些方法通常使用少量图像进行微调或学习新的词嵌入[34,35]。过拟合与语言漂移是身份控制的两大主要风险[39,40]。

最后是风格控制，用户希望在不破坏布局与主体的前提下迁移材质、笔触或色调。常见实现包括能量引导、潜在空间方向调整和小参数适配[41,42]。

要判断某项生成是否具备可控性，通常需要同时关注三个关键点：文本或条件的对齐程度、时空稳定性，以及人眼的偏好与细节感知。单一指标很少能解释整个问题，这也是为什么学术界逐渐采用将指标组与人工评估相结合这一实践的实际原因[43]。

3.3.3. 控制机制

研究人员大致将控制机制分为三类。第一类是引导（guidance），第二类是条件注入（condition injection），第三类是对注意力与特征的显式重写。此外，研究人员还提出了个性化与低成本的微调方法。

首先是引导。Dhariwal 与 Nichol 提出了分类器引导（classifier guidance）[9]，作者提供了一个对噪声鲁棒的分类器以提供梯度，并将该梯度添加到分数函数中，从而获得更强的条件对齐能力。无分类器引导（Classifier-Free Guidance）源于 Ho 与 Salimans 的方法，通常被称为无分类器引导。作者仅训练一个网络，在训练期间以一定概率移除条件，同时线性组合条件输出与无条件输出，以平衡保真度与多样性。

其次是条件注入与控制分支。Zhang 与 Agrawala [11] 提出了 ControlNet，作者将主干网络中复制的卷积模块作为控制分支，并通过零卷积（zero convolution）将分支特征注入主干网络，以支持边缘、深度、法线、分割、姿态等多种条件输入。该技术有助于在不破坏原始能力的前提下使训练更加稳定。文本条件则采用交叉注意力机制。Radford 等人 [44] 提出了 CLIP，作者将文本与图像嵌入到同一空间中，而潜在扩散模型则将文本特征作为键/值（Keys/Values）。U-Net 的中间特征作为查询（Queries），从而实现语义对齐。

然后是对注意力的控制与无需训练的编辑（training-free editing）。Hertz 等人 [12] 提出了用于图像编辑的交叉注意力控制（cross-attention control）概念，作者直接替换或重写注意力热力图，以实现无需修改权重的细粒度编辑，该方法可用于结构保持与风格替换。Meng 等人 [45] 提出了 SDEdit，作者首先向输入添加适度噪声，然后沿扩散轨迹进行去噪，从而在修复与风格化任务中获得稳定结果。

最后是个性化与参数高效微调。Ruiz 等人提出了 DreamBooth [34]，作者将一个新概念通过同一词语绑定到少量图像上，保留主体的形状与纹理，并使用文本控制场景。Gal 与 Alaluf 提出了文本反转（Textual Inversion）[35]，作者仅优化一个新词的嵌入向量，使少量图像能够学习对象风格或特征。Hu 等人 [36] 提出了 LoRA，作者采用低秩分解进行微调，节省内存与参数，该方法已广泛应用于图像、视频与音频扩散模型的适配与部署。Tewel 等人 [40] 提出了 Perfusion，作者使用极小的秩 -1 更新来锁定概念与风格，以维持合成质量并减少遗忘。

3.3.4. 评估与基准测试

在通用质量指标方面，FID（Fréchet Inception Distance）和 KID（Kernel Inception Distance）用于衡量整体分布的接近程度，而 IS（Inception Score）更侧重于样本多样性 [43]。在对齐与可控性方面，CLIPScore 和文本检索准确率可以反映语义匹配程度，而区域控制可以使用掩码内的 CLIP 相似度以及目标检测或分割的准确率进行评估。对于姿态与深度控制，可以使用关键点误差和深度相关性进行评估。对于视频，需要 FVD（Fréchet Video Distance）和帧间一致性，可以使用闪烁率（flicker rate）和光流畸变误差进行评估 [46]。对于 3D 与多视角一致性，可以使用 Chamfer 距离、IoU（交并比）和新视角一致性进行评估 [47]。在人工评估方面，研究人员倾向于同时使用双盲偏好测试和多维问卷来评估对齐度、细节、稳定性和整体偏好，这在风格化与编辑任务中尤为重要 [17,48]。

应用

在本节中，我们回顾扩散模型的一些重要应用。表 2 总结了代表性扩散模型的应用领域。

4.1. 图像恢复

如果在退化过程中出现卷积模糊、下采样或掩码缺失，可以将一致性约束纳入采样循环中，使观测值与先验共同决定轨迹。DDRM 使用预训练的去噪网络作为先验，并为线性逆问题提供无监督后验采样，证明了数据一致性与先验去噪的可行性 [18]。DDNM 更进一步，将重建分解为由观测值决定的值域部分和由先验完成的零空间部分，无需再次训练模型。零样本方法能够处理超分辨率与去模糊问题 [56]。ILVR 通过低频替换固定结构对齐，允许高频细节由先验填充 [57]。如果任务更侧重于编辑而非严格求解，SDEdit 会在采样中期注入弱噪声，并沿引导提示收敛，从而无需重新训练模型即可实现稳定修改 [45]。对于需要统一多任务的场景，Palette 将着色、恢复与解压缩结合到一个条件框架中，展示了一个扩散模型对应多种恢复任务的可能性 [17]。GDP 将生成先验显式建模为可采样的后验分布，适应线性、非线性与盲退化，涵盖从去噪到多退化增强的广泛需求 [55]。从实际观察来看，训练好的通用图像先验（例如基于 LDM 的权重）在迁移到存在分布偏移的数据（如遥感与医学数据）时，可能会表现出风格偏差或过度细节想象。在此类情况下，将一致性步骤前移并降低后期引导的强度，通常能在保留 LPIPS 视觉优势的同时，稳定 PSNR 或 SSIM 结果。在评估指标方面，恢复任务仍依赖 PSNR 与 SSIM，而 LPIPS 与 FID 则用于展示感知质量与分布接近程度 [43,58]。

4.2. 二维图像生成

文本到图像生成是扩散模型最广受认可的应用。Ramesh 等人 [49] 开发的 DALL-E 2、Saharia 等人 [17] 提出的 Imagen，以及 Rombach 等人 [8] 引入的 Stable Diffusion 等模型，能够生成与用户提供的任何文本描述相匹配的详细且富有创意的图像。这些模型通常采用预训练的文本编码器（例如 CLIP 的文本编码器）将输入文本转换为嵌入向量。该向量随后通过交叉注意力机制作为条件输入注入 U-Net，从而引导图像生成过程。该技术的进步不仅改变了数字艺术与内容创作的格局，也为设计、广告和娱乐行业提供了强大的工具。

首先是从类别到图像的转换。类别条件扩散模型是通用图像生成的基础。ADM 与 -G 通过在 CIFAR 和 ImageNet 数据集上采用分类器引导与架构修改，实现了与 GAN 相当的 FID 与 IS 指标 [9]。CDM 采用级联生成方式逐步提升分辨率，使细节与结构更加稳定 [10]。在主干架构层面，LDM 将去噪过程迁移至 VAE 潜在空间，显著降低了内存与算力需求 [8]。DiT 与 MDT 则展示了 Transformer 在长程依赖建模与可扩展性方面的潜力 [16]。在实际训练中，CFG 权重、步数与调度之间的耦合性很强。较高的 CFG 倾向于提升类别对齐度与清晰度，但会压缩多样性，这在少步推理中尤为明显 [9]。因此，许多实验将 CFG 设为随时间变化的曲线，并加密最后几步的求解精度，以减少尾部过冲伪影，并与 DPM-Solver 的使用方式对齐 [18]。

其次是从文本到图像的转换。文本条件生成已形成结合交叉注意力、潜在空间与引导的标准范式。GLIDE 与 Imagen 展示了深度语言表征对语义对齐的助益 [9,17]。VQ-Diffusion、Parti 与 Muse 则从离散令牌化、自注意力扩展与掩码建模等角度呈现了不同的效率方案 [59–61]。尽管文本很重要，空间约束同样关键。GLIGEN 在大型模型上集成文本边界框，使物体放置具备可控性 [62]。ControlNet 利用可训练的旁路分支与零卷积，将边缘、深度、姿态等条件注入每一层，实现文本与结构的联合控制 [11]。T2I-Adapter 提供了更轻量的适配接口，便于多条件组合 [33]。这些方法显著降低了复杂场景（如多物体、多关系）中属性不匹配与目标遗漏的概率 [63]。

安全与对齐也是实验必须考虑的维度之一。Safe Latent Diffusion 与自蒸馏安全训练展示了缓解不当内容生成的方法，但模型–令牌–过滤的三重组合仍是主流方案 [64]。在评估方面，CLIPScore 与文本检索准确率的监测在语义上保持一致。FID 与 KID 反映分布质量。人工评估则负责对"是否可信"等主观维度进行评判，三者结合能更好地覆盖真实使用场景 [43]。

4.3. 三维模型/内容生成

扩散模型也被用于从文本或二维图像生成三维模型。Poole 等人 [50] 提出了一种称为分数蒸馏采样（Score Distillation Sampling, SDS）的技术。其核心概念是利用预训练的二维文本到图像扩散模型作为知识源。在三维表征（例如来自 NeRF 的渲染视图）上，SDS 计算一种损失函数，将二维扩散模型中编码的知识蒸馏至三维模型中。这引导三维模型朝着与文本描述一致的优化方向演进。因此，无需任何三维训练数据即可从文本生成高质量三维资产，为游戏开发、虚拟现实（VR）与元宇宙构建提供了全新路径。

三维数据稀缺，直接在体素、点云与网格上应用扩散模型会导致极高的计算成本。SDS 与 SJC 提供了解决方案，即将二维扩散的噪声残差或雅可比链反向传播至三维表征（如 NeRF 或 SDF），使渲染的多视角图像逐渐逼近条件文本 [50]。Magic3D 采用稀疏网格与可微分渲染，分粗到细两阶段提升速度与细节 [51]。Fantasia3D 解耦几何与外观，并引入法线与材质建模，使材质真实感更佳 [42]。

单图像到三维的转换同样重要。Zero-1-to-3 在相机条件上对二维扩散模型进行微调，用于新视角合成，并进一步驱动三维优化 [29]。在多视角一致性方面，SyncDreamer 学习跨视角的同步特征，与二维文本对及三维资产联合训练以增强一致性 [65]。LAS-Diffusion 以 SDF 为中心，通过局部注意力与有符号距离场表征提升可控性与细节 [66]。

三维评估通常聚焦于 Chamfer 距离、体素 IoU 与新视角一致性，而 GSO 等数据集提供了客观标准 [47]。基于 SDS 的优化仍存在成本与稳定性问题，例如因文本或风格差异导致局部最优或视角伪影。这些问题可通过更优的渲染方法与几何正则化逐步缓解。

4.4. 视频生成与编辑

在图像生成的基础上，将扩散模型扩展至时间维度即可实现视频生成。诸如 Sora（OpenAI）、Lumiere（Google）、Pika 和 Runway 等模型已展示出生成长达一分钟、具有高分辨率、内容连贯且动态流畅的视频的能力。其核心挑战在于有效建模时空一致性。一种常见方法是在 U-Net 架构中融入时间模块，例如 3D 卷积或时间注意力机制，从而同时处理空间与时间信息，确保生成视频帧之间的连贯性。该技术预示着视频制作、电影特效与虚拟世界构建领域的范式转变。

Li 等人 [38] 详细介绍了一种称为"Animate Anyone"的方法，该方法利用扩散模型从静态参考图像与运动序列中生成高度保真且时间连贯的角色动画视频，展示了扩散模型在生成复杂动态内容方面的先进能力。

视频生成的难点在于帧间一致性与运动可解释性。由于数据稀缺，许多系统选择将图像先验与轻量级时间层相结合的方法。MCVD 与 FDM 将扩散应用于预测与插值等条件任务，验证了其在中等与短序列上的可行性 [67,68]。对于文本到视频生成，Make-A-Video 与 Imagen Video 均采用级联方法：先生成低分辨率基础序列，再进行空间或时间超分辨率处理，显著提升了时间一致性 [69]。Dreamix 展示了视频编辑的路径，利用目标文本与低分辨率参考对视频扩散模型进行微调，在保持外观的同时改变语义 [70]。Latent Video Diffusion 将 LDM 的潜在空间方法迁移至视频领域，节省内存并使项目更易于部署 [71]。

条件控制在视频中同样重要。VideoComposer 将深度、草图、光流等多种视觉条件集成到 U-Net 与潜在空间中，实现精细操控。ControlVideo 将 ControlNet 的空间控制扩展至时间域且无需训练，通过跨帧交互减少抖动 [72]。实践表明，共享初始噪声、跨帧注意力以及"关键帧–插值–细化"流程有助于缓解闪烁问题。然而，身份漂移与长程依赖仍是视频生成中持续涌现的挑战。

评估通常采用 FVD 与 CLIP-SIM，观察人眼是否感知到变化，因为纯客观分数无法完全捕捉闪烁与稳定对比的主观感受 [46]。

4.5. 音频生成：从语音到音乐

尽管图像与视频生成聚焦于空间结构，音频生成则需应对高时间分辨率一维信号的复杂性。早期基于扩散的音频模型，如 DiffWave [54] 与 WaveGrad [73]，专注于神经声码器的作用，从以文本或语言特征为条件的梅尔频谱图中生成原始波形。这些模型在推理速度与合成质量方面优于 WaveNet 等传统自回归模型。

然而，从零开始生成复杂音频（如音乐或环境音）需要对长程依赖进行建模。受 Stable Diffusion 成功的启发，AudioLDM [53] 将潜在扩散方法引入音频领域。通过使用 VAE 学习梅尔频谱图的连续潜在表征，并将扩散过程以对比语言–音频预训练（CLAP）嵌入为条件，AudioLDM 实现了最先进的零样本文本到音频生成。这种"频谱图即图像"的范式使模型能够利用图像修复技术进行音频恢复与风格迁移。

最近，研究重点已转向长格式音乐生成与高保真文本到语音（TTS）。MusicLM [52] 将音频生成视为分层序列到序列建模任务，确保数分钟音乐的连贯性。同时，像 Stable Audio 这样的模型通常利用专为音频设计的下采样因子自编码器来处理极高的采样率，从而在局部纹理质量与全局音乐结构之间取得平衡。

高效与轻量级扩散模型

尽管扩散模型具有卓越的生成质量，但其在现实场景中的部署往往受到两个固有瓶颈的阻碍：迭代去噪过程的高计算成本，以及重型主干网络带来的巨大内存占用。这些限制对于边缘设备与实时应用而言尤为严苛。因此，"绿色扩散"——即在不牺牲保真度的前提下追求效率——已成为一个关键的研究前沿。

在本节中，我们对轻量级扩散模型的最新进展进行全面综述。我们将这些加速技术归类为三大战略支柱：

采样加速：聚焦于先进的常微分方程（ODE）求解器与调度策略，旨在将推理步数从数百步减少至数十步甚至个位数。
架构压缩：采用网络剪枝、量化与结构搜索等技术，以最小化参数量与内存使用。
知识蒸馏：利用教师–学生框架，将多步扩散轨迹压缩至更少的步骤，从而实现快速推理。

为了对这些效率技术形成结构化理解，我们在图 5 中呈现了轻量级策略的分类体系，该体系将当前方法归类为采样加速、架构压缩与数值优化。以下子节将讨论表 3 中总结的这些方法论如何应对计算效率与生成性能之间的权衡。

5.1. 结构效率与主干优化

实现轻量化的最直接途径是重构肿的 U-Net 主干网络。研究表明，通过引入混合架构或专用卷积，可以在保持生成质量的同时显著降低计算负载。Liu 与 Sun [74] 在通用图像生成背景下提出了 MobileDiT 架构。他们未使用传统卷积，而是选择 MobileViT 模块作为核心组件。该设计十分巧妙：利用轻量级卷积处理局部细节，并利用 Transformer 捕捉全局结构。为防止训练崩溃，他们还引入了 adaLN-Zero（自适应层归一化）模块以稳定信号。结果令人印象深刻：该模型在 ImageNet 上取得了 2.15 的 FID 分数，参数量极低，且在生成效果上甚至超越了参数量更大的 StyleGAN-XL。

针对性结构剪枝在特定任务中更为激进。Cai 等人 [75] 针对伪装目标检测开发了 L-DiffCOD。他们采用 PVTv2-B1 作为编码器主干，并将所有标准卷积替换为深度可分离卷积。该操作使浮点运算次数（FLOPs）降低了 47.45%，参数量减少了 75%，从而能够在嵌入式设备上实时识别伪装目标。这一点也在网络安全领域得到了 Li 等人 [79] 的验证。为了在边缘节点合成恶意流量数据，他们同样采用了深度可分离卷积技术。实验数据表明，该模型的乘加运算次数（MACs）仅为基线模型的 20.39%，但仍能训练出准确率达 92.34% 的分类器，这证明了轻量级模型足以捕捉复杂的流量特征。

在遥感图像超分辨率方面，An 等人 [78] 完全摒弃了 U-Net。他们设计的 LWTDM 模型采用了一种基于交叉注意力的高效编码器–解码器结构。通过引入轻量级嵌入模块，他们避免了深层网络的堆叠。为进一步加速，他们结合 DDIM 跳步采样将推理步数压缩至 200 步以内，满足了卫星数据处理的时效性要求。这些结构优化在大幅降低参数量与浮点运算次数的同时，有效保持了生成质量与任务精度，为扩散模型在移动端、卫星及嵌入式设备等资源受限环境中的实时部署奠定了基础。

5.2. 量化与频域学习

当结构优化达到瓶颈时，降低数据精度或转换处理域是另一条有效路径。在语义通信中，Grassucci 等人 [76] 面临严重的带宽限制。他们提出了 Q-GESCO 框架，采用训练后量化（PTQ）将模型权重压缩至 8 位。为了解决低位宽引起的累积误差，他们创新性地使用了噪声感知训练与时间步校准。这使得内存占用减少了 75%，且接收端重建的图像在存在信道噪声的情况下依然保持清晰。

自动驾驶领域的 FedDifftraj 模型由 Gao 等人 [80] 提出，专注于数据传输。在联邦学习框架中，车载端的模型在上传至服务器前进行量化。这不仅节省了宝贵的车联网（IoV）带宽，还通过参数模糊化增强了用户轨迹隐私的保护。

对于超大型医学图像，Wilms 等人 [81] 通过改变“战场”避免了算力不足的问题。他们使用小波包变换处理 3D 脑部 MRI。该方法无损地降低了图像的空间分辨率，并将计算转移至频域。这使得原本需要高端集群训练的 3D 条件扩散模型能够在单块消费级 GPU 上运行，并生成可解释的“反事实图像”以辅助医生。

在本节中，我们探讨了架构优化之外的两条关键路径：利用训练后量化降低数值精度，可大幅减少显存占用与通信带宽，并增强联邦学习中的隐私保护。同时，采用小波包变换等信号域转换方法降低高维数据的空间分辨率，使得在消费级硬件上训练大规模 3D 医学成像模型成为可能。这些策略证明，在数值与频域层面的优化是突破边缘计算资源瓶颈的有效手段。

5.3. 生成增强的轻量级范式

这是一种系统级的轻量化方法：利用强大的扩散模型在云端创建数据，赋能终端的小型模型。Tao 等人 [77] 在指静脉识别中展示了这一思路。指静脉数据通常难以获取，导致识别模型容易过拟合。他们利用扩散模型生成海量逼真的指静脉图像进行数据增强。最终，在终端部署了一个仅含 2.15M 参数的双分支轻量级网络。该网络集成了 E-MHSA（改进的多头自注意力）模块，以极低的算力实现了高精度识别。

Li 等人 [82] 在战场意图识别中也采用了这一策略。他们专门开发了基于 Wasserstein 距离的 WDiffusion 模型，用于生成多元时间序列数据。这些合成数据被用于训练一个极简的 GRU（门控循环单元）网络。该方法表明，高质量的合成数据可以弥补轻量级模型容量小的不足，使其泛化能力显著提升。

Wang 等人 [83] 在病理学领域使用轻量级模型进行图像修复。他们构建了一个专门设计的轻量级 Transformer 去噪网络，用于去除组织学图像中的折叠与气泡伪影。与传统 CNN 相比，Transformer 能更好地理解细胞的全局排列，从而以更少的参数实现更高质量的图像恢复。

在本节中，我们阐述了系统级的轻量化策略，即利用扩散模型生成高质量合成数据以解决数据稀缺问题，进而训练并赋能端到端的极简模型（如 GRU 或轻量级 Transformer）。通过“数据转化为算力”的理念，该范式证明海量逼真的合成样本能够弥补轻量级网络容量小的短板，使其在指静脉识别与战场意图判断等任务中，以极低的参数量实现出色的泛化能力与识别精度。

挑战与局限性

尽管扩散模型已彻底改变了生成式人工智能，但其从学术研究向普适化部署的过渡也暴露出关键瓶颈。这些挑战不仅仅是工程层面的障碍，更涉及计算效率、法律框架与社会伦理之间的复杂交织。本节将对这些局限性的三个主要维度进行批判性分析。

6.1. 计算成本与环境可持续性

与单次前向传播的 GAN 或 VAE 相比，扩散模型最显著的技术缺陷在于其固有的迭代推理过程，该过程需要评估神经网络数十至数百次以求解概率流常微分方程（ODE）或随机微分方程（SDE）。尽管快速求解器（例如 DPM-Solver）与蒸馏技术的最新进展已缓解了这一问题，但高分辨率生成仍然计算成本高昂，严重阻碍了视频会议或交互式游戏等对毫秒级延迟有强制要求的实时应用。

这种计算负担不仅限于延迟问题，更引发了深刻的"绿色人工智能"困境：众所周知，基础模型的训练会排放大量二氧化碳，但推理阶段的累积能源成本却常被忽视，且更具隐蔽性。正如 Luccioni 等人 [84] 所强调的，随着这些模型被部署至数百万用户，日常生成任务的能源消耗远超初始训练成本，对全球可持续发展目标构成了严峻挑战。

此外，微调甚至部署最先进模型所需的严格硬件条件造成了显著的"算力鸿沟"，实际上将研究能力集中于资金充足的行业实验室，而边缘化了无法获得高性能 GPU 基础设施的学术界与独立研究者。

6.2. 知识产权、版权与数据来源

扩散模型的训练范式以不加区分地抓取网络上海量图像为特征，这引发了关于知识产权（IP）法与创作者权利的深刻危机。尽管支持者常以"合理使用"（fair use）为辩护，声称这些模型学习的是类似于人类灵感的抽象表征，但实证证据呈现了相互矛盾的现实：具体而言，Carlini 等人 [85] 表明，扩散模型倾向于记忆并复现训练数据。这种现象通常由对重复样本的过拟合驱动，导致生成受保护作品的近乎相同副本，从而构成潜在的版权侵权。

除了精确复制带来的法律复杂性外，该技术还通过风格模仿造成重大经济风险：模型能够高保真地模仿在世艺术家的独特美学风格，使用户无需向原创者支付报酬即可生成无限衍生作品。

因此，学术界正积极开发技术对策，范围涵盖从对抗性防御工具（如 Glaze [86]——通过施加人眼不可见的扰动来干扰风格学习）到数据来源标准（如 C2PA 与不可见水印）；然而，这些归属方法在面对常见变换时的鲁棒性仍是一个未解决的挑战。

6.3. 偏见、安全与滥用

由于扩散模型本质上是对海量训练语料库条件分布的近似，它们不可避免地会继承并常常放大未加筛选的互联网内容中固有的偏见与毒性。这一现象在社会刻板印象的放大中尤为明显：例如，Bianchi 等人 [87] 表明，文本到图像模型经常表现出严重的职业性别偏见（例如，默认将高地位职业描绘为男性）与种族同质化，从而在媒体与广告部署中延续表征性伤害。

此外，潜在危害不仅限于被动偏见，更延伸至主动的恶意利用。在缺乏鲁棒安全防护的情况下，这些生成工具可能被武器化，用于生成不适合工作场合（NSFW）的图像、仇恨言论以及高度逼真的深度伪造（Deepfakes），这些内容通过虚假信息活动对政治稳定构成重大威胁，并通过非自愿内容侵犯个人隐私。

应对这些风险呈现出复杂的安全–效用权衡：尽管当前的缓解策略依赖于训练数据过滤或事后输出检查（例如基于 CLIP 的安全过滤器），但这些措施在面对对抗性攻击时仍然脆弱。复杂的"越狱"提示词往往能够绕过限制，而过于激进的过滤则可能带来"对齐税"（alignment tax）——削弱模型的多样性，并使其对良性请求失去响应能力。

未来研究方向

扩散模型的快速演进预示着其正从专用图像生成器向通用人工智能的基础构建模块转变。我们确定了三个将塑造下一代生成式模型的关键方向。

7.1. 可扩展架构：从 Transformer 到状态空间模型

尽管扩散 Transformer（DiT）已成功取代 U-Net 成为高保真生成的主力，但它们面临一个瓶颈：自注意力机制相对于序列长度的二次计算复杂度（O(n²)）。这对生成长视频或高分辨率 3D 体素构成了重大挑战。最近，状态空间模型（SSM），尤其是 Mamba [88]，已成为一种极具吸引力的替代方案。Mamba 引入了一种选择性扫描机制，在保持 Transformer 建模能力的同时实现了线性扩展（O(n)）。将 Mamba 集成到扩散主干网络中，为高效处理极长上下文提供了潜力。未来的研究可能会集中于混合架构，将注意力的全局寻址能力与 SSM 的高效性相结合，从而在单次前向传播中实现长达数分钟的视频或完整音乐作品的生成。

7.2. 推理与生成的融合（LLM + 扩散）

当前扩散模型的一个主要局限是缺乏语义推理能力；它们基于统计相关性生成像素，而非基于对世界的理解。相反，大语言模型（LLM）擅长推理，但缺乏原生的感官输出。Visual ChatGPT-3.5 [89] 等早期工作通过将 LLM 作为控制器来调用扩散模型作为外部工具，弥合了这一差距。然而，该领域正朝着原生多模态融合的方向发展。未来的模型可能会在统一的令牌空间中运行，其中视觉和音频数据被量化（通过 VQ-VAE 或类似技术）并与文本交错排列。这将使单一基础模型能够理解复杂的多步指令、执行空间推理，并生成一致的多模态输出，从而有效模糊“理解”与“创造”之间的界限。

7.3. 迈向世界模拟器与涌现能力

缩放定律（Scaling laws）表明，增加模型规模与数据量会催生涌现能力。在视频扩散的背景下，模型开始充当“世界模拟器”。通过观察海量视频数据，这些模型在没有显式监督的情况下隐式地学习物理定律、物体恒存性与 3D 几何。未来的研究可能会利用这一特性服务于具身人工智能与机器人技术。智能体可以在扩散生成的世界模拟器内进行训练，从而替代依赖手工构建的模拟环境，该模拟器能够预测未来状态及对动作的反应。这代表了一种范式转变：从为人类消费生成媒体内容，转向为机器学习与科学模拟生成数据。

结论

本文对扩散模型进行了全面综述，追溯了其从理论新奇事物到现代生成式人工智能骨干架构的演进历程。我们综合了实现高保真生成的核心原理，并对可控性与多模态合成的多样化机制进行了分类。我们分析的核心主题是向效率转变的必然趋势：尽管早期研究不惜代价地优先追求生成质量，但扩散模型的未来在于"绿色人工智能"——使这些强大的模型变得可及且可持续。

通过对轻量级架构、求解器加速与知识蒸馏的详细综述，可以明显看出，在边缘设备上部署扩散模型不仅可行，而且正在快速推进。

展望未来，扩散模型与推理能力（大语言模型）及高效架构（状态空间模型）的融合，预示着构建综合性"世界模拟器"的发展轨迹。然而，实现这一愿景不仅需要在计算效率方面取得技术突破，还需要针对版权、偏见与安全等伦理挑战提出鲁棒的解决方案。

我们希望本综述能为旨在弥合高性能生成与实际资源受限部署之间差距的研究人员提供一份有价值的路线图。

原文链接：https://www.mdpi.com/2076-3417/16/5/2482

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.