多潜变量生成模型的正视图生成：互信息视角|top|深度思考模型

分享至

https://www.arxiv.org/pdf/2501.13718

多潜变量生成模型的正视图生成：互信息视角

A Mutual Information Perspective on Multiple Latent Variable Generative Models for Positive View Generation

摘要

在图像生成领域，多潜变量生成模型（Multiple Latent Variable Generative Models, MLVGMs）使用多个潜变量逐步塑造最终图像，从全局特征到更精细、局部的细节（例如 StyleGAN、NVAE），已成为多种应用的强大工具。然而，它们的生成机制以及潜变量的使用方式目前仅停留在经验观察层面。

在本研究中，我们提出了一种新框架，通过使用互信息（Mutual Information, MI）作为指导指标，系统地量化每个潜变量在 MLVGMs 中的影响。我们的分析揭示了某些潜变量未被充分利用的现象，并可为下游任务中 MLVGMs 的使用提供指导。

以此为基础，我们引入了一种用于自监督对比表示学习（Self-Supervised Contrastive Representation Learning, SSCRL）的合成数据生成方法。通过利用 MLVGMs 的分层和解耦变量，并结合前述分析结果，我们施加定制化的潜空间扰动，以生成多样化的正样本视图，而无需依赖真实数据。

此外，我们还提出了一种连续采样（Continuous Sampling, CS）策略，在 SSCRL 训练过程中由生成器动态创建新样本，从而大大提高了数据的多样性。

我们全面的实验表明，这些贡献是有效的：MLVGMs 生成的视图表现与基于真实数据生成的视图相当甚至更优。

本工作建立了一种理解与利用 MLVGMs 的原则性方法，推动了生成建模与自监督学习的发展。

1 引言

潜变量生成模型（Latent Variable Generative Models, LVGMs），包括变分自编码器（VAEs）（Kingma & Welling, 2014；Rezende et al., 2014）和生成对抗网络（GANs）（Goodfellow et al., 2014），是图像生成的基础方法。

给定一个随机变量 X∈X，表示像素空间中的高维图像，LVGMs 的目标是近似其潜在的数据分布 p(X)。为了实现这一目标，它们学习一个参数化生成函数 g(z;θ)=x，其中 Z∈Z表示一个从已知简单分布中采样的潜变量。

学习过程的一个关键目标是确保生成器具有连续性，使得邻近的潜变量点 z′和 z′′被映射为感知上相似的输出 x′和 x′′。这种对潜空间的正则化使 LVGMs 能够生成新颖内容，并有意义地在潜特征之间进行插值（Radford et al., 2016；Higgins et al., 2017）。

多年来，潜变量生成模型架构取得了显著进展（Vahdat & Kautz, 2020；Karras et al., 2019；2020；2021；Sauer et al., 2022），尤其是通过引入多个潜变量并逐步将其整合进网络结构中（见图 1a）。这种分层设计增强了对生成过程的控制能力，因为不同的潜变量影响输出图像的不同方面，从粗粒度的全局特征到更细粒度的局部特征（图 1b）。

因此，现代的多潜变量生成模型（MLVGMs）能够以更高的精度和更丰富的细节生成高分辨率图像。

这一看似简单的改进带来了许多潜在的应用优势。特别是，StyleGAN 架构（Karras et al., 2019）在图像编辑（Alaluf et al., 2022）、图像操控（Tov et al., 2021）和图像转换（Richardson et al., 2021）等方面表现出色。此外，最近的研究表明，MLVGMs 可以作为基础模型有效应用于诸如对抗净化（adversarial purification）等任务（Serez et al., 2024）。总体而言，这些发现突显了 MLVGMs 的多功能性，展示了它们不仅在创意和生成领域有广泛应用，还可以作为预训练模型服务于更广泛的用途。

然而，现有研究主要将 MLVGMs 的“由全局到局部”的行为作为一种经验工具加以利用，尚未深入探讨潜变量使用的机制。尽管这些方法有效，但并未探究在生成过程不同阶段引入的每个潜变量如何对图像的全局与局部特征进行分层细化。

为填补这一空白，我们提出了一种新方法，建立了每个潜空间（Z1,Z2,...,Zn）中的特征距离与共享图像空间 X中互信息（MI）变化之间的直接关系。我们的分析表明，通过改变单个潜变量（例如 Zi到 Z^i）来实现相同的 MI 变化，随着该变量在生成流程中引入得越晚，所需的平均扰动量（记作 μi，见第 3.1 节）会逐渐增大。这一观察与以下直觉一致：个体潜变量在整个生成层级中的影响力是递减的（见图 2）。

我们系统的评估提供了一个定量框架，超越了以往的经验观察，深入理解了每个潜变量在 MLVGMs 中的贡献。值得注意的是，我们还发现现代 MLVGMs 中后期的潜变量往往未被充分利用，这揭示了当前训练范式中的潜在低效问题。通过这些洞察，我们不仅能加深对 MLVGMs 的理解，还能指导它们在下游任务中的有效应用。

基于这一理解，我们进一步提出了 MLVGMs 在自监督对比表示学习（SSCRL）中的新应用。在 SSCRL 中，特征提取器或编码器 f(x;φ)（参数为 φ）通过对比正样本视图与负样本视图来学习数据表示。正样本视图是语义上相似的图像，鼓励其在潜空间中具有接近的表示；而负样本视图则是不相关的数据点，强制其在潜空间中远离彼此。

因此，我们建议利用 MLVGMs 中多个潜变量的不同影响，来操控特定特征并生成正样本视图。这种方法能够在不依赖真实数据的前提下训练 SSCRL 编码器，展示了 MLVGMs 作为预训练模型在表示学习中生成高质量合成图像的潜力。

SSCRL 的主要目标是通过创建有效的正样本视图，在学习到的表示中强制实现一组期望的不变性（Xiao 等，2020）。
图 3 将我们提出的方法与标准的像素空间增强方法以及单潜变量生成模型（LVGMs）在视图生成中的表现进行了比较。在典型方法中（图 3a），一组有限的手工设计变换（如颜色调整、裁剪或翻转）直接在像素空间中应用。

另一种方法是，在预训练 LVGM 的潜空间层级引入不变性（图 3b）。然而，在 LVGM 中，所有图像特征都纠缠在一个单一的潜空间中，这使得在不意外影响全局特征（例如将狗的品种从澳大利亚梗犬变为约克夏梗犬）的情况下，很难生成特定的不变性（例如改变毛皮图案）。

相比之下，MLVGM 天然地将全局特征和局部特征解耦，从而能够对特定属性进行精确控制。例如，使用 MLVGM 可以修改毛皮图案或颜色等属性，同时保留诸如狗的品种这样的全局特征。这是通过独立地对每个潜变量施加期望大小的扰动来实现的，如图 3c 所示。

使用生成模型来创建锚点视图（anchor）和正样本视图（positive）带来了一个重大挑战：相比于真实数据，使用合成数据训练时通常观察到分类准确率较低（Ravuri & Vinyals, 2019）。

先前的研究，如 Besnier 等（2020）和 Lampis 等（2023），指出生成图像缺乏多样性是导致这一问题的主要因素之一。为缓解这个问题，这些研究提出在训练前采样并存储大量合成图像以增加数据集的多样性。

相比之下，我们提出了一种称为连续采样（Continuous Sampling, CS）的新方法来解决这一限制。在 CS 方法中，新图像在编码器网络训练过程中“在线”生成，带来了三个关键优势：

无需存储大量合成数据，从而节省磁盘空间；
省去了数据加载步骤
—— 这通常是神经网络训练中的瓶颈，因为新的批次是直接生成到 GPU 内存中的；
最大化数据多样性
—— 通过确保每个批次都是新鲜采样的且不会被重复使用，避免了以往依赖固定大小合成数据集的方法所带来的局限性。

为评估我们的贡献，我们将提出的新量化算法应用于两个不同的多潜变量生成模型（MLVGM）：一个是在 ImageNet-1K（Deng 等，2009）上预训练的 BigBiGAN（Donahue & Simonyan，2019），另一个是在 LSUN Cars（Yu 等，2015）上预训练的 StyleGAN2（Karras 等，2020）。

随后，我们利用相同的 MLVGM，结合所提出的连续采样（Continuous Sampling, CS）策略 ，用于生成 SSCRL 所需的视图。具体而言，我们使用三种不同的自监督对比表示学习框架对特征提取器进行训练，分别是 SimCLR（Chen 等，2020）、SimSiam（Chen & He，2021）和 BYOL（Grill 等，2020）。通过在多个下游数据集上进行线性分类，并在 Pascal VOC（Everingham 等，2010）上进行目标检测任务，我们验证了所学到的表示的有效性。

实验结果表明，基于 MLVGM 的视图生成方法优于基于单潜变量生成模型（LVGM）的简单方法，并且在多数情况下表现优于或与使用真实数据训练的结果相当。

此外，我们还测量了在使用连续采样与标准数据加载方式下每个训练周期的耗时情况，结果表明 CS 是一种提升数据多样性的高效替代方案。

总之，我们的贡献主要包括以下三个方面：

我们提出了首个能够量化多潜变量生成模型（MLVGMs）中各个潜变量影响的方法
，该方法可以揭示未被充分利用的潜空间，为下游应用提供有用的分析工具。
我们利用 MLVGM 中从粗粒度到细粒度特征的自然解耦特性，生成适用于自监督对比表示学习（SSCRL）的正样本视图
，从而实现定制化的不变性增强，在性能上超越了以往基于真实数据和合成数据的方法。
我们引入了一种全新的“连续采样”机制
，该方法在 SSCRL 训练过程中动态生成新批次数据，不仅提高了数据多样性、减少了存储需求，同时保持了具有竞争力的训练效率。

2 相关工作

MLVGMs（多潜变量生成模型） 。使用多个潜变量的思想在生成模型的研究中已有较长历史，通常被视为对潜变量生成模型（LVGMs）的一种演进。

例如，变分自编码器（VAEs）（Kingma & Welling, 2014；Rezende 等, 2014）通过引入多个潜变量来增强近似分布的表现力，如 NVAE（Vahdat & Kautz, 2020）和 Ladder VAE（Child, 2020）所示；或者用于提升潜空间特征的解耦性，如 Li 等（2019）的工作。

同样地，生成对抗网络（GANs）（Goodfellow 等, 2014）也在诸如 LapGAN（Denton 等, 2015）、BigGANs（Brock 等, 2018；Donahue & Simonyan, 2019）以及 GigaGAN（Kang 等, 2023）等模型中采纳了这一概念。

归一化流（Normalizing Flows）（Dinh 等, 2015；Rezende & Mohamed, 2015）方面的进展也引入了多个潜变量的使用，例如 Hu 等（2022）提出了受物理学启发的架构以实现这一目标。

在如此丰富的研究背景下，MLVGMs 已经被广泛应用于多种任务中。其中特别相关的是 StyleGAN 系列（Karras 等, 2019；2020；2021；Sauer 等, 2022），它已被广泛应用于图像编辑与操控任务（Tov 等, 2021；Richardson 等, 2021；Alaluf 等, 2022；Pehlivan 等, 2023）。

更近期的研究还将 MLVGMs 作为基础模型，应用于非生成类下游任务中，例如对抗攻击的净化（purification）（Serez 等, 2024）。

受到这些不断增长的研究成果的启发，在本工作中我们着手解决一个关键问题：如何定量评估 MLVGM 中各个潜变量的影响 。为此，我们提出了一种基于信息论的新方法，能够揭示未被充分利用的潜变量，并为后续应用提供有力工具。

此外，我们还以前所未有的方式使用 MLVGMs，即用于生成自监督对比表示学习（SSCRL）中的正样本视图 。

SSCRL 视图生成 。自监督对比表示学习（SSCRL）（Hadsell 等, 2006）旨在不依赖标签数据的情况下学习有意义的潜表示，其核心在于设计具有信息量的正样本视图（Tian 等, 2020；Xiao 等, 2020）。

早期的方法，如 Bachman 等（2019）、Misra & Maaten（2020）和 Caron 等（2020），主要关注于设计预训练任务（pretext tasks），比如将图像的全局与局部部分进行匹配以生成多个视图。

随后，SimCLR（Chen 等, 2020）作为该领域的一项基础性方法，引入了手动设计的变换操作，包括翻转、裁剪和颜色扰动等。

近年来的研究进一步探索了更高级的技术，例如以对抗方式学习视图（Tamkin 等, 2020；Shi 等, 2022），或通过将锚点图像投影到预训练生成器的潜空间中生成视图（Yang 等, 2022；Astolfi 等, 2023；Kim 等, 2023；Wu 等, 2023；Han 等, 2023；Zeng 等, 2024）。

这些方法的共同特点是都依赖于真实数据集，并以原始图像作为起点。相比之下，我们的方法完全基于合成数据生成视图，使用的是 MLVGMs。

因此，我们的方法是对现有技术的一种补充：像 SimCLR 所引入的像素空间变换（图 3a 中记作 Tx(x)）可以无缝应用于 MLVGMs 生成的视图上，从而可能产生更具信息量的表示。

我们在实验部分测试了这一假设，将像素空间的增强方法与我们在潜空间生成的视图相结合。

沿着我们的研究思路进一步拓展，Jahanian 等（2021）和 Li 等（2022）提出通过在预训练 LVGM 的潜空间中采样邻近点来生成全合成视图（见图 3b）。

然而，这些方法的主要局限性在于所有图像特征都纠缠在一个单一的潜空间中，使得生成有效的正样本视图变得困难。

而通过利用 MLVGMs 的多个潜空间，我们的方法将粗粒度的全局信息与细粒度的局部细节解耦，大大简化了有效视图的定义，并提升了所学表示的质量（见图 3c）。

最后，最近的一些研究尝试在文本到图像（text-to-image）的设置下生成合成视图（Tian 等，2024a；b）。尽管这一方向具有很大潜力，尤其是与 MLVGMs 结合使用时，但其在我们框架中的应用仍有限。这主要是由于目前缺乏公开可用的文本到图像 MLVGM 模型的代码和预训练模型，例如 GigaGAN（Kang 等，2023）。

基于生成数据的训练 。现代生成模型（如 Rombach 等，2022；Chang 等，2023）的出色表现，为使用合成数据训练分类器网络开辟了新的可能性。一种常见的策略是用生成的样本扩充真实数据集，这种方法已被证明有助于提升分类性能（He 等，2022；Bansal & Grover，2023；Azizi 等，2023）。

另一种更具挑战性的尝试则是完全使用合成数据来训练分类器，利用先进的文本到图像生成模型获取高质量的数据集（Sariyildiz 等，2023；Singh 等，2024）。然而，这些方法面临的主要挑战是生成数据的多样性有限，这被认为是导致在真实数据与合成数据上训练的分类器之间存在性能差距的关键因素之一（Ravuri & Vinyals，2019）。

近期的研究（Fan 等，2024）表明，增加合成训练集的规模可以缩小这一准确率差距，但并不能完全消除它。然而，生成大规模数据集也带来了自身的挑战，特别是磁盘空间占用增加和数据管理开销上升的问题。现有方法（Besnier 等，2020；Lampis 等，2023）通过在每个训练周期部分更新合成数据，或每 N 个周期重新生成整个数据集来缓解这些问题。

相比之下，我们利用快速采样的模型（如 GANs）在训练过程中直接生成数据。这种方法被称为连续采样（Continuous Sampling, CS） ，它无需磁盘存储、避免了数据加载的瓶颈，并保持了有竞争力的训练时间。更重要的是，CS 在每一个训练步骤都能提供全新的图像流，从而最大化数据多样性，有效克服了先前技术的局限性。

3方法论

3.1 测量潜变量在 MLVGMs 中的影响

多潜变量生成模型（MLVGMs）在多种应用中取得的最新成功（Tov 等，2021；Richardson 等，2021；Alaluf 等，2022；Pehlivan 等，2023；Serez 等，2024），凸显了对每个潜变量在生成过程中贡献进行系统量化方法的需求。

开发这样一种方法将加深我们对 MLVGMs 分层机制的理解，识别出未被充分利用或过度使用的潜变量编码，并为优化其在下游任务中的应用提供有价值的见解。为了形式化我们的方法，我们首先定义 MLVGM 的概念：

定义 1（多潜变量生成模型，MLVGM）一个多潜变量生成模型 （Multiple Latent Variable Generative Model），记作是一个由参数 θ所定义的深度神经网络。它通过在网络的不同且逐步推进的层次上建模 n个随机潜变量，来生成新的数据样本 x，满足如下条件：

其中，x和 x′分别表示锚点图像（anchor）和正样本图像（positive），sim表示余弦相似度运算符，f是由参数 ϕ定义的编码器函数，τ是一个温度参数（temperature parameter），K是一个 mini-batch 中样本的数量（包括正样本和负样本）。

如 Oord 等（2018）及 Poole 等（2019）所示，InfoNCE 为所学习表示之间的互信息（MI）提供了一个下界估计：

在典型的 SSCRL 设置中（例如 SimCLR（Chen 等，2020）），随机变量 X和 X′是通过对同一张基础图像应用确定性的增强操作（如裁剪、翻转或颜色调整）生成的。这些变换导致一个固定的互信息值 I(X;X′)。

由于 f(⋅;ϕ)是一个确定性函数，根据数据处理不等式（见附录 A），这个固定的项 I(X;X′)成为公式（2）的一个上界：

3.2 正样本视图生成策略

如图 3c 所示，我们通过对一个或多个潜空间施加扰动来生成正样本视图对，每个扰动的幅度经过适当选择。这一选择由上述的潜变量影响估计过程进行指导。

然而，仅靠互信息（MI）变化（或其他任何单一指标）无法建立一种系统化的方法来确定最优的正样本视图。这一限制源于 SSCRL 问题本身的复杂性，它依赖于具体的下游任务以及数据本身的特性，这一点我们将在下文中进一步阐述。

背景。自监督对比表示学习（SSCRL）的问题与设计有效的正样本视图密切相关，这有助于生成有意义的表示。在 Tian 等（2020）中提出了以下原则：

原则指出 ，最优视图应在保留与下游任务相关所有信息（由某个标签 Y 表达）的前提下，尽可能最小化其互信息（MI）。然而，在 SSCRL 中，标签是不可用的，且下游任务未知。因此，设计最优视图变得不可行。

结果是，正样本视图生成方法侧重于获得在各种任务中具有广泛适用性的视图，依赖启发式方法或定性评估，而非系统化的框架。

为了说明这一现象，我们分析了三种突出的正样本视图生成方法。

例如，SimCLR （Chen 等，2020）定义了一组广泛的数据增强操作 Tx，这些操作应用于像素空间。具体变换及其组合是通过对 ImageNet-1K 分类任务进行消融实验所选定的，从而违反了“下游任务未知”这一假设。

在潜变量生成模型（LVGM）的背景下，有两种通过扰动单一潜空间来生成视图的方法尤为突出：

扰动幅度的选择

在 MLVGMs 的背景下，我们分别延续了 Jahanian 等（2021）和 Li 等（2022）提出的扰动策略，称为随机扰动 和学习扰动 。事实上，我们的实验结果表明，扰动策略对最终学到的表示影响有限。相反，扰动的幅度起到了更为关键的作用。

根据我们提出算法的估计，MLVGMs 在这方面提供了更强的控制能力，使我们能够根据每个潜空间对生成过程的贡献来定制扰动幅度。

然而，与之前的方法类似，在 n个潜空间之间定义一种完全系统化的幅度选择方法仍然具有挑战性。虽然 MI 有助于量化每个潜变量的影响，但它无法提供关于生成视图语义内容的任何信息。

为了解决这一局限性，我们遵循 Li 等（2022）的做法，在过程中引入定性评估 ，以确保 SSCRL 假设的完整性。

具体而言，我们为每一个考虑的 MLVGM 生成多个示例，通过使用相同的潜向量 w扰动每个潜变量（或潜变量组，对于 StyleGAN2 而言），如图 4 所示。

对于在大量类别上训练的 BigBiGAN 来说，第一个潜变量在生成过程中具有显著的语义影响，而后续变量则影响更细粒度的细节。

相比之下，StyleGAN2 操作的是车辆这一细粒度领域，表现出更均衡的划分：

第一组潜变量控制大尺度变换，如旋转和缩放；
第二组调整主体与背景的构图；
最后几组主要负责颜色变化。

综上所述，在选择每个扰动幅度时，我们既考虑了这些定性观察结果 ，也参考了在 MI 变化方面测得的定量结果 。

3.3 连续采样（Continuous Sampling）

利用生成模型同时采样锚点视图和正样本视图可能会降低最终性能（Ravuri & Vinyals, 2019），这主要由于合成图像的多样性低于真实数据。为解决这一局限，先前的方法（Besnier 等, 2020；Lampis 等, 2023；Fan 等, 2024）提出通过相对于参考数据集规模采样更多图像的方式来提高多样性，确保在不同训练周期之间不重复使用相同批次的数据。

然而，主流做法是离线（offline）采样这个大规模的合成数据集（即在训练前完成采样），这种方式需要大量的存储空间以及额外的预处理时间。

在本研究中，我们通过采用连续采样（Continuous Sampling）策略 避免了上述缺点。该策略利用快速生成模型（如 GANs）在 SSCRL 编码器训练过程中动态生成新图像 。

具体而言，我们将预训练的生成器加载到与编码器相同的 GPU 设备上，并用实时生成推理步骤 替代传统的数据加载步骤。这一过程直接在目标设备上输出新的合成图像批次，消除了对预先生成数据集的依赖。

由于预训练的 GAN 仅以推理模式运行，因此额外的内存开销非常小且可控，使我们能够维持足够大的批量大小，以支持有效的 SSCRL 训练。

通过这种连续采样方法，每个训练周期中的训练步数与基于真实数据的训练保持一致。然而，在整个训练过程中所见到的唯一图像数量显著增加 ，因为有效的训练集规模扩大了 n 个训练周期倍数 。

此外，该策略无需预先生成和存储大规模数据集，也避免了传统数据加载的瓶颈，从而使得训练时间等于甚至快于 传统方法（详见第 4 节）。关于该方法的详细实现，我们在附录 C 中提供了连续采样过程的伪代码。

4 实验

在本节中，我们展示了使用蒙特卡洛方法对两个 MLVGMs（BigBiGAN 和 StyleGAN2）中潜变量影响进行量化分析的实验结果。随后，我们利用这些 MLVGMs 作为视图生成器，在不同 SSCRL 框架下训练编码器，并采用我们提出的连续采样 （Continuous Sampling）策略。

为评估我们方法的有效性，我们将其实验结果与两种现有的用于 LVGM 的潜空间扰动技术进行了对比，分别是 Jahanian 等（2021）和 Li 等（2022）提出的方法。此外，我们还引入了 SimCLR 作为附加基线方法——这是一种广泛应用于真实数据上的视图生成方法，并研究了其与在 MLVGM 生成视图基础上进一步应用变换操作的结合效果。

此外，在附录 F 中，我们还将我们的方法扩展到 GAN 以外的其他生成模型上，通过在 CIFAR-10 数据集（Krizhevsky 等，2009）上训练 NVAE（Vahdat & Kautz, 2020），验证了该方法的普适性。

最后，我们通过将连续采样的运行效率与标准数据加载流程进行比较，评估了该策略的整体训练效率，证明了它能够在不显著增加计算开销的前提下有效提升数据多样性。

4.1 潜变量的影响

根据第 3.1 节所述的流程，我们分别训练了 n 个独立的扰动函数 Tzi（对于 BigBiGan，n = 6 个潜层；对于 StyleGAN2，n = 4 个潜组）。优化目标为公式（5）所示。

如附录 B 所示，在初始训练迭代中，InfoNCE 损失迅速下降至接近零。随着扰动函数 Tzi学习施加更大的扰动，InfoNCE 损失随之上升。当达到 γ ≈ 1 时停止训练，表示像素空间中的 MI 变化基本一致。

对于每一个潜层或潜组，我们在大量具有统计意义的潜变量点 z上计算了学习得到的扰动 wz=p(z;ϕ)，从而估计出每个扰动分布 qi(∣w∣)或 qg(∣w∣)的均值（μi 或 μg）和标准差（σi 或 σg）。表 1 展示了这些结果以及训练过程中最终达到的 InfoNCE 损失值。

从表 1a（BigBiGan 的蒙特卡洛结果）可以看出，为了获得相近的 InfoNCE 损失，所需的平均扰动（估计均值 μi）随着潜层数量从 i = 1 到 i = 5 逐步增加。然而，在 i = 6 层时，即使施加较大的平均扰动，InfoNCE 损失也没有明显上升，这表明该潜层在生成过程中未被充分利用。相反，第一层的 μi 值非常低，暗示其可能被过度使用。这些观察结果可能揭示了 BigBiGan 架构或训练过程中的潜在低效问题。

StyleGAN2 的结果也呈现出类似趋势（见表 1b），随着潜组从 g = 1−4 过渡到 g = 13−16，需要更大的扰动幅度（μg）才能达到相似的 InfoNCE 损失值。值得注意的是，最后一个潜组表现出退化行为：即使施加较大扰动，也无法显著改变生成视图之间的互信息。

总体而言，这些结果提供了明确的定量证据，表明 MLVGM 中“由全局到局部”的动态特性是成立的：早期潜层或潜组对生成过程影响更强，而后期潜层主要影响图像的细粒度细节。据我们所知，这是首次对 MLVGM 中此类动态进行实证展示。

4.2 视图生成

我们通过训练多个 ResNet-50 编码器来测试由 MLVGMs 生成的视图，使用的框架包括 SimSiam（Chen & He, 2021）、SimCLR（Chen 等, 2020）（在 BigBiGan 上应用，参考先前工作 Li 等, 2022）以及 BYOL（Grill 等, 2020）（在 StyleGAN2 上应用）。

我们从截断正态分布中采样潜空间锚点（latent anchors）：

正样本视图通过“随机”或“学习”策略分别在每一层潜空间上生成。

根据图 3 的视图可视化结果以及表 1 中报告的蒙特卡洛（MC）实验结果，我们对 BigBiGan 的第一个潜层保持不变，并对 StyleGAN2 的前两个潜组仅施加微小扰动，以避免影响敏感的语义内容。

相反地，我们增强了其余潜层的扰动幅度，因为这些层主要影响图像的局部细节和颜色等更细粒度的特征。

具体扰动幅度以及其他超参数详见附录 D。

编码器所学表示能力的对比

我们将获得的编码器的表示能力与以下几种方法进行了比较：

在不施加潜变量扰动（即无 Tz ）的情况下使用合成数据进行训练；
使用单一潜空间的随机扰动和学习扰动作为基线；
使用真实数据训练的结果作为上限（ImageNet-1K 使用 128 万张图像，LSUN Cars 使用 89.3 万张图像）。

在所有这些实验中，我们都应用了 SimCLR 的像素空间增强操作 Tx，包括随机裁剪、水平翻转、灰度化以及颜色抖动。由于我们通过 MLVGMs 生成的视图已经能够产生逼真的颜色变化（见附录 H），因此我们在正样本上部分应用这些 Tx变换，去掉了灰度化和颜色抖动步骤。

为了更深入地研究这一方面，在附录 E 中我们进一步测试了多种 Tx与我们方法结合的不同组合方式。

BigBiGAN 视图的评估

BigBiGAN 生成的视图在 ImageNet-1K 上进行了线性分类任务评估，并针对 SimSiam 方法在七个迁移数据集上进行了测试，分别是：

Birdsnap（Berg 等, 2014）
Caltech101（Fei-Fei 等, 2004）
Cifar100（Krizhevsky 等, 2009）
DTD（Cimpoi 等, 2014）
Flowers102（Nilsback & Zisserman, 2008）
Food101（Bossard 等, 2014）
Pets（Parkhi 等, 2012）

此外，我们还使用 detectron2（Wu 等, 2019）训练了一个基于 R50-C4 主干网络的 Faster-RCNN，在 Pascal VOC（Everingham 等, 2010）目标检测任务上计算平均精度（Average Precision）。

结果如表 2 所示，其中包含迁移任务的平均准确率（完整实验结果见附录 G）。

对于 StyleGan2，我们在 Stanford Cars（Krause 等, 2013）和 FGCV Aircraft 2013b（Maji 等, 2013）数据集上计算了线性分类准确率，结果见表 3。

实验结果分析

在所有实验中，MLVGMs 生成的视图均优于对应的基线方法，证明其生成质量具有明显优势。

在对比“随机扰动”与“学习扰动”方法时，我们发现：多潜层（ML）随机扰动实验 常常能接近甚至追平学习扰动的效果。这表明，不同层级上的扰动设计比扰动技术本身更为重要。

与使用真实数据训练相比，ML 视图通常表现更好或相当，仅在 ImageNet-1K 上的 SimSiam 编码器效果略差。然而，在其他下游任务和数据集中，这种差距缩小甚至消失，说明我们学到的表示具有良好的泛化能力——这也是 SSCRL 的主要目标。

特别值得注意的是，在 Stanford Cars 数据集上，由 ML 随机视图带来的性能提升非常显著。而在迁移到 FGCV Aircraft 数据集时，所有方法表现相近，其中使用 SimSiam 的 ML 方法略有提升，BYOL 在真实数据上表现良好。这可能是由于两个数据集之间存在较大的领域差异（汽车 vs 飞机），使得所有表示方法都面临较强的泛化挑战。

4.3 连续采样（Continuous Sampling）

我们从截断正态分布中采样潜空间锚点（latent anchors）：

BigBiGan 使用 Nt(0.0,1.0,2.0)
StyleGAN2 使用 Nt(0.0,1.0,0.9)

正样本视图通过“随机”或“学习”扰动策略生成，并分别应用于每一层潜空间。

相反地，我们增强了其余潜层的扰动幅度，因为这些层主要影响图像的局部细节和颜色等更细粒度的特征。

具体的扰动幅度以及其他超参数详见附录 D。

我们对所获得的编码器的表示能力进行了对比评估，比较的方法包括：

使用 无潜变量扰动 （即不使用 Tz ）的合成数据进行训练；
使用 单个潜空间 的随机扰动和学习扰动作为基线；
使用 真实数据 训练的结果作为上限（ImageNet-1K 使用 128 万张图像，LSUN Cars 使用 893,000 张图像）。

在所有这些实验中，我们都应用了 SimCLR 的像素空间增强操作 Tx，包括：

随机裁剪（random cropping）
水平翻转（horizontal flipping）
灰度化（grayscale）
颜色抖动（color jittering）

由于我们通过 MLVGMs 生成的视图已经能够产生逼真的颜色变化（详见附录 H），因此我们在正样本上部分应用 这些 Tx变换，去掉了灰度化和颜色抖动步骤。

为了更深入地研究这一方面，在附录 E 中我们进一步测试了多种 Tx与我们方法结合的不同组合方式。

BigBiGAN 视图的评估

BigBiGAN 生成的视图在 ImageNet-1K 上进行了线性分类任务评估，并针对 SimSiam 方法在七个迁移数据集上进行了测试，分别是：

Birdsnap（Berg et al., 2014）
Caltech101（Fei-Fei et al., 2004）
CIFAR100（Krizhevsky et al., 2009）
DTD（Cimpoi et al., 2014）
Flowers102（Nilsback & Zisserman, 2008）
Food101（Bossard et al., 2014）
Pets（Parkhi et al., 2012）

此外，我们还使用 detectron2（Wu et al., 2019）在 Pascal VOC（Everingham et al., 2010）目标检测任务上计算平均精度（Average Precision），训练了一个基于 R50-C4 主干网络的 Faster R-CNN。

结果如表 2 所示，其中包含迁移任务的平均准确率（完整实验结果见附录 G）。

对于 StyleGAN2，我们在 Stanford Cars（Krause et al., 2013）和 FGCV Aircraft 2013b（Maji et al., 2013）数据集上计算了线性分类准确率，结果见表 3。

实验结果分析

在所有实验中，MLVGMs 生成的视图均优于对应的基线方法，证明其生成质量具有明显优势。

4.3 连续采样（Continuous Sampling）

除了 SimCLR 沿用了之前的训练设置外，我们所有的编码器都使用了连续采样 方法进行训练。

此外，为了比较整体训练速度与传统数据加载方式的差异，我们在 4 块 NVIDIA A100-SXM4-40GB GPU 上，使用 SimCLR 对 ResNet-18 模型在 ImageNet-100 数据集上进行了 20 轮训练，批量大小分别为：32 × 4、64 × 4、128 × 4 和 256 × 4。

实验中对比了以下三种数据加载方式：

标准的 PyTorch（Paszke 等, 2019）数据加载器
高效的数据加载器 FFCV（Leclerc 等, 2023）
使用 BigBiGAN 生成器进行连续采样

以上三种方式均使用了 8 个工作进程（workers）。

图 5 展示了我们的研究结果，包括：

每轮训练所需的平均 GPU 秒数
碳排放速率（CO₂ emissions rate）
基于 CodeCarbon（Schmidt 等, 2021）估算的总碳排放量

实验表明，连续采样方法明显快于传统的 PyTorch 数据加载器 ，仅比 FFCV 稍慢一点。

在碳排放方面，由于 BigBiGAN 在训练过程中对 GPU 的高强度使用，其能耗略高于其他方法。然而，在总的 CO₂ 排放量方面，它仍与传统 PyTorch 加载方式相当。

结论：随着现代图像生成模型（尤其是快速采样的 GANs）在效率和精度上的不断提升，连续采样 作为一种新兴技术，已成为传统数据加载方法的一个极具吸引力的替代方案。它不仅能够实现图像的高度多样性，还能保持与传统方法相当的训练时间。

5 讨论与结论

在本文中，我们探讨了多潜空间（multiple latent spaces）在 MLVGMs 图像生成中的作用，并通过衡量其在共享像素空间中的互信息（MI）变化，对它们的影响进行了量化分析。

这一方法超越了以往的经验性观察，提供了对生成过程的更深入理解，揭示了被过度使用或未被充分利用的潜变量，并为 MLVGMs 在下游任务中的应用提供了指导。

此外，我们将 MLVGMs 的应用扩展到了一个新的下游任务：用于自监督对比表示学习 （SSCRL）的正样本视图生成。实验表明，我们的方法在性能上优于以往基于单变量模型的方法，并能够与使用真实数据训练的效果相媲美。

我们还提出了连续采样 （Continuous Sampling）策略，使生成器可以直接作为数据源，在不显著增加存储需求的前提下生成大规模训练集，并实现了与传统数据加载方式相当甚至更快的训练速度。

局限性与影响

本研究将 MLVGMs 展示为一种独特的模型类别，提供了评估潜变量影响的新工具。

具体而言，我们提出的蒙特卡洛量化方法支持了关于 MLVGMs “由全局到局部” 特性的已有经验观察，同时实现了更为深入和定量的分析。

结果表明，当前基于 GAN 的 MLVGMs（如 BigGAN 和 StyleGAN）在生成过程中存在某些潜变量被过度或未被充分利用的现象，这为未来架构优化提供了基础。

在视图生成方面，我们的方法已被证明具有优越性，超越了以往应用于单变量模型的扰动策略。

然而，它并未解决 SSCRL 的一个内在挑战：视图的设计仍依赖于“合理”的阈值设定，因为“最优”正样本视图实际上取决于具体的下游任务。

从生成模型作为数据源的角度来看，它们为现实数据集中的一些问题提供了潜在解决方案，例如隐私问题和使用权问题（Kaissis 等, 2020；DuMont Schütte 等, 2021）。

然而，由于生成模型可能继承原始数据中的偏见（Asim 等, 2020），因此可以考虑采用缓解偏见的技术（Tan 等, 2020；Teo 等, 2023）。

A 信息论

互信息（Mutual Information, MI） 。
互信息衡量的是一个随机变量中包含的关于另一个随机变量的信息量。更具体地说，它衡量的是由于已知另一个随机变量而使得该随机变量的不确定性减少的程度。

C 连续采样

我们在算法1中详细描述了锚点和正样本视图的批量生成过程。正如主文中所解释的那样，该算法要求将预训练的生成模型（在我们的案例中是MLVGM）加载到与待训练编码器模型相同的GPU设备上。这样可以确保生成的数据批次已经位于正确的设备上，无需额外的数据加载步骤。

D 视图生成训练细节

本工作的代码是使用两个流行的 Python 深度学习库开发的：pytorch（Paszke 等人，2019）和 pytorch lightning（Falcon & The PyTorch Lightning team, 2019）。BigBiGan 生成器的代码和权重在（Melas-Kyriazi 等人，2022）中被引入，并可在（Melas-Kyriazi, 2021）处获取。对于 StyleGan2，官方的 GitHub 仓库已公开，具体来说代码见（Karras & Hellsten, 2021），权重见（Karras & Hellsten, 2019）。以下是我们实现中使用的训练相关细节。

所有用于 BigBiGan 评估的线性分类器 都使用批量大小为 256、SGD 优化器、初始学习率为 30.0 并结合余弦衰减策略，训练 60 个轮次。StyleGan 的分类器采用相同设置，但训练 100 个轮次。对于 Pascal VOC 检测任务，R50-C4 主干网络在 trainval07+12 数据集上微调 24000 次迭代，并在 test07 上进行评估。

数据与预处理 。我们所有的实验都使用 FFCV（Leclerc 等人，2023）库进行高效的数据存储与快速加载。ImageNet-1K 图像以 256×256分辨率存储，在加载时缩放至 128×128，以匹配 BigBiGan 的输出分辨率。关于 LSUN Cars / StyleGan2 数据集，下载 893K 张训练图像的说明可以在（Karras & Hellsten, 2021）找到。这些图像分辨率为 512×384，我们在存储时将其填充为 512×512（黑色填充），以匹配 StyleGan2 的输出。在加载时，先对图像进行中心裁剪至 384×384去除填充区域，然后缩放至 128×128。生成图像也采用相同的预处理流程。

数据增强与预处理管道 依赖于 kornia 库（Riba 等人，2020）。在迁移分类学习过程中，训练阶段应用了随机缩放裁剪和随机水平翻转，验证/测试阶段则使用中心裁剪。在所有实验中，图像均使用 ImageNet 的均值和标准差进行归一化，最终尺寸（裁剪后）为 112×112。

硬件资源与可复现性 。大多数实验使用了 4 块 NVIDIA A100-SXM4-40GB GPU 运行，但 StyleGan2 训练的编码器由于其比 BigBiGan 更多的参数，需要 8 块同型号的 GPU。其他较小的实验，例如扰动函数的训练，仅需 1 块 GPU。为了确保结果的可复现性，我们始终固定了随机种子。对于连续采样（Continuous Sampling），种子在每次迭代中都会改变，并且与设备有关。这种做法避免了训练过程中重复生成相同批次，同时保证了不同运行之间的一致性。

Z 空间与 W 空间的扰动 。在 BigBiGan 实验中，如主文第 3 节所述，潜空间中的扰动是通过对所选潜向量加上噪声向量的方式来实现的。

E 消融实验

先前的研究（Jahanian 等人，2021；Li 等人，2022）表明，在生成的视图基础上应用像素空间的 SimCLR 数据增强（如 Tx），随机和学习得到的基线方法仍然可以从中受益。具体来说，他们在 ImageNet-100 和 LSUN Cars 的子集上进行了消融实验，训练编码器时测试了不同组合的像素空间增强操作：裁剪与水平翻转、灰度化与颜色抖动、不使用前述操作或全部使用。当我们使用 ML 扰动生成视图时，我们定性地观察到生成的视图可以呈现出多种逼真的颜色（例如主文图4所示）。因此，在实验分析中，我们仅使用裁剪和翻转作为像素空间的数据增强方式。

为了验证我们的假设，在图7和图8中我们报告了与之前工作相同的实验结果，但这次是在我们的 ML 视图上进行的。在所有实验中，去除颜色抖动和灰度化操作都提升了最终线性评估的 Top-1 准确率。这些观察结果实证地确认了 ML 视图不需要额外的颜色变换。

F NVAE 实验

在主文中，实验是在两种当前最先进的 GAN 方法上进行的。为了展示所提出方法的通用性，我们进行了一个额外的消融研究：我们在 Cifar10 数据集（Krizhevsky 等人，2009）上训练了一个具有 3 个潜尺度的小型 NVAE（Vahdat & Kautz, 2020）模型（图像分辨率为 32×32）。为了测试其作为数据源的能力，我们复现了表2中的实验设置（随机情况），采用了 SimSiam 框架和连续采样方法。

表4展示了在 Cifar10 评估集上获得的最终 Top-1 和 Top-5 准确率，其中用于采样锚点的参数是在 NVAE 训练过程中学习得到的：

(a)：考虑了三种不同扰动强度的基线方法；(b)：前两个潜变量被固定，只对第 2 个潜变量进行两次采样（锚点和正样本）。

由多个潜变量提供的细粒度控制，在使用 NVAE 时也比单一潜变量基线取得了更好的性能，这进一步证明了所提出方法的通用性。

G 迁移学习

表5列出了在基于 BigBiGan / ImageNet-1K 的 SimSiam 预训练编码器之上进行的所有迁移分类学习实验的结果。这些结果对应于表2的最后一列，其中仅报告了7个目标数据集上的平均 Top-1 准确率。为了更好地比较编码器的泛化能力，每个实验运行了5次不同的随机种子，并取其平均 Top-1 准确率。

在每个数据集上，结果使用可用的测试集进行计算，若无测试集则使用验证集，并保持原始的数据划分方式。对于 DTD （Cimpoi 等人，2014），我们采用了所建议划分中的第一个；而对于 Caltech101 （Fei-Fei 等人，2004），我们选择了每类30张训练图像的随机划分，其余用于测试。在这种情况下，所有背景图像（干扰项）都被移除。

H 定性可视化

图9和图10分别展示了使用 BigBiGan 和 StyleGan2 生成的一些视图示例。
在每张图中，行表示不同的视图，列表示（从左到右）：初始锚点图像、随机基线与学习基线、以及我们方法生成的视图。所有示例都使用相同的超参数生成，而这些超参数也用于对比学习编码器的训练。为了便于不同方法之间的比较，在生成的图像上未再额外应用任何像素空间的数据增强（Tx）。如两图所示，我们生成的视图可以产生多种变换，包括逼真的颜色变化，这使得我们可以省略颜色抖动（color jittering）这一 Tx 增强操作。

原文链接：https://www.arxiv.org/pdf/2501.13718

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.