Sum of Squares Circuits
平方和概率电路
https://arxiv.org/pdf/2408.11778
https://github.com/april-tools/sos-npcs
摘要
设计能够支持精确且高效推理 的表达能力强的生成模型 ,是概率机器学习中的一个核心问题。概率电路 (Probabilistic Circuits, PCs)为分析“可计算性 vs 表达能力”这一权衡提供了一个理论框架。
最近,一种被称为平方概率电路 (squared PCs)的模型通过引入负参数来表示减法混合成分,在保持可计算性的前提下,其表达能力可以比仅使用正参数的单调概率电路(monotonic PCs)高出指数级。在本文中,我们对这些模型之间的表达能力关系进行了更精确的理论刻画。
首先,我们证明了平方电路 有时可能不如单调电路表达能力强 。其次,我们提出了一类新的概率电路——平方和电路(sum of squares PCs),它在表达能力上可以比平方电路和单调电路都高出指数级。
围绕“平方和电路”,我们建立了一个表达能力层级结构 ,从而统一并区分了包括 Born Machines、PSD 模型等在内的多种近期提出的可计算概率模型,并借助复数参数进一步扩展了该体系。最后,我们在实验中展示了平方和电路在分布估计任务中的有效性,表明它们在张量化后可以扩展到现实世界的数据集。
引言
我们设计并学习具有强表达能力的概率模型,以紧凑地表示我们认为生成所处理数据的复杂分布。同时,为了能有效地对该分布进行推理,一个关键要求是:我们可以精确而高效地进行推理 ,即具备可计算性 (tractability)。这一点在需要可靠推理的安全关键型实际应用中尤为重要(Ahmed 等, 2022;Marconato 等, 2024b,a)。
在概率电路 (Probabilistic Circuits, PCs)框架内,可以对“可计算性与表达能力”的权衡进行量化分析(Vergari, Di Mauro, Van den Broeck, 2019)。概率电路是一种深度计算图,它泛化了许多 ML 和 AI 中的可计算表示形式(Choi, Vergari, Van den Broeck, 2020)。
例如,在 PC 框架下,要保证某些推理任务(如边缘推理、最大后验推理或散度计算)的可计算性,可以直接转化为确保这些计算图满足特定的结构属性(Vergari 等, 2021)。另一方面,表达能力可以从理论上通过电路规模(以及因此的学习参数数量)来刻画(Shpilka 和 Yehudayoff, 2010)。
此外,如果我们能在多项式时间内将一类模型归约到另一类模型,则可以认为它们具有相同的表达能力。反之,若要从表达能力上区分两类模型,就需要证明某类函数可以被某一类电路精确表示,而除非该类电路规模呈指数增长,否则不能由另一类电路表示(de Colnet 和 Mengel, 2021)。
为了确保电路输出始终非负——这是建模有效密度的最低要求——传统上 PC 只使用非负参数 进行建模和训练,即它们是单调的 (Shpilka 和 Yehudayoff, 2010)。这种主流电路类别只能表示将各分量密度相加的混合模型。
为了弥补这一不足,Loconte 等(2024a)引入了一类特殊的非单调 PC ,即允许负参数的电路,从而实现对混合成分的减法操作。电路输出的非负性通过对电路输出取平方 来保障(Vergari 等, 2021)。
Loconte 等(2024a)证明了单调电路与非单调平方电路之间存在指数级的表达能力差异,说明后者可以比前者更具表达能力。然而,一个开放问题是:平方电路能否紧凑地表示所有由单调电路紧凑编码的函数?
在本文中,我们给出了否定答案,通过证明反向方向上的另一个分离结果:某些可以用多项式大小的单调电路 表示的分布,必须用指数大小的平方电路 才能表示。为了克服这一限制,我们引入了一个更大的模型类:平方和电路 (sum of squares PCs),它在表达能力上可以超越两者。
虽然平方和形式在建模非负多项式方面已有广泛应用(Marshall, 2008),但关于它们何时以及如何导致紧凑的电路表示仍不明确。我们通过构建围绕平方电路及其平方和的精细表达能力层级,填补了这一空白,如图 1 所示。
我们不仅准确刻画了其他可计算模型(如 PSD 模型(Rudi 和 Ciliberto, 2021)、Born Machines(Glasser 等, 2019)、平方神经族(Tsuchida, Ong, Sejdinovic, 2023)和 Inception PCs(Wang 和 Van den Broeck, 2024))属于这一新型非单调电路类的方式,还通过分析某些 PC 无法被表示为平方和的情况,进一步拓展了这些新边界。
最后,我们解决了关于复数参数对模型表达能力的作用 这一问题,证明了带有复数参数的平方电路本质上就是平方和电路。
我们的理论贡献总结见图 1。
我们首先证明了单调电路在表达能力上可以比平方电路高出指数级(第 3 节)。接着,我们引入了平方和电路类,并通过两个构造方法证明其表达能力可以比单调电路和平方电路都高出指数级(第 4 节)。在第 5 节中,我们将其与其它可计算形式系统联系起来,并在第 6 节中进一步扩展。最后,在第 7 节中,我们通过实验证明了平方和电路在分布估计中的表达能力提升,并展示其在张量化后能够扩展到真实世界数据。
2 从电路到平方概率电路
表达效率 (也称为简洁性或表示能力)是指一类电路能够在多项式大小的计算图 中编码一个(可能未归一化的)分布的能力,即其规模随输入规模的增长呈多项式增长 。这与“表达能力”中所指的通用表示性 (universal representation)不同:所有具有布尔(Boolean)或高斯(Gaussian)输入的 PC 都可以任意近似任何布尔函数(或连续分布),但这通常需要指数级的电路规模 。
当我们说某一类模型比另一类在表达上更“高效 ”或“简洁 ”时,我们的意思是存在某个分布(也称为“分离函数” separating function),该分布无法被属于第二类的任意多项式规模电路 所表示。
例如,满足更少或不同结构属性的电路(如放宽定义 2 中的可分解性条件)可能在表达效率上比其他电路类高出指数级,也就是说它们可以在可计算的前提下表示更大类别的函数(Martens 和 Medabalimi, 2014)。
单调 PC 与非单调 PC 设计和学习一个作为概率电路(PC)的模型,通常是通过假设其参数和输入函数都为非负的,从而得到一个 单调 PC(monotonic PC)(Shpilka 和 Yehudayoff, 2010)。而放松这一假设的电路——即 非单调 PC (non-monotonic PC)——已被证明在表达效率上比单调电路更强(Valiant, 1979)。然而,以一种 通用且灵活的方式 构建非单调电路仍然具有挑战性(Dennis, 2016)。
对于具有单变量输入的结构可分解 PC,这种划分形成一棵树,有时称为 vtree (Pipatsrisawat 和 Darwiche, 2008)或 伪树 (pseudo-tree)(Dechter 和 Mateescu, 2007)。
这类模型在量子物理与量子计算中非常流行,在这些领域中它们通常使用复数张量 进行操作。在我们的理论框架下,我们将清楚地看到:引入复数参数确实能带来表达能力上的优势,并解释其原因(见第 5 节)。
然而,在此之前请注意,定理 0 并没有说明平方概率电路能够高效表示所有由单调 PC 紧凑编码的非负函数。事实上,我们第一个理论贡献就是证明了这一点并不成立:
接下来我们将证明另一个方向上的指数级分离结果(exponential separation)。
3 平方电路的一个局限性
我们的构造起源于 Glasser 等人(2019)的一个观察:编码非负分解的非负 MPSs(见公式 (2)),在分解我们提出的 SUM 函数的一个变体时,所需的秩 r 要比实值 Born 机(real BMs)小指数级。
我们的结果更强,因为它适用于所有平方结构可分解电路 ,这意味着它适用于所有可能的树状区域图(region graph)。事实上,MPS 和 BM 只能表示具有特定区域图的 PC,因为它们中的所有乘法单元都是一次只对一个变量进行条件分解其作用范围(参见 Loconte 等, 2024a 中的命题 3)。
因此,我们的发现可以推广到其他实数域上的平方张量网络,如树形结构的 Born 机(tree-shaped BMs)(Shi, Duan, Vidal, 2006;Cheng 等, 2019),以及更多具有树状区域图的电路类(Mari, Vessio, Vergari, 2023)。
4 相容平方和电路(Sum of Compatible Squares Circuits)
我们提出的更具表达能力的电路类将采用平方和 (Sum of Squares, SOS)的形式。这是一个代数几何中的经典概念,用于刻画某些非负多项式(Benoist, 2017)。因此,我们可以推导出一类特殊的 SOS 多项式族,它支持可计算的推理。
因为电路也可以被理解为输入函数作为变量的多项式的紧凑表示(Martens 和 Medabalimi, 2014),所以我们将这类电路视为这些多项式的结构化扩展。
在本节中,我们的目标是精确刻画电路表达效率的边界,因此我们要求所构造的 SOS 形式始终具有多项式规模 。这与关于 SOS 表示与非负多项式关系的“通用性”结果不同,在那些研究中,主要关注的是某个非负多项式是否可以写成 SOS 的形式,而不考虑模型规模的大小。例如,请参见希尔伯特第十七问题以及 Marshall(2008)的相关综述。
为了保持推理的可计算性,在我们定义的“平方和电路”类中,不仅要求每个单独的电路是结构可分解 的(从而可以高效地进行平方运算),还要求它们彼此之间是相互兼容 的。
我们用 表示这类相容平方和电路 (SOCS)。
将多个(平方)概率电路通过正系数进行加权求和,等价于构建一个以这些(平方)概率电路为组件的有限混合模型(McLachlan, Lee 和 Rathnayake, 2019)。
尽管这种做法看似只是提升表达能力的一种简单方式,但我们将证明,其带来的优势实际上是指数级的 。
5 SOCS 电路统一了多种模型类
我们现在将迄今为止所介绍的理论结果扩展到其他多个可计算模型类 ,这些模型可以归约到 SOCS(相容平方和电路) 。
我们首先从具有复数参数 的模型开始。
复数参数在机器学习中的广泛应用
复数参数在机器学习中被广泛使用。首先,它们在建模波动现象方面具有语义意义,如在信号处理和物理学中的应用(Hirose 和 Yoshida, 2012;Tygert 等, 2015)。例如,在第 2 节中我们曾提到,矩阵乘积态(MPSs)和 Born 机(BMs)通常被定义为在复数域上进行分解 。
因此,在量子物理中,一个 Born 机建模的是波函数模长的平方
复数 Born 机已被用于分布估计任务(Han 等, 2018;Cheng 等, 2019)。
其次,已有研究表明,使用复数参数有助于稳定学习过程 (Arjovsky, Shah, Bengio, 2015),并提升包括概率电路在内的各种机器学习模型的表现(Trouillon 等, 2016;Sun 等, 2019;Loconte 等, 2023)。
在概率电路中,我们可以用一个精确的理论刻画来支持这一观点,并回答一个关键问题:在复数域中建模 PC 是否带来了表达能力上的优势?
复数平方电路
我们将实数域上的平方电路类 ±2R 进行扩展,并形式化地定义复数平方电路 (complex squared PC)为如下形式:
在附录 B.5 中我们表明,类似于实值 Born 机可归约到平方电路(Loconte 等, 2024a),复数 Born 机也可归约到复数平方电路 ,因此其表达能力至少与实数版本一样强。
更重要的是,我们证明了任何复数平方电路都可以高效地归约到仅含实数参数的 Σ²cmp 类电路 。
这通过我们定理 2 的视角,彻底解答了“复数参数是否比实数参数带来更强表达能力”的问题。
下面我们将形式化这一结论。
我们在附录 B.8 中通过推广 Loconte 等(2024a)中关于浅层 PSD 核模型的归约方法,证明了这一结论。
Sladek、Trapp 和 Solin(2023)提出了另一种深度 PSD 模型的构造方式,其中 PSD 加法单元位于单调 PC 的输入端,而不是输出端。这样一来,他们所求和的平方项数量随着电路深度呈指数增长,这与我们的 µSOCSs(微小平方和电路)类似。
与此同时,Wang 和 Van den Broeck(2024)提出了Inception PC ,它与我们的 SOCS 是独立提出的非单调 PC,旨在克服平方电路的表达能力限制,并在文中证明了我们定理 1 的一个变体形式。
一个 Inception PC 将变量 X 上的概率分布 p 表示为:
其中
是一个结构化电路,它在扩展变量集 X∪U∪W 上计算一个复值函数。
公式 (6) 已经是以SOCS形式 (平方和相容电路)表达的。与输入为 PSD 的 PSD 电路以及我们的 µSOCSs 类似,将变量 U 放在平方之外,可以通过参数共享紧凑地表示指数数量级的平方项。
然而,与我们的 µSOCSs 不同的是,Inception PC 在计算未归一化的对数似然时就存在二次级规模膨胀 ,因为它们无法将平方运算提到对数运算之外(见第 7 节)。
6 所有结构化 PC 都是 SOCS 电路吗?
鉴于目前为止我们讨论的 SOCS 电路在表达能力上的增强,一个自然的问题是:它们是否能够高效地编码其他可计算 PC 类所表示的任意分布?
显然,我们需要将注意力限制在结构可分解 (structured-decomposable)的电路上,因为这是进行高效平方运算所需的结构性质。因此,我们排除了仅具有可分解性、或虽编码多线性多项式但不满足可分解性的电路类(参见 Agarwal 和 Bläser, 2024;Broadrick, Zhang 和 Van den Broeck, 2024)。
我们首先聚焦于 +sd 类中的概率电路,并展示由 SOCS 电路编码这类函数时的规模上限。
命题 3
我们的结果类似于 Valiant (1979) 的一个经典结论,但我们考虑的是具有不同结构性质的电路:他们指出一个(不可分解的)非单调电路可以表示为两个单调电路的差值;而我们关注的是将结构化电路重写为 SOCS 电路的形式。
7 实验评估
我们根据未见数据点上的平均对数似然值 来比较各类 PC 的性能。接下来我们简要介绍我们构建 PC 的方法,更多细节请参见附录 C。
构建张量化 SOCS 电路
我们借鉴 Mari、Vessio 和 Vergari(2023)的方法,通过将区域图(region graph,见第 2 节)参数化为 CP 分解的形式,并结合向量化的输入层(Loconte 等, 2024b),来构建张量化的概率电路。
这种构造方式允许我们通过控制各层中的单元数量来调节模型大小。
我们根据不同的数据类型使用两种区域图:
对于表格数据,我们沿用 Loconte 等(2024a)的做法,使用随机二叉树;
对于图像数据,我们使用四叉树(quad trees),它递归地将图像划分为图像块(见附录 C.2)。
实现复数电路的方式是对张量类型进行上转型(upcast),并实现一种针对复数的 log-sum-exp 技巧(见附录 C.4)。
(A) 连续 UCI 数据集实验
我们使用 Papamakarios、Pavlakou 和 Murray(2017)相同的预处理流程,对四个连续 UCI 数据集进行分布估计:Power、Gas、Hepmass、MiniBooNE(见表 C.1)。
我们比较了结构单调电路(structured monotonic PCs)和具有实数或复数参数的平方电路(squared PCs)。所有电路均使用高斯似然作为输入单元,并确保它们的可训练参数数量相差不超过 ±6%。
图 2 和图 C.1 显示:除了 Gas 数据集外,单调电路在所有数据集上的测试对数似然都优于具有实数参数的单个平方电路,这与我们提出的理论一致——即单个实数平方电路存在表达能力限制(定理 1)。
相比之下,具有复数参数的平方电路始终优于具有实数参数的平方电路和单调电路,因为它们属于 SOCS 类(推论 1)。
图 C.2 展示了训练过程中的对数似然变化情况。
图 C.3 则表明,学习具有实数参数的单个平方电路通常较为困难,因为其损失函数不稳定;而复数平方电路则没有这个问题。
(B) 增加平方项数量的影响
我们逐步增加 SOCS 电路中平方项的数量,从 4 个增加到 16 个,同时保持参数总数大致不变。作为基线,我们构建了由 4 至 16 个结构单调电路组成的混合模型。
我们在与 (A) 相同的数据集和设定下进行比较。
图 2 表明,不仅 SOCS 电路在性能上优于单调电路,而且在这些数据集上,将平方电路的数量从 4 提升到更多并没有带来显著提升(见图 C.1 中 Power 和 Gas 的结果)。
此外,复数 SOCS 电路与实数 SOCS 电路表现相近,这也符合预期,因为复数 SOCS 电路属于 Σ²cmp 类(推论 1)。
(A, C) 图像数据实验
我们进一步对 MNIST、FashionMNIST 和 CelebA 图像数据集(见表 C.2)进行概率分布估计,并比较以下几种模型:
单个结构单调电路,
具有实数和复数参数的单个平方电路,
一个 µSOCS 电路,它是通过将一个单调电路与一个复数平方电路相乘得到的(+sd · ±²ℂ)。
模型构建详见附录 C.2 和 C.3。
对于单调电路,我们使用分类分布作为输入单元;对于实数(复数)平方电路,我们分别使用实数(复数)向量嵌入。
图 3 给出了以“每维度比特数”(bits-per-dimension, BPD)衡量的标准化负对数似然结果。
可以看到,复数平方电路在图像分布估计方面明显优于单调电路和实数平方电路。而 µSOCS 模型比单个复数平方电路表现更好,且参数更少。
相反,实数平方电路的表现趋于饱和,最终与单调电路相当。
图 C.4 显示了在 FashionMNIST 上的相似趋势,以及训练过程中 BPD 的变化。
虽然实数和复数平方电路都倾向于过拟合,但复数平方电路和 µSOCS 的泛化能力更强。
附录 C.6 对复数平方电路与 µSOCS 在训练时间和空间开销方面进行了比较。
8 结论
我们统一并区分了多个围绕“电路平方”操作构建的近期可计算模型。我们的理论分析为许多目前仅依赖于实验支持的主张提供了理论依据,例如使用复数参数 的有效性。
我们提出的 SOCS 电路 (平方和相容电路)不仅能够构建可扩展且高精度的模型 ,还使得其与平方和多项式(SOS polynomials)相关文献建立了联系。我们的 SOCS 表达能力结果也可以迁移到非线性矩阵分解 的文献中(Lefebvre, Vandaele 和 Gillis, 2024;Awari 等, 2024)。
作为未来的研究方向,我们计划为 SOCS 建立一个严格的潜在变量解释 (Peharz 等, 2016),从而开发出新的参数学习和结构学习方法(Gens 和 Domingos, 2013;Di Mauro 等, 2017)。
此外,我们还计划将 SOCS 扩展到具有连续潜在变量 的情形(Gala 等, 2024a,b),并使用神经网络 对其进行参数化(Shao 等, 2020),以进一步提升其表达能力。
A 电路(Circuits)
图 A.1 展示了一个关于四个布尔变量的电路示例,该电路是结构可分解的 (structured-decomposable),即它与自身兼容(Definition 3)。
给定一个平滑且可分解 (smooth and decomposable)的电路 c,并且其输入单元可以高效积分,我们可以在线性于电路规模的时间内 精确计算任何关于 c 的定积分,如下命题所述。
命题 A.1(可计算性)(Choi, Vergari 和 Van den Broeck, 2020)
B 证明 B.1 预备知识
在给出具体证明之前,我们首先推广 Martens 和 Medabalimi(2014)中的定理 38,该定理刻画了由平滑且可分解的单调电路 所计算的多线性多项式的形式。
具体来说,一个平滑且可分解的电路计算的是“弱积”(weak product)的和,其中每个“弱积”是定义在两个互不相交的变量集上的函数的乘积。
为了证明定理 1,我们需要将变量划分为若干子集,并使得其中某个特定的真子集诱导出一个平衡划分(balanced partitioning)(见下文定义)。
此外,我们还给出了在结构可分解电路 情形下所计算函数的一个显式电路表示形式 ,这对于证明定理 5 是必要的。
最后,由于我们在定理 1 和定理 2 中对非单调平方电路的规模进行了下界估计,因此我们对 Martens 和 Medabalimi(2014)中的定理 38 进行了一个平凡推广,使其适用于非单调电路 的情形。
此时,电路 c 所计算的函数可以表示为一个 望远镜型差值和 (telescoping sum of differences),即:
C 实验细节 C.1 数据集与评估指标
UCI 仓库数据集 (Dua 和 Graff, 2017)
我们使用了以下四个 UCI 数据集进行实验:Power(Hebrail 和 Berard, 2012)、Gas(Fonollosa 等, 2015)、Hepmass(Baldi 等, 2016)和 MiniBooNE(Roe 等, 2004)。我们采用了 Papamakarios、Pavlakou 和 Murray(2017)所使用的相同预处理方式。表 C.1 报告了预处理后训练集、验证集和测试集的数据统计信息。
图像数据集
我们对以下图像数据集进行了实验:MNIST(LeCun、Cortes 和 Burges, 2010)、FashionMNIST(Xiao、Rasul 和 Vollgraf, 2017),以及 CelebA(Liu 等, 2015)。
对于 MNIST 和 FashionMNIST,我们从训练集中抽取 5% 的样本作为验证集。表 C.2 报告了这些数据集在预处理后的训练、验证和测试集的统计数据。
根据 Gala 等(2024b)的做法,对于 CelebA 数据集,我们通过一个保持体积的变换 (volume-preserving transformation)将 RGB 颜色空间转换为 YCoCg 颜色空间。更多细节请参见 Gala 等(2024b)。
评估指标
对于 UCI 数据集 ,我们在图 2 和图 C.1 中报告了模型在测试数据上的平均对数似然值 (average log-likelihood)。
对于 图像数据集 ,我们在图 3 中报告了“每维度比特数”(bits-per-dimension, BPD),该指标定义为测试集上归一化的负对数似然值 。
C.2 模型配置与超参数 UCI 数据集上的实验
我们在 UCI 数据集上评估了以下几类概率电路(PC):
单个结构可分解单调电路(structured-decomposable monotonic PC),
单个实数平方电路(real squared PC),
单个复数平方电路(complex squared PC),
实数或复数参数的 SOCS 电路(sum of squares PCs)。
作为基线模型,我们还评估了一个由多个兼容且结构化单调电路 组成的正混合模型。
张量化 PC 的构造
我们借鉴 Mari、Vessio 和 Vergari(2023)的方法,通过将区域图(region graph,见第 2 节)参数化为包含加法层、乘法层和输入层的张量结构,来构建张量化 PC 架构。这些张量化的层分别由加法单元、乘法单元和输入单元组成(Loconte 等, 2024a)。
这种张量化电路构造方式使我们能够通过简单地控制每层中计算单元的数量(即“层大小”)来调节电路规模。
按照 Loconte 等(2024a)的做法,我们通过递归地将变量集合大致均匀划分为子集,直到无法进一步划分为止,从而构造出随机二叉树形式的区域图。
然后我们通过组合加法层和乘法层对该区域图进行参数化,使得每一层都编码 CANDECOMP/PARAFAC 分解(Carroll 和 Chang, 1970;Kolda 和 Bader, 2009),即每个变量划分对应一个乘法层,该层对其输入层执行逐元素相乘操作。
这种构造方式最终得到的是结构可分解电路 。
关于该电路构造流程的更多细节,请参见 Mari、Vessio 和 Vergari(2023)以及 Loconte 等(2024a)。
由于不同 UCI 数据集的样本数量不同,我们选择了不同的层大小以避免过拟合。
然而,在所有 UCI 数据集的实验中,我们评估的所有 PC 在加法单元参数数量方面保持一致,最多仅相差 ±6%。
此外,所有 PC 在每一层输入层中使用相同数量的高斯似然函数。
表 C.3 报告了根据不同数据集和 PC 类别,各层中加法单元(因此也是乘法单元)和输入单元的具体数量。
从数据中学习
所有 PC 都是通过对训练集的负对数似然函数进行最小化,并使用批量梯度下降法进行训练,批量大小设为 512,优化器为 Adam(Kingma 和 Ba, 2015),使用默认超参数,并尝试三种不同的学习率:
我们持续训练,直到验证集上的对数似然值在连续 25 个 epoch 内不再有明显提升为止。
每次实验重复 5 次,使用不同的随机种子,从而生成不同的随机电路结构,并将结果以箱形图(box plot)形式展示(见图 2、C.1 和 C.2)。
在这些箱形图中,我们将那些与四分位距(IQR)之差超过两倍 IQR 的结果标记为异常值(用十字符号表示)。
图像数据集上的实验
我们在图像数据集上评估了以下几类概率电路(PC):
单个结构可分解单调电路(structured-decomposable monotonic PC),
单个实数平方电路(real squared PC),
单个复数平方电路(complex squared PC)。
此外,我们还对一个 µSOCS 电路进行了实验,其构造细节将在附录 C.3 中进一步说明。
张量化 PC 的构建
为了构建张量化 PC,我们使用了与 UCI 数据集相同的电路构造流程。然而,主要区别在于我们参数化了一个专为图像数据设计的固定区域图——四叉树 (quad-tree),如 Mari、Vessio 和 Vergari(2023)所述。
具体来说,每个像素值(或像素通道,如果有的话)都被视为一个取值在 {0,…,255} 范围内的随机变量。四叉树 以递归且均匀的方式将图像划分为四个图像块(patches),即大致相同数量的变量集合,直到每一部分仅包含一个变量为止。
接着,我们通过引入执行 CANDECOMP/PARAFAC 分解的加法层和乘法层对该区域图进行参数化,方式与我们在 UCI 数据集上的实验一致。
关于该构造方法的更多细节,请参见 Mari、Vessio 和 Vergari(2023)。
对于单调电路,其输入单元计算的是分类分布似然函数(Categorical likelihoods)。
从数据中学习
所有 PC 模型都通过对训练集的负对数似然进行最小化,并使用批量大小为 256 的梯度下降进行优化,优化器为 Adam(Kingma 和 Ba, 2015),学习率设为 ,并采用默认超参数。
我们持续训练模型,直到验证集上的 BPD(每维度比特数)在连续 20 个 epoch (用于 MNIST 和 FashionMNIST)或 5 个 epoch (用于 CelebA)内不再有显著提升为止。
C.5 附加实验结果 UCI 数据集上的实验
图 C.1 展示了单调电路(monotonic PCs)、平方电路(squared PCs)和 SOCS 电路在 Power 和 Gas 这两个 UCI 数据集上取得的对数似然值(见附录 C.1)。
在我们所有的实验中,Gas 数据集是唯一一个 :单个实数平方电路在平均表现上优于单个结构可分解单调电路的情况。
为了排除可能的过拟合现象,我们在图 C.2 中展示了相同模型在四个 UCI 数据集的训练集上的对数似然表现(见附录 C.1),其中趋势一致(也见第 7 节中的讨论)。
训练损失的稳定性
我们发现,单个结构化单调电路和单个复数平方电路的训练损失比单个实数平方电路稳定得多。
图 C.3 比较了使用随机梯度下降训练过程中(见附录 C.2)三种模型的负对数似然曲线,并考虑了我们尝试过的三种不同的学习率。
即使使用最低的学习率,训练单个实数平方电路时损失曲线仍出现大量尖峰(spikes)。相比之下,即使是较高的学习率下,训练单个复数平方电路的损失曲线也更加平滑。
图像数据集上的实验
图 C.4 展示了在 MNIST、FashionMNIST 和 CelebA 数据集上,随着可学习参数数量的增加,各类 PC 所达到的 BPD 指标(见附录 C.1)。
在 MNIST 和 FashionMNIST 数据集上,我们观察到:
实数平方电路、复数平方电路以及 µSOCS 电路(见附录 C.3)倾向于过拟合;
它们在训练数据上达到了非常相近且显著低于测试数据的 BPD 值。
然而,复数平方电路和 µSOCS 电路的泛化能力明显优于实数平方电路。
C.6 基准测试
我们所有的实验都在一块具有 48 GiB 内存的 NVIDIA RTX A6000 上进行。
我们对用于图像数据集实验中的概率电路(见图 3)进行了基准测试,包括:
结构化单调电路,
实数平方电路和复数平方电路,
µSOCS 电路。
详见附录 C.2 和 C.3。
我们在 MNIST 和 CelebA 数据集上,评估了所有这些 PC 模型完成一次优化步骤所需的时间和 GPU 显存占用情况(见附录 C.1)。此外,我们也比较了各模型在达到的 BPD 指标与时间和显存消耗之间的权衡。
图 C.5 表明,在执行一次优化步骤时,使用复数平方电路所需的计算资源与单调电路相当,但其在 MNIST 上取得了更优的 BPD 表现。
此外,我们还发现训练 µSOCS 电路在计算成本上与训练单个复数平方电路或结构化单调电路相近或略高 。然而,µSOCS 电路在 CelebA 数据集上实现了显著更低的 BPD(见图 3)。
原文链接:https://arxiv.org/pdf/2408.11778
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.