无梯度优化新思路：条件混合网络的变分学习方法|算法|拟合|贝叶斯|神经网络|深度思考模型

分享至

Gradient-free variational learning with conditional mixture networks

无梯度优化新思路：条件混合网络的变分学习方法

DOI:10.48550/arXiv.2408.16429

https://arxiv.org/abs/2408.16429

摘要

在监督学习中，尤其是在关键应用中，计算效率与稳健预测性能之间的平衡至关重要。标准的深度学习模型虽然准确且可扩展，但通常缺乏概率特性，例如校准预测和不确定性量化。贝叶斯方法可以解决这些问题，但随着模型和数据复杂性的增加，其计算成本可能变得很高。以往的研究表明，快速变分方法可以通过消除梯度计算或采样的需求来降低贝叶斯方法的计算要求，但这些方法通常仅限于简单模型。我们证明，条件混合网络（CMNs）——一种概率形式的专家混合（MoE）模型——适用于快速、无梯度的推理，并能够解决复杂的分类任务。CMN 使用线性专家和 softmax 门控网络。通过利用条件共轭性和 Polya-Gamma 增广方法，我们为线性专家和门控网络的权重赋予了高斯似然。这使得我们可以使用坐标上升变分推断（CAVI）进行高效的变分更新，避免了传统的基于梯度的优化方法。我们在 UCI 数据库中的标准基准上训练了两层 CMN 来验证该方法。我们的方法 CAVI-CMN 在预测准确性方面具有竞争力，甚至常常优于使用反向传播的最大似然估计（MLE），同时保持了有竞争力的运行时间以及对所有模型参数的完整后验分布。此外，随着输入规模或专家数量的增加，CAVI-CMN 的计算时间与 MLE 和其他基于梯度的方法（如黑盒变分推断 BBVI）相比也具有良好的扩展性，使 CAVI-CMN 成为构建深层、快速且无梯度的贝叶斯网络的有前景工具。

1 引言

现代机器学习方法试图从复杂数据（例如图像、音频、文本）中学习函数，以预测与这些数据相关的信息，例如在分类任务中的离散标签 [Bernardo 等, 2007]。深度神经网络（DNNs）在这个领域取得了成功，这归功于它们的通用函数逼近性质 [Park 和 Sandberg, 1991] 以及通过反向传播进行随机梯度下降学习所继承的软正则化 [Amari, 1993]。然而，尽管这种训练方式在计算效率、准确性以及对日益庞大数据集和模型的可扩展性方面表现优异，但所训练出的 DNN 并不能提供良好校准的预测结果和不确定性估计。因此，实践者通常会在验证数据集上使用事后校准方法 [Wang 等, 2021；Shao 等, 2020]。这限制了 DNN 在自动驾驶、医学和灾害响应等安全关键型应用中的适用性和可靠性 [Papamarkou 等, 2024]，因为在这些场景中需要基于不确定性的决策。

贝叶斯机器学习通过提供一个概率框架来解决校准不佳和不确定性量化的问题。它将学习模型参数 θ 视为一个推理过程——即根据观测数据 D = {(x₁, y₁), ..., (xₙ, yₙ)} 使用贝叶斯定理来计算模型参数的后验分布：

由此得到的后验分布不仅捕捉了对模型参数 θ 的期望，还捕捉了其不确定性。这种不确定性随后被纳入预测中，使得预测在理论上对于来自同一数据集的新数据点具有良好的校准性。这种概率处理方式使得贝叶斯神经网络（BNNs）[Hernandez-Lobato 和 Adams, 2015] 能够在保持深度神经网络表达能力的同时，也对网络权重以及因此产生的网络预测结果进行不确定性建模。然而，这些方法通常伴随着显著增加的计算成本，因此在应用于大规模数据集和高维模型时扩展性较差 [Izmailov 等, 2021]。

本文介绍了一种用于一种两层前馈神经网络的概率变体——条件混合网络（Conditional Mixture Network，简称 CMN）的无梯度变分学习算法，并在监督学习基准任务上评估了其性能。该方法基于坐标上升变分推断（CAVI）[Wainwright 等, 2008；Hoffman 等, 2013]，因此我们将其命名为 CAVI-CMN。我们将 CAVI-CMN 与最大似然估计（MLE）以及另外两种贝叶斯估计方法进行了比较：哈密顿蒙特卡洛（Hamiltonian Monte Carlo）的 No U-Turn Sampler（NUTS）变体 [Hoffman 等, 2014] 和黑盒变分推断（Black-Box Variational Inference，BBVI）[Ranganath 等, 2014]。我们证明，CAVI-CMN 在预测准确性和可扩展性方面可以媲美使用最大似然估计（即通过反向传播进行梯度下降）训练的结构匹配的前馈神经网络，同时保留了对所有网络参数的完整分布建模能力，并生成经过良好校准的预测结果，其表现可与 NUTS 和 BBVI 等最先进的贝叶斯方法相提并论。

以下是本工作的主要贡献总结：

引入并推导了一种用于条件混合网络的变分推断方案，我们称之为 CAVI-CMN。该方法依赖于为线性专家设置共轭先验，并为门控网络及最终的 softmax 层引入 Polya-Gamma 增广方法 [Polyson 等, 2013]。

在预测准确性方面，CAVI-CMN 与最大似然估计（MLE）相当，有时甚至优于 MLE，同时保留了贝叶斯方法的概率优势，如能够量化不确定性，并具有较低的校准误差。这一结果在总共 8 个不同的监督分类任务上得到验证（其中 2 个为合成数据集，6 个为真实数据集）。
CAVI-CMN 在具备上述所有优势的同时，其收敛所需时间和总体运行时间明显少于其他先进的贝叶斯方法，例如 NUTS 和 BBVI。

本文其余部分的组织结构如下：

首先，我们讨论相关的研究工作，包括专家混合（MoE）架构以及现有用于拟合这些模型的贝叶斯和非贝叶斯方法。随后，我们介绍该概率条件混合模型，并推导一种变分推断算法，用于优化其潜在变量和参数的后验分布。接着，我们展示了实验结果，将基于 CAVI 的条件混合模型与基于采样的方法（如 BBVI、NUTS）以及传统的基于最大似然估计（MLE）的方法进行比较——后者通过反向传播计算对数似然的梯度来更新网络参数。最后，我们讨论这些发现的意义以及未来研究的可能方向。

2 相关工作

专家混合（Mixture-of-Experts，MoE）架构与我们在此介绍的条件混合网络（CMN）模型密切相关。Jacobs 等 [1991] 最早提出了 MoE，作为一种通过结合多个专业化模型的优势来提升神经网络性能的方法 [Gormley 和 Frühwirth-Schnatter, 2019]。MoE 模型通过对各个“专家”（即个体学习器）的预测结果进行加权平均来处理输入，其中每个专家的输出在平均之前都会乘以一个不同的混合系数。MoE 的基本思想是：输入空间可以被划分成若干区域，不同专家可以在这些区域中各自表现出色，并由一个门控网络（gating network）决定对于每个输入应使用哪个专家（或专家组合）。这导致了对任意输入-输出关系的可组合（有时也是可解释的）潜在描述 [Eigen 等, 2013]，而 MoE 的通用函数逼近能力进一步加强了这一特性 [Nguyen 等, 2016；Nguyen 和 Chamroukhi, 2018]。事实上，Transformer 中所采用的强大自注意力机制也展示了 MoE 模型的力量与灵活性 [Movellan 和 Gabbur, 2020]。

非贝叶斯方法中的 MoE 通常依赖于最大似然估计（MLE）[Jacobs 等, 1991；Jordan 和 Jacobs, 1994]，但这种方法由于缺乏正则化机制，容易出现过拟合和泛化能力差的问题 [Bishop 和 Svenskn, 2003]，尤其在数据量较少的情况下更为明显。

为了解决这些问题，研究者提出了贝叶斯视角下的 MoE 方法，通过引入先验信息，生成模型参数的后验分布 [Bishop 和 Svenskn, 2003；Mossavat 和 Amft, 2011]。这种贝叶斯处理方式使得模型证据（即边缘似然）的估计成为可能，并为模型比较与选择提供了自然的框架 [Svensen, 2003；Zens, 2019]。贝叶斯 MoE 模型具有显著优势，例如增强了对抗过拟合的能力，并能更好地理解预测中的不确定性。然而，它也带来了计算上的挑战，尤其是在处理高维数据和复杂模型结构时尤为明显。

Polya-Gamma（PG）增广技术的提出（见 Polson 等 [2013]）为贝叶斯处理 MoE 模型带来了一系列新颖且更高效的计算算法 [Linderman 等, 2015；He 等, 2019；Sharma 等, 2019；Viroli 和 McLachlan, 2019；Zens 等, 2023]。本文延续了这些先前工作——它们主要集中在利用 PG 增广改进采样方法——但我们进一步提出了一种基于线性专家结构的 MoE 的闭式更新规则，具体形式为坐标上升变分推断（CAVI）。

3 方法

在本节中，我们首先阐述在监督学习中使用条件混合模型的动机，然后介绍条件混合网络 （Conditional Mixture Network，CMN）——这是一种概率模型，其性质和能力将在本文后续部分中进行展示。

3.1 用于函数逼近的条件混合模型

前馈神经网络具有高度表达能力，它们通过一系列非线性变换来逼近非线性函数。然而，其权重的后验分布是难以处理的，通常需要借助代价高昂的技术如马尔可夫链蒙特卡洛（MCMC）或变分推断 [MacKay, 1992；Blundell 等, 2015；Daxberger 等, 2021]。

我们通过聚焦于专家混合模型（MoE）[Jacobs 等, 1991] 来绕过这些问题，特别是那种适合进行无梯度 CAVI 参数更新的 MoE 变体。当专家的似然函数被限制为指数族分布成员时（关于 MoE 架构的更多细节见第 2 节），并且门控网络的设计允许进行精确贝叶斯推断（通过对 log-sigmoid 似然的下界近似 [Jaakkola 和 Jordan, 1997；Bishop 和 Svenskn, 2003] 或使用 Polya-Gamma 增广方法 [Polson 等, 2013]），MoE 就可以适用于无梯度的 CAVI 推理。

通过引入一个潜在的分配变量 zn，MoE 可以被重新表述为一个概率形式的混合模型，从而得到如下联合概率分布：

因此，学习模型参数的问题就转化为对混合模型中的潜在变量 Z和参数 Θ进行推断的问题。然而，混合模型通常无法进行精确的贝叶斯推断，因此需要某种形式的近似或基于采样的方法来获得参数的完整后验分布。然而，如果 MoE 中的每个专家（即似然分布）都属于指数族分布，则该模型是条件共轭的。这使得我们可以为每个专家的近似后验分布推导出精确的不动点更新公式。

我们提出的方法 CAVI-CMN 正是基于这一点——我们利用了混合模型的条件共轭性，并结合门控网络的一个增广技巧，使得所有参数都可以接受近似的贝叶斯处理。这种条件共轭形式使我们能够使用坐标上升变分推断 （CAVI）来获得线性专家和门控网络权重的后验分布 [Wainwright 等, 2008；Hoffman 等, 2013；Blei 等, 2017]，而无需依赖代价高昂的梯度计算或采样过程。

在后续内容中，我们将使用术语“条件混合网络 ”（Conditional Mixture Network，CMN），以强调以下两点：（1）该方法的应用具有判别性，模型旨在根据输入 x预测输出 y；（2）MoE 的各个层可以按层次堆叠，形成一个前馈架构。这使得 CMN 特别适合于监督分类和回归等任务，其目标本质上就是函数逼近问题：即在给定输入变量 x的情况下预测输出变量 y。

3.2 条件混合网络概述

条件混合网络将连续输入向量 x0∈Rd映射到其对应的标签 y∈{1,…,L}。这个过程通过两个层级完成：

这一概率映射可以用如下操作来描述：

3.3 条件混合网络的生成模型

3.4 使用共轭先验的坐标上升变分推断

在本节中，我们将详细介绍一种变分推断方法 ，用于对式（3）中描述的概率模型进行“反演”（即从观测数据中推断潜在变量和参数），并计算关于指定的潜在变量和参数的近似后验分布，该分布形式如下：

我们使用一种迭代更新方案 来最大化 ELBO（证据下界），该方案针对近似后验分布的参数进行优化，这种方法通常被称为变分贝叶斯期望最大化 （Variational Bayesian Expectation Maximization, VBEM）[Beal, 2003] 或坐标上升变分推断 （Coordinate Ascent Variational Inference, CAVI）[Bishop 和 Nasrabadi, 2006；Blei 等, 2017]。

该过程包括两个部分：

第一部分 ：我们首先固定模型参数上的后验分布（初始化为随机值）。在参数后验已知的情况下，我们更新潜在变量上的后验分布（即变分 E 步）如下：

第二部分 ：在 E 步中更新得到的潜在变量的后验分布，被用于更新模型参数的后验分布（即变分 M 步），具体如下：

在变分推断文献中，潜在变量与参数之间的区别通常被描述为“局部”（local）与“全局”（global）潜在变量之间的差异 [Hoffman 等, 2013]，其中局部变量是针对每个数据点的，而全局变量则在所有数据点之间共享。对于式（9）中线性专家参数的更新形式，即

4 实验结果

为了评估基于 CAVI 的方法的有效性，我们在多个真实和合成数据集上将其与其他近似推断算法进行了比较。我们将使用 CAVI 训练的 CMN 与以下三种方法进行了对比：

BBVI（黑盒变分推断） — 黑盒变分推断方法 [Ranganath 等, 2014]。与 CAVI 不同的是，BBVI 使用对变分参数梯度的随机估计来最大化证据下界（ELBO）。虽然 BBVI 不要求生成模型中存在共轭关系，但我们仍使用与 CAVI-CMN 相同的 CMN 模型和变分分布，以确保公平比较。对于随机优化，我们使用 AdaBelief 优化器，学习率 α = 5e−3（其他超参数与 MLE 相同），每次使用 8 个样本估计 ELBO 梯度（即 TraceELBO() 类中的 num_particles 参数），并运行优化器 20,000 步。

对于贝叶斯方法（CAVI、NUTS 和 BBVI），我们使用相同的 CMN 先验形式（参见式（4）中的参数化设定），并将先验参数固定为以下所有数据集通用的值：v₀ = 10，a₀ = 2，b₀ = 1，σ₀, σ₁ = 5。对于所有数据集，我们将连续潜在变量 x1的维度设为 h = L − 1，其中 L 是类别数量。对于 Pinwheels 数据集（见下文第 4.1 节），我们将线性专家的数量（也就是离散潜在变量 z1的维度）设为 K = 10，而对于其余所有数据集，我们使用 K = 20。

4.1 在合成数据集上的比较

我们选择了 Pinwheels （风车）和 Waveform Domains （波形域）[Breiman 和 Stone, 1988] 数据集作为合成数据集。Pinwheels 数据集是一个合成数据集，设计用于测试模型在处理非线性决策边界和非高斯密度数据时的能力。该数据集由多个以风车图案排列的聚类组成，对于混合模型来说是一项具有挑战性的任务 [Johnson 等, 2016]，因为数据具有弯曲且拉长的空间分布（见附录 C 获取我们用于模拟 Pinwheels 数据集的参数）。

同样地，Waveform Domains 数据集也是一组合成数据，用于分类三种不同的波形模式，其中每个类别由 21 个连续属性描述 [Breiman 和 Stone, 1988]。

我们使用不同大小的训练集来拟合所有推断方法，每增加一个训练集，其规模是前一个的两倍（对于 Pinwheels：训练集大小从 50 到 1600；对于 Waveform Domains：训练集大小从 60 到 3840）。这样做的目的是研究各种方法在小样本情况下的性能稳健性。对于每一个训练集大小，我们都使用相同的测试集来评估性能（对于 Pinwheels，测试集为 500 个样本；对于 Waveform Domains，测试集为 1160 个样本）。

对于每一种推断方法和每种训练样本数量，我们都使用相同的训练数据批次进行拟合，但采用了 16 个随机初始化的模型（即不同的初始后验样本或参数）。

我们使用三个主要指标来评估不同推断方法的性能：

预测准确率 （Test Accuracy）
对数预测密度 （Log-Predictive Density, LPD）
预期校准误差 （Expected Calibration Error, ECE）

对数预测密度是衡量输出概率的预测方法常用的一种准确性指标 [Gelman 等, 2014]，而预期校准误差则衡量模型预测与实际观测类别概率之间的匹配程度 [Guo 等, 2017]。

在图 2 中，我们展示了 Pinwheels 数据集上这三个指标的表现；在图 3 中展示了 Waveform 数据集上的表现，均随训练集大小变化而变化。基于 CAVI 的方法在对数预测密度和校准误差方面与其他两种贝叶斯方法相当，并且这三种贝叶斯方法在 LPD 和 ECE 上都优于最大似然估计（MLE）。这一结果在不同训练集规模下均成立，表明 CAVI-CMN 具有更高的样本效率。

4.2 在真实数据集上的比较

为了进一步验证 CAVI-CMN 的性能，我们使用来自 UCI 机器学习仓库 [Kelly 等, 2024] 的 6 个真实分类数据集进行了实验。表 1 总结了所有 7 个不同 UCI 数据集（包括 Waveform Domains 数据集和 6 个真实数据集）上各种算法的性能表现，使用的评估指标是广泛适用的信息准则（WAIC）。WAIC 是对留一交叉验证（leave-one-out cross-validation）的一种近似估计 [Vehtari 等, 2017]。

与 MLE 方法相比，CAVI-CMN 方法在大多数数据集上都提供了更高的 WAIC 分数，并且其 WAIC 分数与 BBVI 和 NUTS 方法相当。这些结果证实，在 CAVI 框架下使用完全共轭先验并不会削弱算法的推断能力和预测性能，与当前最先进的贝叶斯方法（如 NUTS 和 BBVI）相比仍具有竞争力。

更重要的是，正如下一节将探讨的那样，CAVI-CMN 在计算效率方面具有显著优势。

4.3 运行时间比较

尽管 NUTS 算法在推断稳健性和准确性方面被认为是当前最先进的方法（尤其对于校准良好的模型 [Gelman 等, 2020]），但它在大规模问题上的应用却极具挑战性 [Cobb 和 Jalaian, 2021]。因此，在概率机器学习应用中，更常用的是基于变分推断的方法，例如黑盒变分推断（BBVI）[Ranganath 等, 2014] 和随机变分推断（SVI）[Hoffman 等, 2013]。

在本小节中，我们将 CAVI-CMN 方法与最大似然估计（MLE）和黑盒变分推断（BBVI）在 CMN 模型上的运行效率进行对比分析。重点是比较随着模型不同组成部分参数数量增加时，各算法的计算时间变化情况。

为了确保比较的全面性，我们通过调整专家数量、输入空间的维度以及数据点的数量来改变模型的复杂度。这些调整有效地增加了模型参数的总数，从而让我们观察到每种算法在面对模型复杂度上升时的扩展表现。

图 2 的底部两个子图总结了在 Pinwheels 数据集上，不同训练数据规模下的运行时间表现。图中展示了各算法的运行时间（以秒为单位）以及收敛所需的迭代步数。我们使用“达到收敛所需的步数”来评估每种算法的运行时间。

正如预期，随着训练数据量的增加（这也意味着 BBVI 和 CAVI 中参数数量的增长），所有算法的运行时间都有所上升。但不同算法之间增长的速度差异显著，其中 CAVI-CMN 表现出最佳的扩展性 。

类似地，在图 4 中，我们绘制了最大似然估计（MLE）、CAVI 和 BBVI 的相对运行时间（相对于最简单变体的运行时间比例），当我们在 CMN 的不同组成部分中逐步增加参数数量时的结果。该图表明，使用 CAVI 拟合 CMN 的扩展性可以与基于梯度的方法（如 BBVI 和 MLE）相媲美。

以上这些调整都有助于缓解 CAVI-CMN 在潜在维度 h增大时出现的二次型运行时间增长问题。

总之，这两组运行时间分析（无论是绝对时间还是相对时间）都表明，CAVI-CMN 可能是 BBVI 的一个具有吸引力的替代方案 ，特别适用于大规模、对时间敏感的应用场景。它不仅提供了对潜在变量和参数的完整贝叶斯建模能力，同时还能保持较快的总体运行速度和收敛速度。

5 结论

我们展示了基于 CAVI 的条件混合网络（CMN）方法在预测性能和校准能力方面显著优于传统的基于最大似然估计（MLE）的方法。与基于 MLE 的方法相比，CAVI 在概率性能上的提升可以归因于通过先验信息实现的隐式正则化，以及对潜在状态和参数后验不确定性的恰当处理。这使得模型能够更好地表示底层数据结构，并反映在改进的校准误差和对数预测密度上，即使在小样本情况下也表现优异。

CAVI 方法的一个关键优势在于其相较于其他贝叶斯推断方法（如黑盒变分推断 BBVI 和 No-U-Turn 采样器 NUTS）具有更高的计算效率。虽然 NUTS 能够从完整的联合后验分布中采样，在推断质量方面表现最优，但这种高质量是以大量计算资源为代价的，尤其是在面对高维和复杂模型时 [Hoffman 等, 2013]。变分方法为此提供了可扩展的替代方案，例如黑盒变分推断（BBVI）。尽管 BBVI 相较于 NUTS 已经非常高效，但在应用于 CMN 时，其收敛速度仍慢于 CAVI。因此，我们预计 CAVI 将成为大规模应用中更为实用的选择，尤其是当进一步结合数据小批量处理（mini-batching）方法时 [Hoffman 等, 2013]。

基准测试结果显示，CAVI-CMN 在预测准确性、对数预测密度和预期校准误差等方面的表现与 BBVI 和 NUTS 相当，同时运行速度显著更快。这种在预测似然性和校准性之间的平衡（共同视为样本效率的指标），在需要稳健预测以反映底层不确定性的现实应用场景中尤为重要。

此外，CMN 中线性组件的简单混合形式还带来了额外的互操作性优势。通过使用条件共轭先验以及对潜在变量和模型参数的均场近似，我们使模型参数及其不确定性更容易被解释。这一点在那些理解数据生成过程与预测性能同等重要的领域（如医疗健康、金融和科学研究）中尤其有价值。另一个重要方面是，CMN 的共轭形式意味着变分更新最终呈现出从数据中收集的充分统计量之和的形式；这意味着我们所描述的 CAVI 算法非常适合在线计算和小批量处理，其中充分统计量可以在流式数据中实时计算并累加，从而更新模型参数 [Hoffman 等, 2013]。这种方法在将 CAVI-CMN 扩展到更深的（多于两层）模型 [Viroli 和 McLachlan, 2019] 和更大规模的数据集时将成为必要手段，因为此时将所有数据的充分统计量存储在内存中变得不可行。

总体而言，这些发现突出了 CAVI-CMN 的实际优势，并强调了它作为快速概率机器学习新工具的巨大潜力。

A 变分贝叶斯多项逻辑斯蒂回归

在本节中，我们专注于一个单一的多项逻辑斯蒂回归模型 （不涉及 CMN 的上下文），但在附录 A.4 中推导出的变分更新方案，实际上被应用于门控网络的参数 β0以及最终输出层关于类别标签的似然参数 β1。

A.1 多项分布的 stick-breaking 参数化

多项逻辑斯蒂回归考虑的是结果变量 y属于 K个互斥类别中的某一类的概率。y属于第 k类的概率由分类似然函数给出：

A.2 Polya-Gamma 增广方法

Polya-Gamma 增广 （Polya-Gamma augmentation）方案 [Polson 等, 2013；Linderman 等, 2015；Durante 和 Rigon, 2019] 定义如下：

C 数据集描述

我们使用不同大小的训练集来拟合所有推断方法，其中每个后续训练集的规模是前一个的两倍。对于每一个训练集大小，我们都使用相同的测试集来评估性能，并确保测试集中各类别的相对频率与训练集保持一致。对于每一种推断方法和每种训练样本数量，我们都使用相同的训练数据批次进行拟合，但采用了 16 个随机初始化的模型（即不同的初始后验样本或参数）。

C.1 Pinwheels 数据集

Pinwheels 数据集是一个合成数据集，设计用于测试模型在处理非线性决策边界和非高斯密度数据时的能力 [Johnson 等, 2016]。该数据集的结构由四个参数决定：簇的数量（即螺旋的数量）；角度偏差（angular deviation），表示螺旋状簇偏离原点的程度；切向偏差（tangential deviation），表示每个簇中二维点的噪声方差；以及角度速率（angular rate），决定每个螺旋的弯曲程度。

为了在合成的 Pinwheels 数据集上评估四种方法（CAVI-CMN、MLE、BBVI 和 NUTS），我们生成了一个包含 5 个簇的数据集，其角度偏差为 0.7，切向偏差为 0.3，角度速率为 0.2。这些参数值是通过观察不同参数组合下所有方法所能达到的最大测试准确率，并尝试将其上限控制在 80% 左右而选择的。这样可以保证信噪比足够低，从而有意义地展示概率指标（如校准误差和 WAIC）上的差异。

对于 Pinwheels 数据集，我们的训练集大小从 50 到 1600 不等，每次成倍增加训练样本数。测试集包含 500 个保留样本，使用与训练集相同的参数生成。

C.2 Waveform Domains 数据集

Waveform Domains 数据集是一组合成数据，用于对三种不同的波形模式进行分类，其中每一类由 21 个连续属性描述 [Breiman 和 Stone, 1988]。

对于该数据集，我们训练模型使用的训练集规模从 60 到 3840 个样本不等，并在包含 1160 个保留样本的测试集上进行测试。有关该数据集的更多信息请参见相关资料。

C.3 车辆轮廓（Vehicle Silhouettes）数据集

该数据集的任务是根据从不同角度拍摄的二维图像中提取的特征，将车辆轮廓分类为四种类型之一（公共汽车、厢式货车或两种不同的轿车模型）[Mowforth 和 Shepherd]。

我们训练模型使用的训练集规模从 20 到 650 个样本不等，并在包含 205 个保留样本的测试集上进行测试。有关该数据集的更多信息请参见相关资料。

C.4 Rice 数据集

Rice 数据集包含了与水稻品种分类相关的测量数据，特别是 Cammeo 和 Osmancik 两个品种 [mis, 2019]。我们训练模型使用的训练集规模从 40 到 2560 个样本不等，并在包含 1250 个保留样本的测试集上进行测试。有关该数据集的更多信息请参见相关资料。

C.5 乳腺癌（Breast Cancer）数据集

“乳腺癌诊断”数据集 [Wolberg 等, 1995] 包含了从乳腺肿块图像中提取的特征，用于将肿瘤分类为恶性或良性。有关该数据集的更多信息请参见相关资料。我们训练模型使用的训练集规模从 25 到 400 个样本不等，并在包含 169 个保留样本的测试集上进行测试。

C.6 声呐（Sonar，地雷 vs 岩石）数据集

声呐数据集包含在不同条件下从金属圆柱体和岩石表面反射回来的声呐信号。该数据集包括来自金属圆柱体（模拟地雷）的 111 个模式样本，以及来自岩石的 97 个模式样本。每个模式由 60 个连续属性表示，对应于特定频带内的能量值 [Sejnowski 和 Gorman]。任务是将每个模式分类为地雷（M）或岩石（R）。对于该数据集，我们训练模型使用的训练集规模从 8 到 128 个样本不等，并在包含 80 个保留样本的测试集上进行测试。有关该数据集的更多信息请参见相关资料。

C.7 钞票真伪验证（Banknote Authentication）数据集

钞票真伪验证数据集 [Lohweg, 2013] 包含了从真实和伪造钞票图像中提取的特征，主要用于二分类任务，以区分真钞和假钞。有关该数据集的更多信息请参见相关资料。

D UCI 数据集性能结果

在图 5 至图 9 中，我们报告了与图 2 相同的性能和运行时间指标，涵盖全部 7 个 UCI 数据集。结果显示，除了 Sonar 数据集之外，CAVI 在所有数据集上的表现都具有竞争力，甚至优于 MLE，并且在 LPD（对数预测密度）和 ECE（预期校准误差）方面始终优于 MLE。

运行时间扩展性与主文中 Pinwheels 数据集的报告结果相似；CAVI-CMN 总是在更少的迭代步数内收敛，并且比 BBVI 更快。在运行时间方面，它要么优于 MLE，要么与其相当。

E 模型收敛判定方法

对于每种推断算法，其收敛所需的迭代次数是通过运行足够多的梯度（或 CAVI 更新）步数来确定的，直到 ELBO（或 MLE 的对数似然 LL）不再发生显著变化为止。

通过对多个初始化和不同 UCI 数据集上的多次运行进行经验观察，我们设定：BBVI 和 MLE 各运行 20,000 步梯度更新，CAVI-CMN 运行 500 步联合 CAVI 更新。

为了确定达到充分收敛所需的时间，我们在每次迭代中记录 ELBO 或 LL 的值，并对每条曲线的负值拟合一个指数衰减函数。然后利用估计出的指数衰减参数，确定曲线下降到其初始值的 95% 所需的时间。该时间即被报告为达到收敛所需的迭代步数。

原文链接： https://arxiv.org/abs/2408.16429

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.