贝叶斯深度学习中的先验：综述Priors in Bayesian Deep Learning: A Review|算法|高斯|聚类|神经网络

分享至

Priors in Bayesian Deep Learning: A Review
贝叶斯深度学习中的先验：综述https://onlinelibrary.wiley.com/doi/10.1111/insr.12502

摘要
尽管先验的选择是贝叶斯推断流程中最为关键的环节之一，但近期的贝叶斯深度学习模型却常常退而求其次，采用模糊的先验，例如标准高斯分布。在本综述中，我们强调了先验选择对贝叶斯深度学习的重要性，并综述了目前已为（深度）高斯过程、变分自编码器和贝叶斯神经网络所提出的各类先验。我们还概述了从数据中学习这些模型先验的不同方法。我们希望借此激励贝叶斯深度学习领域的实践者更审慎地对待其模型的先验设定，并为他们在此方面提供一些启发。

1 引言
贝叶斯模型在数据分析（Gelman 等，2013）和机器学习（Murphy，2012）中已获得稳定的流行度。尤其近年来，将这些模型与深度学习相结合的兴趣激增。贝叶斯建模的主要思想是：给定某些观测数据，利用贝叶斯定理（Bayes，1763；Laplace，1774），推断模型参数 θ 的后验分布

其中，p( | θ) 是似然函数，p() 是边缘似然（或称证据），而 p(θ) 是先验分布。先验通常可由超参数 ψ 参数化，若我们想强调这种依赖关系，可将其写作 p(θ; ψ)。然后，该后验分布可用于利用后验预测分布对新的未观测数据 * 进行建模

公式2中的积分也被称为贝叶斯模型平均，因为它根据所有可能模型的后验概率对其进行加权平均。这与标准的最大似然学习形成对比，在最大似然学习中，仅使用一个参数 θ* 进行预测。

尽管许多先前的研究集中于后验预测的性质（Gelman 等，1996；Ovadia 等，2019）、公式1和2中积分的近似方法（Kass 等，1998；Wainwright & Jordan，2008；Blei 等，2017）或边缘似然在贝叶斯模型选择中的应用（Fong & Holmes，2020；Llorente 等，2020），但在本论文中，我们希望揭示公式1中常被忽视的一项：先验分布 p(θ)。

在正统贝叶斯主义中，先验的选择应能准确反映我们在看到任何数据之前对参数 θ 的信念（Gelman，1996）。这被描述为贝叶斯建模中最关键但也最困难的部分，因为将实践者的主观信念明确无误地映射到可处理的概率分布上往往并非易事（Robert，2007）。然而，在实践中，选择先验通常被视为一种麻烦，因此人们曾尝试通过客观先验（Jeffreys，1946；Jaynes，1968）、参考先验（Berger & Bernardo，1992）、经验贝叶斯（Robbins，1955）或这些方法的组合（Klebanov 等，2020）来避免必须选择有意义的先验。这些问题在于，在贝叶斯深度学习中，由于推断问题的高维度性，这些方法往往不可行，因为它们需要计算费舍尔信息矩阵、求解一系列维度不断升高的积分，或将模型参数拆分为“感兴趣参数”和“干扰参数”（Berger & Bernardo，1992）。因此，在贝叶斯深度学习中，选择一个（看似）“无信息”的先验（例如标准高斯分布）已成为常见做法（参见 Fortuin 等，2021d）。

这一趋势令人担忧，因为选择不当的先验会对整个推断过程产生有害后果。虽然选择无信息（或弱信息）先验常常是受伯恩斯坦—冯·米泽斯定理渐近一致性保证的启发（Doob，1949），但该定理实际上在许多应用场景中并不成立，因为其正则性条件未被满足（Kleijn 等，2012）。此外，在我们实际推断的非渐近情形下，特别是在高维设置中，先验可能对后验分布产生强烈影响，常常迫使概率质量集中在参数空间的任意子空间上（Gelman 等，2017）。这意味着，例如，看似无害的标准高斯先验实际上根本不是无信息的（Dawid 等，1973），而是会迫使后验质量集中在薄球形子空间上，而这种情况在大多数情况下并不能反映任何有用的先验知识，并可能严重扭曲推断结果（Gelman，2006；Bhadra 等，2016）。

更糟的是，先验误设可能会破坏我们最初选择使用贝叶斯推断所依赖的那些特性。例如，在先验误设的情况下，边缘似然可能变得毫无意义，导致我们在使用贝叶斯模型选择时选中次优模型（Gelman & Yao, 2020）。此外，de Finetti 著名的荷兰赌论证（de Finetti, 1931）可以扩展到这样的情形：当我们使用不良先验时，我们甚至会被说服接受在期望意义上会输钱的赌注——即使对于前述的客观（Jeffreys）先验也是如此（Eaton & Freedman, 2004）。类似地，Savage 定理（Savage, 1972）——该定理承诺在贝叶斯决策理论下为我们提供最优决策——在先验误设的情况下也会失效（Cerreia-Vioglio 等, 2020）。最后，甚至可以证明，当先验被误设时，PAC-贝叶斯推断在泛化性能方面可能优于贝叶斯推断（Masegosa, 2019; Morningstar 等, 2020）。

从更乐观的角度来看，“没有免费午餐”定理（Wolpert, 1996）指出，没有任何学习算法是普遍优越的，换句话说，不同的学习算法在不同数据集上表现各有优劣。应用于贝叶斯学习，这意味着也不存在普遍优选的先验，但每个任务都可能拥有其自身的最优先验。找到（或至少近似）这个最优先验，便有可能显著提升推断性能，甚至在原本不可能成功推断的情形下实现成功推断。

所有这些观察结果至少应激励我们比实践中通常所做的更加审慎地思考我们的先验选择。但我们是否有理由相信，贝叶斯深度学习中常用的先验确实被误设了呢？一个最近的证据是，在贝叶斯线性模型中，可以证明先验误设会导致为了获得最佳性能而必须对后验进行“冷却”（即使用后验，其中 T < 1）（Grünwald & Van Ommen, 2017）。事实上，这种对后验“冷却”的需求在现代贝叶斯深度学习模型中也已被经验性地观察到（例如 Zhang 等, 2018; Osawa 等, 2019; Wenzel 等, 2020; Fortuin 等, 2021d）。

基于上述所有洞见，现在正是我们批判性反思贝叶斯深度学习模型中先验选择的时候了。幸运的是，我们有许多可替代标准无信息先验的选择。本综述将尝试概述这些替代方案。我们将在第2节回顾现有针对（深度）高斯过程（GPs）的先验设计，在第3节回顾变分自编码器（VAEs）的先验设计，在第4节回顾贝叶斯神经网络（BNNs）的先验设计。然后，我们将在第5节简要概述从数据中学习先验的方法。

2 （深度）高斯过程中的先验

高斯过程在贝叶斯机器学习中拥有悠久的历史，并具备许多有用的性质（Williams & Rasmussen, 1996; Rasmussen & Williams, 2006）。它们是非参数模型，这意味着我们实际上并非在指定关于参数 θ 的先验分布 p(θ)，而是指定关于函数 f 的先验分布 p(f)。该先验也可以包含超参数 ψ，这些超参数用于参数化均值函数 mψ 和核函数 kψ。

尽管这些模型本身并不具备“深度”，但它们与贝叶斯深度学习存在诸多联系，因此值得在本文中加以讨论。接下来，我们将介绍：（1）高斯过程（GP）先验如何通过深度神经网络（DNN）进行参数化（第2.1节）；（2）如何堆叠多个高斯过程以构建更深层的模型（第2.2节）；（3）深度神经网络自身如何转化为高斯过程，或被高斯过程所近似（第2.3节）。

2.1 由深度神经网络参数化的高斯过程

如果选择线性核函数 k lin ( x , x ′ ) = ⟨ x , x ′ ⟩ 作为基础核函数，这将退化为上述的BLL模型。然而，当选择像RBF这样的核函数时，该模型仍然产生一个无限维的再生核希尔伯特空间（RKHS），从而提供一个完整的高斯过程（GP），不会退化为有限维的贝叶斯线性回归。这些方法不仅能产生表达能力非常强的模型，还被证明可以改善诸如对抗鲁棒性等特性（Bradshaw等人，2017）。

当使用深度均值函数（Iwata & Ghahramani, 2017；Fortuin等人，2019b）代替（或与深度核函数结合使用）时，需要采取的预防措施更少，因为几乎任何函数都是有效的GP均值函数。因此，神经网络可以直接用作均值函数本身，即 m ψ ( x ) = ϕ ( x ; ψ ) 。此外，GP中的深度均值函数已被关联到其他流行的学习范式，例如函数主成分分析（PCA）（Fortuin等人，2019b）。然而，与上述深度核函数一样，这些方法的主要问题在于如何选择它们。由于DNNs以难以解释而著称，在看到任何数据之前（即先验地）选择其参数似乎是一项不可能完成的任务。因此，这些方法通常与一些额外的学习算法结合使用，这些算法根据某个目标函数来设置它们的参数。我们将在第5节中提供有关这些算法的更多细节。作为附加的旁注，我们还想提及一种特定类型的GP核函数，即卷积核（van der Wilk等人，2017），它本身并非由神经网络参数化，但在构造上受到卷积神经网络（CNNs）的启发，从而在图像上实现了性能提升。

2.2 深度高斯过程

虽然高斯过程（GPs）可以与深度神经网络（DNNs）结合，正如我们在上一节所见，它们本身也可以用于构建深度模型。这是通过添加 k 个额外的潜在函数 {f₁, ..., fₖ}，其函数输出为 {f₁, ..., fₖ}，以及潜在变量 {z₁, ..., zₖ₋₁} 来实现的，其中每个函数都以前一个潜在变量作为输入，即 fᵢ₊₁ = fᵢ₊₁(zᵢ) 且 f₁ = f₁(x)。在最简单的情况下，所有这些潜在高斯过程仍具有高斯潜在似然 p(zᵢ | fᵢ) = N(fᵢ, σᵢ²I) 和高斯输出似然 p(y | fₖ) = N(fₖ, σₖ²I)。如果每个函数都赋予一个高斯过程先验 p(fᵢ) = GP(mψᵢ(·), kψᵢ(·, ·))，则该模型被称为深度高斯过程（Damianou & Lawrence, 2013）。与DNNs类似，这些模型可以随着深度增加而表示越来越复杂的分布，但与神经网络不同的是，它们仍然提供完整的贝叶斯处理。至关重要的是，与标准高斯过程相比，深度高斯过程可以建模更大一类的输出分布（Duvenaud等人，2014），其中包括具有非高斯边缘分布的分布（Rudner等人，2020）。为了增加灵活性，这些模型还可以在高斯过程层之间耦合变形函数（Dunlop等人，2018）。

虽然这些模型似乎严格优于并更优于标准高斯过程，但它们额外的灵活性是有代价的：后验推断不再能以闭式形式求解。这意味着必须使用近似推断技术来估计后验，例如变分推断（Damianou & Lawrence, 2013；Salimbeni等人，2019）、期望传播（Bui等人，2016）或摊销推断（Dai等人，2016）。一种非常流行的高斯过程近似推断技术基于所谓的诱导点，这些点被选为训练点的子集或通常为训练域的子集（Quiñonero-Candela & Rasmussen, 2005；Snelson & Ghahramani, 2007；Titsias, 2009；Hensman等人，2013；Fortuin等人，2021b）。该技术也可以扩展到深度高斯过程的推断中（Damianou & Lawrence, 2013；Salimbeni & Deisenroth, 2017），或被变分随机特征替代（Cutajar等人，2017）。此外，最近的研究表明，对于某些核函数的选择，神经网络可以被训练为深度高斯过程后验的点估计（Dutordoir等人，2021）。

与推断技术相比，深度高斯过程（deep GPs）的先验选择通常研究得不够充分。虽然作为一个整体的深度高斯过程可以对函数建模一个相当复杂的先验，但单个层的先验（以 mψᵢ 和 kψᵢ 表示）通常被选择为相当简单，例如，具有不同长度尺度的RBF核函数（Damianou & Lawrence, 2013）。一个例外是上述提到的深度高斯过程与卷积高斯过程核函数的组合，这些模型在精神上类似于深度卷积神经网络（CNNs）（Kumar等人，2018；Blomqvist等人，2019；Dutordoir等人，2020）。此外，最近用于深度高斯过程推断的软件包使得实验不同的先验变得更加容易（Tran等人，2018；Dutordoir等人，2021）。因此，人们可以谨慎乐观地认为，在未来几年里，关于更好深度高斯过程先验的研究将会蓬勃发展。

构建具有更具表达力核函数的模型的另一种方法是，实际上用另一个高斯过程来参数化一个高斯过程的核函数（Tobar等人，2015；Benton等人，2019）。具体而言，该（分层）先验为 p(f) = GP(mψ(·), k̂(·, ·))，其中 k̂(x, x') = FT⁻¹(exp s(x - x')) 且 p(s) = GP(0, kψ(·, ·))，这里 FT⁻¹ 是逆傅里叶变换。这也可以被视为一个带有一个隐藏层的深度高斯过程，它同样不允许闭式推断，而是依赖于近似推断，例如使用椭圆切片采样（Benton等人，2019）。最后，通过使用归一化流（normalising flow）转换高斯过程（Maroñas等人，2021），也可以在更低的计算成本下实现类似的表达能力模型，这种方法推广了copula过程的思想（Wilson & Ghahramani, 2010）。

2.3 神经网络的高斯过程极限

将高斯过程（GPs）与深度神经网络（DNNs）联系起来的另一种方式是通过神经网络极限。众所周知，由一个单隐藏层贝叶斯神经网络（BNN）以及任何独立的有限方差参数先验 p(θ) 所诱导的函数空间先验 p(f)，在宽度趋于无穷大的极限下，会收敛到一个高斯过程（GP），这是由于中心极限定理所致（Neal, 1995; Williams, 1996）。该极限高斯过程先验由以下给出：

其中，第一层的先验权重和偏置方差分别为 σ²w₁ 和 σ²b₁，第二层为 σ²w₂ 和 σ²b₂，并且包含非线性激活函数 φ(·)。请注意，此处通常假设权重方差被设定为 σ²wi ∝ 1/ni，其中 ni 是第 i 层的单元数量。该核函数 kNN(·, ·) 随后被称为神经网络高斯过程（NNGP）核。这一结果最近已被扩展到使用 ReLU 激活函数的贝叶斯神经网络（Cho & Saul, 2009）以及深度贝叶斯神经网络（Hazan & Jaakkola, 2015; Lee 等人, 2018; Matthews 等人, 2018），其中较低层的 GP 核具有与上述相同的形式，而较高层的核则采用递归形式。

其中，Kₓₓ'ˡ⁻¹ 是在 x 和 x' 处计算的第 (l-1) 层核函数的 2×2 核矩阵。此外，这些收敛结果也可被证明适用于卷积贝叶斯神经网络（Garriga-Alonso 等人，2019；Novak 等人，2019），甚至适用于具有权重相关性的模型（Garriga-Alonso & van der Wilk, 2021）以及注意力神经网络（Hron 等人，2020）。

虽然这些结果仅适用于独立的有限方差先验，但它们可以扩展到依赖先验，此时得到的高斯过程是对超先验进行边缘化后的结果（Tsuchida 等人，2019），也可以扩展到无限方差先验，此时会导出 α-稳定过程（Peluchetti 等人，2020）。令人兴奋的是，已证明该贝叶斯神经网络先验向随机过程的收敛性，在温和的正则性假设下，也意味着后验的收敛性（Hron 等人，2020）。虽然这些结果通常都是手动推导的，但最近提出的张量程序（tensor programs）理论框架允许以统一的方式重新推导这些结果，包括用于循环架构和批归一化的情况（Yang, 2019a, 2019b, 2020b）。此外，它还允许推导出仅部分层收敛到无限宽度的网络的极限，从而恢复了模型学习潜在特征的能力（Yang & Hu, 2020）。

不仅无限宽的贝叶斯神经网络能导致高斯过程极限，对于无限宽的标准深度神经网络也是如此。然而，关键在于，在这种情况下，高斯过程并非作为初始化时的函数空间先验出现，而是作为梯度下降训练下的一个模型（Jacot 等人，2018；Lee 等人，2020）。具体而言，可以证明在梯度下降训练下的神经网络遵循其函数损失关于所谓“神经切向核”（NTK）的核梯度，该核是

在有限宽度的情况下，该核并不能精确刻画训练行为，但存在近似修正项（Hanin & Nica, 2019）。有趣的是，这一相同的核也可通过神经网络中的近似推断推导得出，从而导致一种隐式的线性化（Khan 等人，2019）。这种线性化也可被显式化，并可用于提升贝叶斯神经网络（BNN）预测性能（Immer 等人，2021），以及加速多任务学习中的快速领域自适应（Maddox 等人，2021）。此外，当将NTK用于核机器（如支持向量机）时，它在小样本数据情形下甚至可优于其来源的原始神经网络（Arora 等人，2019）。与前述NNGP核类似，不同架构的NTK也可借助张量程序（tensor programs）框架重新推导（Yang, 2019a, 2020a），并已有实用的Python软件包支持高效计算NNGP核与NTK（Novak 等人，2019）。最后需指出的是，这种神经网络的线性化也与参数缩放相关联，并被描述为“惰性训练”（lazy training），有研究指出其性能劣于标准神经网络训练方式（Chizat 等人，2019）。

3 变分自编码器中的先验

继高斯过程之后，另一类流行的贝叶斯深度学习模型是变分自编码器（VAE）（Kingma & Welling, 2014; Rezende 等人, 2014）。VAE 是一种贝叶斯潜在变量模型，它假设观测数据 x 是通过一个似然函数 p(x | z) 从不可观测的潜在变量 z 生成的。在 VAE 的情况下，该似然函数由一个在观测数据上训练的神经网络参数化。由于该神经网络的非线性使得后验分布 p(z | x) 的精确推断变得不可行，因此使用一个变分近似 q(z | x) 来对其进行近似，而该近似通常也由一个神经网络参数化。整个模型随后通过优化证据下界（ELBO）进行训练：

3.1 分布式变分自编码器先验

其中，μ 再次表示均值，κ 是集中参数，Γ(·) 是伽马函数。由于伽马函数比修正贝塞尔函数更容易计算，这种密度允许进行闭式评估和可重参数化的采样。经验上，它在 VAE 中产生的性能与 vMF 先验相同，但数值上更为稳定（De Cao & Aziz, 2020）。

另一种类型的先验是混合先验（Dilokthanakul 等人, 2016; Jiang 等人, 2017; Kopf 等人, 2021），通常是形式为高斯分布的混合：

具有 K 个混合成分，其中是混合权重，通常在先验中设置为。这些先验的动机是数据可能由聚类组成，这些聚类在潜在空间中也应该是不相交的（Dilokthanakul et al., 2016），并且它们在许多具有挑战性的数据集上已经显示出优于许多其他聚类方法（Kopf et al., 2021）。然而，与许多其他聚类方法类似，一个挑战是选择聚类数量 K 作为先验。这也可以自动优化，例如，通过指定一个stick-breaking或Dirichlet过程的超先验（Nalisnick & Smyth, 2016），尽管这需要更复杂的推理。

最后，这些先验中的大多数假设数据点之间是独立的。如果我们对数据点之间潜在的相似性有先验知识，并且我们可以将其编码到核函数中，那么高斯过程（GP）可以成为变分自编码器（VAE）的强大先验（Casale et al., 2018; Fortun et al., 2020; Pearce, 2020）。先验通常定义为

其中，Z = (z₁, ..., zₙ) 是潜在变量矩阵，K_zz 再次是核矩阵，其第 (i, j) 个元素为 k(zᵢ, zⱼ)，k(·, ·) 为某个合适的核函数。这些模型已被证明在条件生成（Casale 等人, 2018）、时间序列建模（Pearce, 2020）、缺失数据填补（Fortuin 等人, 2020）和解耦（Bhagat 等人, 2020; Bing 等人, 2021）方面表现出色。但需要注意的是，与标准 VAE 相比，这会带来额外的计算成本，因为它需要对核矩阵进行 O(n³) 的求逆运算（参见公式 6）。然而，该操作可以通过使用诱导点方法（Ashman 等人, 2020; Jazbec 等人, 2021）（参见第 2.2 节）或通过因子化核（Jazbec 等人, 2020）来提高可扩展性。此外，根据生成过程的先验知识，这些模型还可以扩展以使用加性高斯过程先验（Ramchandran 等人, 2020）或张量值先验（Campbell & Liò, 2020）。

3.2 结构化变分自编码器先验

与上述讨论的分布型先验相反，我们将使用“结构化先验”这一术语来指代那些不仅改变 VAE 模型中实际的先验分布 p(z)，同时也改变模型架构本身的先验。这些结构化先验中的一些是上述分布型先验的扩展。例如，前述的高斯混合先验可以扩展为专家混合解码器，即一种因子化的生成似然，其中每个因子仅依赖于一个潜在混合成分（Kopf 等人, 2021）。另一个例子是高斯过程先验，它是在整个潜在数据集 Z 上定义的，因此受益于一个经过修改的编码器（即推断网络），该编码器能联合编码完整的数据集 X（Fortuin 等人, 2020）。

除了这些结合了架构修改的分布型先验之外，还存在一些结构化先验，它们无法在标准VAE架构下实现。一个例子是分层先验（hierarchical priors）（Sønderby 等人, 2016；Zhao 等人, 2017；Vahdat & Kautz, 2020），例如

我们在这里看到，与仅拥有单个潜在变量 z 不同，这些模型具有 K 个不同的潜在变量 {zᵢ, ..., zₖ}，它们在层次结构上相互依赖。这些模型需要额外的生成网络来参数化公式 17 或公式 18 中的条件概率，从而使其能够更好地对具有内在层次结构特征的数据进行建模，并在使用 VAE 进行图像生成时达到最先进的性能（Vahdat & Kautz, 2020）。

另一种类型的结构化先验是离散潜在先验，例如 VQ-VAE 先验（van den Oord 等人, 2017）。

其中，E 是一个有限的原型词典，zₑ 是一个连续的潜在变量，随后被离散化为 zq。至关重要的是，先验并非施加在连续的 zₑ 上，而是施加在离散的 zq 上，即在词典 E 上的均匀先验。这些离散的潜在变量可以非常廉价地存储，从而比标准 VAE 产生更强的压缩效果（van den Oord 等人, 2017）。当将这些模型与上述描述的分层潜在变量结合时，它们也能达到具有竞争力的图像生成性能（Razavi 等人, 2019）。此外，这些离散潜在变量还可以扩展以包含邻域结构，例如自组织映射（Kohonen, 1990），从而得到更具可解释性的潜在表示，这些表示也可用于聚类（Forest 等人, 2019；Fortuin 等人, 2019a；Manduchi 等人, 2019）。最后，类似的拓扑先验也可以通过持久同调（persistent homology）的思想在连续潜在变量上诱导出来（Gabrielsson 等人, 2020；Moor 等人, 2020）。

3.3 神经过程

为了结束本节，我们将考察一种近年来引发大量兴趣、因此值得单独设立小节的结构化 VAE 先验：神经过程（NP）。该模型曾被独立提出，并被称为“部分 VAE”（partial VAE）（Ma 等人, 2019）和（条件）NP（Garnelo 等人, 2018a, 2018b），但后一种命名法已在文献中流行起来。这种 VAE 架构的主要新颖之处在于，它不仅对一种观测变量 x 的分布建模，还对两种变量 (x, y) 的分布建模，这两种变量可以被划分为上下文集和目标集 (x, y) = (xc, yc) ∩ (xt, yt)。这些集合在给定 z 的条件下是相互独立的，即 p(x, y | z) = p(xc, yc | z) p(xt, yt | z)。这使得模型能够基于其他变量，使用变分近似 q(z | xc, yc) 和条件似然 p(yt | z, xt) 来推断未观测的 yt。因此，该模型可用于缺失数据填补（Ma 等人, 2019）和回归（Garnelo 等人, 2018b）任务。请注意，由于似然函数通常以 xt 为条件，而不仅仅是以 z 为条件，因此该模型可以被表述为一种条件 VAE（Sohn 等人, 2015）。

该模型的一个显著特征是所使用的先验，即：

这意味着，对于完整的后验分布 p(z | x, y)，并非使用无条件先验 p(z)，而是利用一部分数据（即上下文集）来对先验进行条件化，而该条件化后的先验本身又通过变分后验（其条件集已缩减）进行近似。虽然这在经典贝叶斯推断中并不典型，并且通常被正统贝叶斯学派所反对，但它与可用于 PAC-贝叶斯界限的数据依赖性预言先验（oracle priors）有相似之处，并已被证明能使这些界限更紧致（Rivasplata 等人, 2020；Dziugaite 等人, 2021）。

神经过程（NP）模型深受随机过程的启发（因此得名），并且在某些假设下已被证明其本身构成一个随机过程（Garnelo 等人, 2018b）。此外，当条件似然 p(yt | z, xt) 被选择为仿射变换时，该模型实际上等价于一个具有神经网络核的高斯过程（GP）（Rudner 等人, 2018）。

自诞生以来，NP 模型已在表达能力上以不同方式得到了扩展，包括在推断和生成模型方面。在推断方面，存在注意力 NP（attentive NPs）（Kim 等人, 2018），它们赋予编码器自注意力机制（从而使模型具备图灵完备性，Pérez 等人, 2021），以及卷积（条件）NP（convolutional (conditional) NPs）（Gordon 等人, 2019；Foong 等人, 2020），它们为模型增加了平移等变性。在生成方面，存在函数型 NP（functional NPs）（Louizos 等人, 2019），它们通过学习潜在变量 z 上的关系图结构，在预测之间引入依赖关系；以及高斯 NP（Gaussian NPs）（Bruinsma 等人, 2021），它们通过用高斯过程替换生成似然来实现类似性质，该高斯过程的均值和核函数是基于潜在变量推断得出的。

4 贝叶斯神经网络中的先验

贝叶斯神经网络（BNNs）（MacKay, 1992；Neal, 1995）是一类神经网络模型，其中模型参数通过贝叶斯推断（参见公式 1）确定，并利用后验预测分布（参见公式 2）进行预测。近年来，这类模型日益受到关注（Jospin 等人, 2020），主要原因在于其不确定性校准能力（Ovadia 等人, 2019）。尽管已有大量关于此类模型的先验分布提案（例如 Nalisnick, 2018 及其中所引文献），但常有观点认为，针对参数的标准高斯先验已足够充分，建模者应将归纳偏置（inductive biases）体现在网络架构的选择上，而非先验设定（Wilson & Izmailov, 2020）。这一观点曾得到一些对小型网络与简单问题开展的初步研究支持，这些研究未能找到高斯先验误设（misspecification）的确凿证据（Silvestro & Andermann, 2020）。

然而，近期工作对高斯先验的恰当性提出了质疑，尤其是高斯先验可能引发所谓“冷后验效应”（cold posterior effect）（Wenzel 等人, 2020），而某些其他先验则不会导致该现象（Fortuin 等人, 2021d）。结合前述关于先验误设的一般性考虑，因此建议在贝叶斯神经网络中亦应探索替代性的先验选择。下文将依次综述定义在权重空间中的先验（第 4.1 节）与定义在函数空间中的先验（第 4.2 节），并进一步展示如何将这些思路拓展至（贝叶斯）神经网络集成（ensemble）中（第 4.3 节）。

4.1 权重空间先验

如前所述，贝叶斯神经网络（BNNs）中最广泛使用的先验是各向同性高斯先验（参见公式 5）（例如 Neal, 1995；Hernández-Lobato & Adams, 2015；Louizos & Welling, 2017；Zhang 等人, 2019；Dusenberry 等人, 2020；Immer 等人, 2021）。当这些先验与 ReLU 非线性结合使用时，已证明网络内部激活值的分布会随着深度增加而变得更重尾（Vladimirova 等人, 2019）。然而，也已表明，这些网络在无限宽度极限下会收敛到高斯过程（GP）（参见第 2.3 节），这曾著名地促使 Dave MacKay 提出疑问：我们是否“连同洗澡水一起把婴儿扔掉了”（MacKay, 1998），因为我们通常选择 BNN 模型正是看中了其相比 GP 具有更强的表达能力（此处“表达能力”指其预测在函数空间中近似不同分布的能力）。此外，最近的研究表明，高斯先验在 BNN 中会导致“冷后验效应”。也就是说，经过温度调整的后验分布（其中 T ≪ 1）的表现优于真实的贝叶斯后验，这暗示了先验误设（Wenzel 等人, 2020）。

标准高斯先验的一个简单扩展是矩阵值高斯分布，它允许权重之间存在额外的相关性（Louizos & Welling, 2016）。其密度函数由以下给出：

其中，M 是均值矩阵，U 和 V 分别是行协方差和列协方差，tr[·] 是迹算子。这些矩阵值高斯分布随后也可用作变分分布，在许多任务上相比各向同性高斯分布能带来性能提升（Louizos & Welling, 2016）。

另一种提高高斯先验表达能力的方法是将其与分层超先验（hierarchical hyperpriors）结合（Graves, 2011; Wu 等人, 2018），这在早期关于贝叶斯神经网络的研究中已被提出（MacKay, 1992），其形式为：

这类分布已被证明在随机过程（Shah 等人, 2014）和贝叶斯神经网络（BNNs）（Ober & Aitchison, 2020）中能更灵活地建模预测方差。此外，在 BNNs 中，已表明像这样的重尾先验（也包括拉普拉斯先验，Williams, 1995）并允许权重相关性，能够减轻冷后验效应（Fortuin 等人, 2021d），这表明它们相比各向同性高斯先验的误设程度更低。最后，当使用学生-t先验时，已证明即使强制要求权重的后验均值为零，也能获得具有表达能力的 BNN 后验分布（Neklyudov 等人, 2018），这突显了这些分布的灵活性。

另一种高斯尺度混合先验是马蹄铁先验（horseshoe prior）（Carvalho 等人, 2009），其形式为：

在贝叶斯神经网络（BNNs）中，马蹄铁先验可促进稀疏性（Ghosh 等人, 2018），并支持可解释的特征选择（Overweg 等人, 2019）。它还可用于辅助神经网络权重的压缩（Louizos 等人, 2017）。此外，在基因组学等应用领域，当有关信噪比的先验知识可用时，此类知识可被编码进这类诱导稀疏性的分层先验中（Cui 等人, 2020）。有趣的是，流行的神经网络正则化技术——Dropout（Srivastava 等人, 2014）——也可被理解为对这类先验的一种近似（Nalisnick 等人, 2019）；并且，借助双重随机推断技术（Hubin & Storvik, 2019），这类先验还可被用于对网络架构的不确定性进行显式建模。最后，印度自助餐过程（Indian Buffet Process, IBP）先验同样可用于鼓励稀疏性并选择更少数量的权重（Kessler 等人, 2019）。

另一种有趣的先验是径向-方向先验（radial-directional prior），它将权重向量的方向与其模长解耦（Oh 等人, 2019），其形式为：

在视觉任务的卷积神经网络（CNNs）的特定情况下，早期研究已经注意到卷积滤波器的权重分布遵循自然图像的统计特性（Srivastava et al., 2003; Simoncelli, 2009）。基于这一见解，已经为贝叶斯CNNs提出了权重先验，这些先验要么使用相关高斯分布来鼓励邻近像素的权重相似（Fortun et al., 2021d），要么使用Gabor函数先验来鼓励整个滤波器的边缘检测（Pearce et al., 2020）。

就更具表现力的先验而言，已经有人提出将参数建模为神经网络的单位而不是权重本身（Karaletsos et al., 2018）。单位 i 和 j 之间的权重将具有先验

其中，函数 g 可以由神经网络（Karaletsos 等人, 2018）或高斯过程（GP）（Karaletsos & Bui, 2020）参数化。Atanov 等人 (2018) 提出了一种具有更高灵活性的类似隐式模型，其形式简单如下：

在这两种先验中，主要的挑战在于选择函数 g。由于手动完成此项工作难度很大，该函数通常通过（元）学习获得（参见第 5.3 节）。最后，近期关于贝叶斯神经网络推断软件包的研究（例如，使用梯度引导的 MCMC 推断，Garriga-Alonso & Fortuin, 2021）使得尝试不同的权重空间先验变得更加容易，从而促进了发现更优先验分布的研究（Fortuin 等人, 2021c）。

4.2 函数空间先验

正如我们所见，对于贝叶斯神经网络（BNNs），人们可以选择许多不同的权重空间先验。当使用某些非标准架构时，例如径向基函数（RBF）网络（Lippmann, 1989），期望的功能属性（例如长度尺度或幅度）可以直接编码进这些先验中（Coker 等人, 2019）。然而，当使用标准 BNN 时，选择合适的参数先验可能颇具挑战性，因为我们通常对期望的函数本身比对参数本身拥有更好的直觉。问题在于，由于神经网络存在众多权重空间对称性（Brea 等人, 2019）和复杂的函数空间几何结构（Fort & Jastrzebski, 2019），从参数到函数的映射是高度非平凡的。这导致了在 BNN 中指定先验的一种替代方法，即直接在函数空间中指定先验，使得：

虽然这两种方法乍一看似乎合理，但已经发现GP和BNN函数空间分布实际上没有相同的支持，并且真正的KL散度因此是无限的（或未定义）（Burt et al., 2020）。因此，最近有人提出使用Wasserstein距离代替，尽管这也需要近似（Tran et al., 2020）。如果一个人想要放弃对明确定义的散度的需求，也可以使用超网络（Ha et al., 2016; Krueger et al., 2017）来隐式地分布BNN权重，然后训练网络以匹配GP样本在某个函数输出集上（Flam-Shepherd et al., 2018）。最后，最近发现岭变换（Candes, 1998）可以用来近似具有BNN权重空间分布的GP函数空间分布（Matsubara et al., 2020）。作为副作用，应该注意到反向操作实际上可以更容易地实现，即拟合GP到BNN的输出（Ma et al., 2019），这在某些应用中也可能有兴趣。

如果一个人不想在函数空间中使用GP先验，仍然可以通过研究无限宽度BNNs的极限来将有用的函数先验知识编码到BNN先验中。例如，通过研究网络的激活函数，发现网络的激活函数对被实现的函数有强烈影响，并且可以通过选择不同的激活函数来调节BNN输出的平滑性或周期性（Pearce et al., 2020）。此外，可以直接在BNN输出上定义先验，这可以对函数在输入空间的某些部分中允许取的值进行强烈的先验假设（Yang et al., 2019），即

该先验可编码这样一种信念：认知不确定性（epistemic uncertainty）应随着远离分布内数据而增长，从而也能使贝叶斯神经网络（BNN）的后验表现出更接近高斯过程（GP）的行为。最后，若我们先验地认为 BNN 所表示的函数不应比另一类函数（例如：更浅层的、甚至线性模型）复杂太多，则可将该类函数用作函数参考先验（functional reference prior），从而对模型预测的复杂度进行正则化（Nalisnick 等人, 2021）。

4.3 贝叶斯神经网络集成
深度神经网络集成（deep ensembles），或称深度集成，是一种类似于自助法（bootstrap, Efron & Tibshirani, 1994）的频率学派方法，已被用于获取神经网络中的不确定性估计（Lakshminarayanan 等人, 2017）。然而，近期有研究指出，这类集成实际上是在近似贝叶斯神经网络的后验预测分布（Wilson & Izmailov, 2020），即：

其中，θᵢ 是 K 个独立训练的、具有相同架构的集成成员的权重。对于线性模型，集成实际上可以被构造为从后验分布中精确采样（Matthews 等人, 2017）；而对于更深层的模型，它们至少能提供真实后验边际似然的下界（Lyle 等人, 2020）。这些模型还可以扩展到具有不同超参数的集成，从而近似一个分层超后验（hierarchical hyperposterior）。此外，通过在集成成员之间共享某些参数，可以使它们更具参数效率（Wen 等人, 2019），这也可以用于近似贝叶斯神经网络推断（Dusenberry 等人, 2020）。尽管这些模型在许多实际任务中表现良好（Ovadia 等人, 2019），但在某些场景下仍可能严重过拟合（Rahaman & Thiery, 2020），导致不确定性校准不佳（Yao 等人, 2019）。然而，最近的研究表明，每个集成成员都可以与一个从函数空间先验中采样的随机函数相结合，而这确实能够产生相对于贝叶斯方法而言更为保守的不确定性估计（Ciosek 等人, 2020）。更具体地说，这类集成的不确定性以高概率至少与使用相应 NNGP 核的高斯过程所给出的不确定性一样大（参见第 2.3 节）。这些结果也可扩展到 NTK（He 等人, 2020）。

使这些深度集成更具贝叶斯特性并融入先验的另一种方法是基于粒子的近似推断方法，例如 Stein 变分梯度下降（SVGD）（Liu & Wang, 2016）。在 SVGD 中，集成成员（或称“粒子”）根据以下规则更新：

其中，η 是步长，k(·, ·) 是权重空间中的核函数。在合适的步长调度下，该更新规则渐近收敛于真实后验分布（Liu, 2017），甚至享有某些非渐近性保证（Korba 等人, 2020）。此外，请注意，它仅需要基于样本访问对数后验的梯度（因此也包括对数先验），这使得它能够与不同的权重空间先验（Hu 等人, 2019；D'Angelo 等人, 2021）甚至函数空间先验（如高斯过程 GP）结合使用（Wang 等人, 2018）。最后，标准的深度集成也可以通过引入一种核化的排斥力直接扩展，类似于 SVGD 中的方法，这同样能导致渐近收敛到真实的贝叶斯后验（D'Angelo & Fortuin, 2021）。

5 （元）学习先验

到目前为止，我们已经探讨了多种不同类型的分布和方法，用于将我们的先验知识编码进贝叶斯深度学习模型中。但如果我们没有任何有用的先验知识可以编码呢？虽然正统的贝叶斯主义在这种情况下会规定使用一个无信息先验（Jaynes, 1968; Gelman 等人, 2013），但也存在其他替代方法来获取先验，即通过从数据中学习它们。如果我们采用传统的贝叶斯模型选择路径，使用边缘似然（即公式 1 中的项 p(D)），我们可以为先验选择一个函数形式 p(θ; ψ)，并针对该量优化其超参数 ψ。这被称为经验贝叶斯（empirical Bayes）（Robbins, 1955）或类型-II 最大似然（ML-II）估计（Rasmussen & Williams, 2006）。尽管在这样的设置下存在对过拟合的担忧，但也有论点认为，边缘似然会自动在拟合优度与模型复杂度之间进行权衡，从而在奥卡姆剃刀原则的精神下实现模型简约性（Rasmussen & Ghahramani, 2001）。

在我们之前已解决过与当前任务相关的任务（所谓“元任务”）的情况下，我们也可以另辟蹊径，依赖于“学会学习”（learning to learn）（Schmidhuber, 1987; Thrun & Pratt, 1998）或元学习（meta-learning）（Baxter, 2000）的框架。如果我们将这一思想应用于以分层贝叶斯方式为贝叶斯模型学习先验，我们就得到了贝叶斯元学习（Bayesian meta-learning）（Heskes, 1998; Tenenbaum, 1999; Fei-Fei 等人, 2003; Lawrence & Platt, 2004）。然后，这种方法还可以扩展到现代基于梯度的方法（Finn 等人, 2018; Grant 等人, 2018; Yoon 等人, 2018）。

虽然这些 ML-II 优化和贝叶斯元学习的思想原则上可用于学习上述讨论的大多数先验的超参数，但我们将在下文简要回顾一些它们成功应用的实例。遵循上文的一般结构，我们将探讨为高斯过程（GP）学习先验（第 5.1 节）、为变分自编码器（VAE）学习先验（第 5.2 节）以及为贝叶斯神经网络（BNN）学习先验（第 5.3 节）。

5.1 学习高斯过程先验

遵循 ML-II 优化的思想，我们可以使用边缘似然来选择高斯过程均值函数和核函数的超参数。方便的是，对于高斯过程（具有高斯观测似然），其边缘似然有闭式解，如下所示：

其中，N 是数据点的数量，Kₓₓ 是数据点上的核矩阵，σ² 是观测似然的噪声。我们可以看到，第一项衡量了模型的拟合优度，而第二项（核矩阵的对数行列式）则衡量了模型的复杂度，从而融入了奥卡姆剃刀原则（Rasmussen & Williams, 2006）。

虽然该量可用于优化简单核函数（如 RBF 核的长度尺度）的超参数，但它也可用于更富表达力的核函数。例如，可以在傅里叶域中定义一个谱混合核（spectral mixture kernel），然后使用边缘似然来优化基函数的系数，这可以恢复一系列不同的核函数（Wilson & Adams, 2013）。为了使核函数更具表达力，我们还可以允许不同核函数的加法和乘法组合（Duvenaud 等人, 2013），这最终可导致“自动统计学家”（automatic statistician）（Lloyd 等人, 2014），即一个能够根据数据和某种核语法自主选择其自身问题相关核组合的模型。尽管该模型由于组合搜索空间的规模而天真地扩展性不佳，但可以通过更廉价的近似方法（Kim & Teh, 2018）或使核语法可微分（Sun 等人, 2018）来提高其可扩展性。

另一条途径，正如上文已提及的（参见第 2.1 节），是使用神经网络来参数化核函数。最早尝试是训练一个深度信念网络（deep belief network）以学习数据特征，并将其用作核函数（Salakhutdinov & Hinton, 2007），但后来的方法直接使用边缘似然来优化神经网络核函数（Calandra 等人, 2016），通常结合稀疏近似（Wilson 等人, 2016a）或随机变分推断（Wilson 等人, 2016b）以实现可扩展性（参见公式 7）。在此基础上，最近的研究提出正则化所用神经网络的利普希茨连续性（Lipschitzness），以使学习到的核函数能保持数据点之间的距离，从而改善其分布外不确定性（Liu 等人, 2020; Fortuin 等人, 2021a）。尽管所有这些方法仍依赖于公式 35 中的对数行列式项来防止过拟合，但研究表明，当所使用的神经网络被过度参数化时，这种保护措施不幸地不够有效（Ober 等人, 2021）。然而，这个问题可以通过在神经网络参数上添加一个先验来解决，从而有效地将它们转化为贝叶斯神经网络（BNNs），并将整个模型转变为一个恰当的分层贝叶斯模型。需要指出的是，这些技术不仅可用于学习在特定任务上表现良好的高斯过程先验，还可用于从数据中学习某些不变性（van der Wilk 等人, 2018），或将高斯过程先验拟合到其他（隐式的）函数空间分布上（Ma 等人, 2019）（参见第 4.2 节）。

正如上文所述，如果我们有相关的可用任务，我们可以利用它们来元学习高斯过程先验。这可以应用于核函数（Fortuin 等人, 2019b; Patacchiola 等人, 2020）以及均值函数（Fortuin 等人, 2019b），通过在这些元任务上优化边缘似然来实现：

5.2 学习变分自编码器先验

变分自编码器已经使用ELBO（参见方程12）进行训练，这是边际似然的下界。此外，它们的似然是在这个目标上训练的，而不是像大多数其他贝叶斯模型那样固定先验。因此，可以预期变分自编码器也适合使用它们的ELBO来学习其先验。实际上，ELBO可以进一步分解为

如上所述，相比常见的标准高斯先验，高斯混合先验（Dilokthanakul 等人, 2016）（参见第 3.1 节）构成了一类更具表达能力的先验分布族；尤其当混合成分数量增加时，这类混合模型可任意逼近任意光滑分布（Dalal & Hall, 1983）。这些 VAE 先验可借助证据下界（ELBO）进行优化（Guo 等人, 2020）；然而，研究发现这种做法可能导致严重过拟合（Tomczak & Welling, 2018），再一次凸显出边缘似然（或其下界）并不能总有效防止过拟合（参见第 5.1 节）。作为替代方案，有研究建议将混合成分参数化为某些诱导点上的变分后验分布，即：

其中，xᵢ 是可学习的（Tomczak & Welling, 2018）。这确实可以在不过拟合的情况下提升 VAE 的性能，并且由于该先验是基于数据空间中的诱导点定义的，因此它也可以直接与分层 VAE 结合使用（Botros & Tomczak, 2018）。

由于混合模型会加剧 KL 散度计算的复杂性，并需要对成分数量 K 做出困难的选择，一种替代方案是使用由可学习函数参数化的隐式先验。一个针对图像数据的具体例子是：在 VAE 中，潜在空间能够保持数据的形状；也就是说，z 不再仅仅是向量，而是 2D 或 3D 张量。在这样的模型中，可以定义一个关于 z 的分层先验，该先验通过在潜在维度上进行可学习的卷积操作来参数化（Gulrajani 等人, 2017）。另一种指定可学习分层先验的方法是使用记忆模块，此时先验依赖于存储的记忆，而记忆本身则与模型的其余部分一同学习（Bornschein 等人, 2017）。更一般地，可以在 VAE 中将隐式先验分布定义为：

其中，g(·; ψ) 是一个可学习的微分同胚（diffeomorphism），例如归一化流（normalising flow）（Rezende & Mohamed, 2015）。这一点已通过 RealNVP 流成功得到验证（Dinh 等人, 2016），研究表明，即使仅使用单一潜在维度，VAE 也能学习到极具表达能力的潜在表示（Huang 等人, 2017）。此外，已有研究证明，以这种方式在先验中使用自回归流（autoregressive flow）（Kingma 等人, 2016）等价于在解码器中使用逆自回归流（Chen 等人, 2016）。

最后，人们还可以通过一个乘法项来重塑某些基础先验，即：

其中，α(z; ψ) 是某个可学习的接受函数（Bauer & Mnih, 2019）。根据 α 函数的形式，该先验的归一化常数可能无法解析计算，因此需要借助近似方法，例如接受/拒绝采样（Bauer & Mnih, 2019）。有趣的是，当定义能量函数 E(z; ψ) = -log α(z; ψ) 时，上述模型可被视为一种潜在能量模型（latent energy-based model）（Aneja 等人, 2020; Pang 等人, 2020）。此外，当将此函数定义为数据空间中某个判别器 d(·) 的期望形式，即 α(z; ψ) = Eₓ~p(x|z)[d(x; ψ)] 时，这会产生一种所谓的“回拉先验”（pull-back prior）（Chen 等人, 2020），它与生成对抗网络（generative adversarial networks）相关（Goodfellow 等人, 2014）。

5.3 学习贝叶斯神经网络先验

最后，我们将探讨为贝叶斯神经网络（BNNs）学习先验。由于 BNN 权重空间的高维度以及权重与函数之间复杂的映射关系（参见第 4.1 节），在文献中很少尝试学习 BNN 先验。一种可被宽泛称为“学习”的手动先验指定程序是 Fortuin 等人 (2021d) 提出的方法，作者们使用梯度下降训练标准神经网络，并利用其经验性的权重分布来指导他们的先验选择。当涉及到恰当的 ML-II 优化时，BNNs 会带来额外的挑战，因为它们的边缘似然通常难以计算，甚至其下界也很难求得。因此，迄今为止，使用 ML-II 学习 BNN 先验主要集中在学习具有高斯近似后验的 BNN 中的高斯先验参数，其中后验分布要么通过矩匹配法（moment-matching）（Wu 等人, 2018）计算，要么使用拉普拉斯-广义高斯-牛顿方法（Laplace—generalised Gauss—Newton method）（Immer 等人, 2021），即：

再次，如果有元任务可用，可以尝试元学习BNN先验。对于CNN，例如，可以在元任务上训练标准神经网络，然后学习一个生成模型（例如VAE）来处理滤波器权重。然后可以将这个生成模型用作卷积滤波器的BNN先验（Atanov et al., 2018）。在只有少数元任务的情况下，也可以再次使用PAC-贝叶斯界限来避免元过拟合，至少在元学习高斯BNN先验时（Rothfuss et al., 2021）。最后，如果我们没有访问实际的元任务，但我们了解数据中的不变性，我们可以使用数据增强来构建元任务，并使用它们来学习一个（近似）对这些增强不变的先验（Nalisnick & Smyth, 2018），即：

6 结论

我们主张：在贝叶斯模型中选择合适的先验，对于真正实现其广受赞誉的理论与经验性质（包括不确定性估计、模型选择与最优决策支持等）至关重要。尽管当前贝叶斯深度学习领域的实践者往往倾向于采用各向同性高斯（或类似非信息性）先验，但我们亦强调：这类先验通常存在误设问题，并可能在推断过程中引发若干非预期的负面后果。另一方面，若先验选择得当，则不仅能提升模型性能，还可催生全新的应用可能。幸运的是，针对（深度）高斯过程（GPs）、变分自编码器（VAEs）和贝叶斯神经网络（BNNs）等主流贝叶斯深度学习模型，已有大量替代性先验可供选择。此外，在某些情形下，甚至可仅凭数据本身学习出对这些模型有益的先验。

我们希望本综述——尽管不可避免地存在某些方面的不完备性——能为感兴趣的读者提供一份关于贝叶斯深度学习中先验研究现状的初步概览，并就如何选择先验给予一定指导。我们也期望借此鼓励该领域从业者更审慎地对待先验选择，考虑放弃标准高斯先验，转而采用本文所述的某类替代先验；更理想的是，能以这些先验为启发，针对自身模型设计出更契合的先验。倘若从业者能将通常用于设计日益复杂推断技术的精力中，仅分出一小部分用于反思和改进先验选择，那么这一努力便已值得。

原文：https://onlinelibrary.wiley.com/doi/10.1111/insr.12502

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.