空间贝叶斯神经网络|高维|算法|拟合|参数化|深度思考模型

分享至

Spatial Bayesian neural networks 空间贝叶斯神经网络

https://www.sciencedirect.com/science/article/pii/S2211675324000162

摘要
用于空间过程的统计模型在空间数据分析中起着核心作用。然而，实践中常规使用的往往是那些简单、可解释且被充分理解的模型，尽管先验和后验预测检验表明，这些模型可能无法很好地刻画所关注底层过程中的空间异质性。本文提出了一类新的、灵活的空间过程模型，我们称之为空间贝叶斯神经网络（Spatial Bayesian Neural Networks, SBNNs）。SBNN 利用贝叶斯神经网络的表示能力，并通过在网络中引入一个空间“嵌入层”（embedding layer），以及可能采用空间变化的网络参数，使其适用于空间场景。SBNN 的校准方式是：将其在空间精细网格上各位置处的有限维分布与目标过程的有限维分布进行匹配。该目标过程可能易于模拟，或者我们可能拥有其大量实现样本。我们提出了 SBNN 的若干变体，其中大多数在相同复杂度下比传统 BNN 更能准确匹配目标过程在选定网格上的有限维分布。我们还证明，SBNN 能够表示实践中常用的各种空间过程，例如高斯过程、对数正态过程和极大稳定过程（max-stable processes）。我们简要讨论了可用于 SBNN 推断的工具，并在最后总结了其优势与局限性。

关键词：高斯过程；哈密顿蒙特卡洛；对数正态过程；非平稳性；Wasserstein 距离

引言
大多数空间数据分析的核心是一种空间过程模型。空间统计学家可选择的模型种类繁多，从无处不在的高斯过程模型（例如，Rasmussen 和 Williams，2006），到跨高斯类（trans-Gaussian）空间模型（例如，De Oliveira 等，1997），再到更为复杂的空间极值模型（例如，Davison 和 Huser，2015）。每一类模型本身都十分丰富，由此引发了一系列问题：应选用哪一类协方差函数？模型是否应考虑各向异性或非平稳性？模型是否应为非高斯的？该模型是否能带来计算高效的推断？在进行空间统计分析时，需要做出大量建模决策并进行诊断检验（Cressie，1993），而每当空间统计学家面对新数据时，都必须重复这一过程。典型的分析流程要求使用者不仅熟悉大量可用的模型，还需掌握同样多样且复杂的计算工具。

在本文中，我们提出了一种空间统计分析的新范式，其核心在于使用 单一且高度自适应的空间过程模型类 ，而不依赖于数据性质或具体应用场景。我们将该模型类中的成员称为 空间贝叶斯神经网络 （Spatial Bayesian Neural Network, SBNN）。我们通过将 SBNN 在空间精细网格上各位置处的分布与所关注的空间过程的分布进行匹配，来对其进行校准。SBNN 由权重和偏置参数化，但其参数化维度很高，且其形式不随使用场景而改变。因此，无论具体应用或目标空间过程如何，均可使用相同的校准技术和算法。使用 SBNN 建模的主要目的是 免除空间统计学家在建模和计算方面做出复杂决策的负担 。

SBNN 的核心是一个贝叶斯神经网络（Bayesian Neural Network, BNN；Neal, 1996），即网络参数（权重和偏置）被赋予先验分布的神经网络。

贝叶斯神经网络在空间或时空统计中并非全新概念。例如，McDermott 和 Wikle（2019）将其用于时空预测；Payares-Garcia 等（2023）将其用于从磁共振图像中对神经退行性疾病进行分类；Kirkwood 等（2022）则将其用于地球化学制图。然而，迄今为止的应用通常基于对权重和偏置施加较为简单的先验分布：这些先验通常是用户指定的、固定的，或与参数无关的。尽管这类先验易于定义，但很可能导致先验空间过程模型退化，或至少严重偏离所关注的真实过程的特性；参见 Neal（1996）在深度神经网络背景下、以及 Duvenaud 等（2014）和 Dunlop 等（2018）在深度高斯过程背景下对此的相关讨论。这种退化源于神经网络的高度非线性特性，以及权重和偏置上的先验分布对空间过程性质所产生的复杂且不可预测的影响。虽然在数据量充足时，空间过程模型选择不当可能影响不大，但在数据稀缺或对模型参数信息量不足的情况下，这一问题很可能带来严重后果。

本文所依托的核心思想源自 Tran 等（2022）提出的方法，我们将其概括如下：如果拥有足够多来自目标过程的实现样本，则可以校准一个 BNN，使其有限维分布紧密逼近底层目标过程的有限维分布。一旦完成校准，在观测到新数据后，便可使用 BNN 参数后验分布的推断方法；这些方法通常涉及随机梯度哈密顿蒙特卡洛（SGHMC；Chen 等，2014）或变分贝叶斯（例如 Graves，2011；Zammit-Mangion 等，2022）。这一范式具有吸引力：从建模角度看，每次开展新分析时无需再寻找合适的空间过程模型类，且无论考虑何种数据，均可使用相同的推断工具。从深度学习角度看，校准避免了在空间或时空分析中使用固定先验 BNN 可能带来的病态问题。

Tran 等（2022）的方法在其通过蒙特卡洛方法实现计算和内存高效校准方面具有创新性。然而，他们所考虑的 BNN 不能直接应用于空间问题。我们 SBNN 的一个新颖之处在于：引入了空间嵌入层（spatial embedding layer）。我们证明，这些设计有助于更好地捕捉目标空间过程的空间协方差结构和非平稳行为。具体而言，我们展示了若干此类 SBNN 在匹配目标空间过程的选定高维有限维分布方面，优于复杂度相近的传统 BNN。

第 2 节中，我们阐述 SBNN 的动机并构建其结构；第 3 节详细说明 SBNN 的校准方法，该方法紧密遵循 Tran 等（2022）的思路；第 4 节表明，我们的 SBNN 可作为高质量代理模型，适用于平稳和高度非平稳的高斯过程，以及对数正态空间过程；第 5 节概述 SBNN 在实践中的应用方式：作为随机生成器和用于推断；最后，第 6 节总结讨论 SBNN 的优势与局限性。

2 方法论

2.1 用于空间数据的贝叶斯神经网络

贝叶斯神经网络（BNN）（Neal, 1996, pp. 10–19）是由非线性随机函数组成的。每个函数构成网络中所谓的“层”。在空间数据分析的背景下，BNN 用于对空间域 D ⊂ ℝᵈ 上的空间过程 Y(·) 建模，其中 s ∈ D 是 BNN 的输入，空间维度 d 较小；通常，d ∈ {1,2,3}。我们定义 BNN 如下：

过程 Y(·) 的有限维分布完全由定义 θ 的权重和偏置的先验分布决定。于是自然会提出一个问题：我们应该为权重和偏置选择什么样的分布？这个问题没有直接的答案，很大程度上是因为 BNN 固有的非线性使得 θ 的先验分布与过程 Y(·) 的分布之间的关系难以直观理解。然而，这一选择至关重要：例如，人们可能将权重和偏置建模为独立变量，并赋予其 Gau(0,1) 分布，但这种选择会导致一个看似退化的随机过程。作为说明，图 1 显示了当所有权重和偏置均独立地从 Gau(0,1) 分布模拟时，在 D ≡ [−4,4] 上从过程 Y(·) 绘制的样本路径。请注意，随着层数从 L = 1（左上角面板）增加到 L = 8（右下角面板），过程的样本路径在 s ∈ D 上趋于平坦化。显然，L = 8 的随机过程对于涉及空间数据的应用而言是一个不合理的模型。

在第 3 节中，我们展示了如何校准这些先验分布（即估计参数化先验均值和方差的超参数），以便使 Y(·) 在 D 的精细网格点上所选的高维和有限维分布——与另一个用户指定的空间过程的分布高度匹配。如第 4 节所示，我们将式 (1) 给出的普通 BNN 校准到通常使用的空间模型（例如，高斯过程）时遇到了困难，因为我们无法获得一个其有限维分布接近目标空间模型的 BNN。这很可能是因为式 (1) 中的普通 BNN 并未针对空间数据进行定制。我们的 SBNNS 对式 (1) 进行了修改，以两种专门旨在建模空间依赖性的方法。这些修改（将在以下小节中讨论）导致了一类 SBNNS，它们能够比具有相似复杂度的 BNN 更紧密地匹配目标空间过程。

2.2 空间贝叶斯神经网络

如下文第 4 节所示，我们在使用普通 BNNs（即式 (1) 和 (2)，其中 f₀(s; θ₀) ≡ s，s ∈ D）时，经常发现难以捕捉空间协方差。这证实了 Chen 等人（2023）的研究结果，他们认为经典神经网络在用于空间预测时难以轻易整合输入之间的空间依赖性。在他们的论文中，他们通过在网络的第一层使用一组空间基函数来缓解这一问题，他们称该过程为 deepKriging。我们还发现，加入这一“嵌入层”极大地提高了 SBNNS 表达真实协方差的能力（见第 2.2.1 节）。然而，我们发现即使有了嵌入层，我们的 SBNNS 仍倾向于无法捕捉复杂的非平稳行为。为解决此问题，我们使出现在 SBNNS 中的参数在空间上变化（见第 2.2.2 节）。

2.2.1 SBNNS 中的嵌入层

其中，|l| 是欧几里得范数。我们设定 T，使得径向基函数具有适当的重叠程度，这在低秩空间建模中很常见（例如，Cressie 和 Johannesson，2008；Nychka 等人，2018；Zammit-Mangion 和 Cressie，2021）；补充材料中的图 S1 给出了一个示例。给定一个空间位置 s ∈ ℝᵈ，嵌入层的输出为 p(s; T) ∈ ℝ^{d₀}，其维度 d₀ = K。因此，空间嵌入层表示一个向量 p(s; T) ∈ (0, 1)^K，该向量由空间位置 s 索引，编码了输入 s 与每个 RBF 质心的邻近程度。pk(s; T) 的值接近 1 表示点 s 接近质心 Sk，随着 s 远离 Sk，其值迅速减小。如果 SBNN 的权重和偏置是从空间不变先验分布中抽取的，我们将所得网络称为具有空间不变参数的 SBNN（SBNN-I）。

2.2.2. 空间变化的网络参数

在第 4 节中，我们展示了嵌入层对于 SBNN 建模协方差通常是重要的，但我们也展示了为了建模非平稳性，还需要更多的东西。一种自然引入额外灵活性以更好地捕捉空间异质性行为的方法，是改变 SBNN-I 的权重和偏置，使它们随空间变化。我们通过将每个权重和偏置的分布定义为高斯分布来实现这一点，其均值和方差都在 D 上平滑变化。作为实际问题，我们采用与嵌入层相同的基函数 p(·; T) 来建模平滑变化的均值和方差。

为便于标记，考虑一个现在随空间变化的权重或偏置参数 θ。我们将 θ 的先验均值建模为

在该模型下，对于任意两个位置 s ∈ D 和 r ∈ D，有 cov(θ(s), θ(r)) = σ(s)σ(r)，因此 corr(θ(s), θ(r)) = 1。这是一个相当不灵活的先验（空间）模型，但它的优点是不会引入额外的协方差超参数，否则这些超参数将需要被估计。对于给定权重或偏置，θ 的所有平滑性都由其 μ(·) 和 σ(·) 所诱导，而这两者本身在构造上就是平滑的。由于存在许多权重和偏置（即许多 θ），因此也存在许多 θ（每个权重和偏置对应一个），我们将它们建模为相互独立。在校准时，我们不是估计标量均值和标准差，而是估计每个权重和偏置参数（或其组）对应的系数 αk 和 βk，k = 1, ..., K。我们将所得网络称为具有空间变化参数的 SBNN（SBNN-V）。

我们在图 2 中展示了 SBNN-V 的架构。请注意，通过将神经网络参数的均值和标准差设定为（4）和（5）的形式，我们在网络架构中引入了所谓的跳跃连接（skip connections），这些连接将嵌入层 p(·; T) 的输出直接馈送到后续每一层。这种跳跃连接的使用方式类似于其在流行架构 ResNet 中的用途，用于特征复用（He 等人，2016）。该 SBNN-V 也可以被视为一个简单的超网络（hyper-network），因为权重和偏置的先验均值和标准差本身即为一层浅层网络的输出（例如，Malinin 等人，2020）。

2.2.3. BNN 与 SBNN 的模型设定

一个 SBNN 包含大量（可能多达数千个）权重和偏置，与典型的 BNN 一样，我们将这些参数建模为相互独立的。然而，必须做出一个选择：是为所有这些独立参数分别赋予不同的先验分布，还是假设参数在组内独立同分布（i.i.d.）。在本研究中，我们将同时考虑这两种方案。前一种“逐参数先验”（prior-per-parameter）方案的优点在于它能构建出高度灵活的 SBNN，但缺点是在校准过程中需要存储和估计大量超参数。对于后一种方案，我们将参数按层分组，称之为“逐层先验”（prior-per-layer）方案（注意：其他分组方式也是可能的；参见 MacKay, 1992）。该“逐层先验”方案的优点在于校准过程中所需估计的超参数数量显著减少，因此在此方案下构建的 SBNN 更易于且更快速地完成校准。然而，我们在第 4 节中发现，尽管“逐层先验”方案已足够灵活，能够对某些感兴趣的随机过程进行建模，但在某些情况下，采用“逐参数先验”方案的 SBNN 可能对目标过程具有更好的校准效果。

接下来，我们将详细阐述这两种方案下的 SBNN 模型：“逐层先验”方案（“SBNN-IL” 和 “SBNN-VL”）以及“逐参数先验”方案（“SBNN-IP” 和 “SBNN-VP”）。为完整起见，我们还概述了标准 BNN 的变体，其参数在定义上具有空间不变性（“BNN-IL” 和 “BNN-IP”）。

SBNN-IL：采用“逐层先验”方案的 SBNN-I（SBNN-IL）由以下分层空间统计模型给出：

使用 Wasserstein 距离对 SBNN 进行校准

现在我们假设可以访问定义在 D 上的另一个随机过程 Y(·) 的实现，我们称之为目标过程。这些来自 Y(·) 的实现可以是随机模拟器的输出，也可以是再分析产品的数据。我们进一步希望 SBNN 的某个有限维分布能够“匹配”该目标过程的对应分布，具体含义如下所述。在本节中，我们概述一种调整 SBNN 超参数 ψ 的方法，以实现这一目标；我们将选择 ψ 使得两个过程的某个有限维分布尽可能接近的过程称为“校准”。

校准是一项困难的任务，因为它涉及探索高维分布函数的空间，直到最近才在计算上变得可行。我们所采用的校准方法详见 Tran 等人（2022），该方法使得该问题在计算上可处理。他们的方法基于通过蒙特卡洛近似，最小化两个过程有限维分布之间的 Wasserstein 距离（参见 Panaretos 和 Zemel，2019）。

考虑一个 d × n 的位置矩阵 S = (s₁, ..., sₙ)，其中 s₁, ..., sₙ ∈ D，n ≥ 1（通常 S 是 D 的一个精细网格）。对于 SBNN-V，ψ = {θ(s₁), ..., θ(sₙ)} 是在这些位置上的参数集合。由 (1) 式，Y = (Y(s₁), ..., Y(sₙ))′ = (f(s₁; θ(s₁)), ..., f(sₙ; θ(sₙ)))′ = f_θ 表示一个向量，其元素为过程在这些位置上的取值。对于 SBNN-I 变体，定义相同，只是将 θ(sᵢ) 替换为 θ，i = 1, ..., n。Y 的分布在解析上是不可处理的，但从其进行模拟是直接的，因为 p(θ; ψ)（权重和偏置的先验分布）易于模拟（参见例如 (6) 式），且 Y = f_θ 是 θ 的确定性函数（参见 (1) 式）。

我们将第二个或目标过程 Y(·) 在相同位置上的取值记为 Y = (Y(s₁), ..., Y(sₙ))。我们通过最小化这两个分布之间的差异，将 Y 的分布与 Y 的经验分布进行匹配。自然的选择是最小化 Kullback-Leibler 散度；然而，该散度项中包含一个熵项，该项在解析上不可处理，且在计算上难以近似（Flam-Shepherd 等人，2017；Delattre 和 Fournier，2017）。相比之下，Wasserstein 距离不会带来这样的困难。

Wasserstein 距离是衡量两个概率分布之间差异的一种度量。正如 Tran 等人（2022）中所述，我们考虑 Wasserstein-1 距离的一个特例，其形式如下：

注意，(13) 和 (16) 共同构成了一个两阶段优化问题，我们使用梯度方法来解决。在第一阶段，我们称之为内循环优化，我们在保持 ψ 固定的情况下，使用梯度上升法优化 λ，以建立固定 ψ 值下的 Wasserstein 距离。在第二阶段，我们称之为外循环优化，我们进行一次梯度下降步骤，以找到一个新的 ψ（依赖于 λ），从而减少 Wasserstein 距离。我们在外循环优化阶段每次只进行一步，因为需要为每个新的 ψ 值重新建立 Wasserstein 距离。我们从 Y、Ỹ 和 Y̅ 生成 N 个样本，每个内循环优化一次，每个外循环步骤一次。我们迭代这两个阶段，直到经过几次外循环优化步骤后，Wasserstein 距离不再显著减少。

上述概述的校准过程优化 ψ，使得 Y 的分布（即 Y(·) 在 S 上的评估）在 Wasserstein-1 意义上接近 Ỹ（即 Ỹ(·) 在相同位置矩阵 S 上的评估）。S 的选择决定了被比较的有限维分布。在我们可以访问 Y 的实现但无法从 Ỹ(·) 在任意位置进行模拟的应用中，S 由应用决定。当我们可以从 Ỹ(·) 自由模拟时，由于 d 在空间应用中通常很小，可以将 S 定义为 D 上的一个精细网格，这也是我们在本文中提出的方法。优化的超参数 ψ* 导致一个 SBNN，Y(·)，在 S 上的位置很好地逼近目标过程 Ỹ(·)。

模拟研究

在本节中给出的所有模拟研究中，我们考虑了一个特殊情况，即目标过程 Ỹ(·) 是已知的，并且可以轻松模拟，以便我们可以将 (S)BNN 与它们校准的过程进行比较。在实践中，目标过程可能是未知的，因此我们可能需要从该过程中获取实现，以便用于校准 (S)BNN。这些实现可能来自远程传感仪器或随机模拟器。我们考虑了 Ỹ(·) 的三种过程：一个平稳高斯空间过程（第 4.1 节）；一个非平稳高斯空间过程（第 4.2 节）；以及一个平稳对数正态空间过程（第 4.3 节）。我们定义所有这些过程在一个二维空间域 D = [-4, 4] × [-4, 4] 上，并设置 s₁, ..., sₙ 作为 D 上 64 × 64 网格的质心（因此 S 是一个 2 × 4096 的矩阵）。对于激活函数 φₗ(·)，l = 0, ..., L-1，我们使用 tanh(·) 函数，其中 tanh : t ↦ (e²ᵗ - 1)/(e²ᵗ + 1)。我们使用 L = 4 层，并设置每个隐藏层的维度为 40；也就是说，我们设置 d₁ = d₂ = d₃ = 40。输入和输出维度为 d = 2 和 d₄ = 1，而对于普通 BNNs，d₀ = 2，对于 SBNNs，d₀ = K，其中 K 是嵌入层中基函数的数量。我们让 φₙₙ(·; λ) 成为一个具有两个隐藏层的神经网络，每层形式为 (2)，维度为 200，并使用 softplus 激活函数。我们收集在 λ 中的两层的权重和偏置，通过从 [-√z, √z] 的有界均匀分布中模拟来初始化，其中 z 由相应层的输入维度的倒数给出（He 等人，2015）。

在整个模拟研究中，我们考虑了第 2.2.3 节中讨论的六种 (S)BNN，并在表 1 中进行了总结。对于 SBNNs，我们设置 f₀(·; θ₀) = ρ(·; τ) 如 (3) 式，长度尺度 θ₀ = τ = 1，并使用 K = 152 个径向基函数排列在 D 上的 15 × 15 网格中。在补充材料的图 S1 中，我们展示了基函数的一个子集的评估，其质心在 s = (0, s₂)′ 上变化，其中 s₂ ∈ [-4, 4]。我们没有进行详细的实验来分析结果如何随 τ 变化；假设基函数之间的重叠是合理的，我们预计结果不会因 τ 而显著变化。

对于我们的六种模型，初始化时将所有 μᵢ 设置为零，所有 σᵢ 设置为 BNN-I 和 SBNN-I 变体的 1。对于 SBNN-V 变体，我们将所有 αᵢ 设置为零，同时独立地从均值为零、方差为单位的正态分布中模拟所有 βᵢ。在进行校准时，我们从权重和偏置的先验分布中采样 N 个参数向量 {Θ⁽⁰⁾ᵢ : i = 1, ..., N}，从 (S)BNN {Y⁽ⁱ⁾(·) : i = 1, ..., N} 中采样 N 个相应的实现，以及从目标过程 {Ỹ⁽ᵢ⁾ : i = 1, ..., N} 中采样 N 个实现，其中 N = 1024 对于 BNN-I 和 SBNN-I 变体，N = 512 对于 SBNN-V 变体，以减少内存需求。使用这些模拟，我们在优化 λ 并保持 ψ 固定在 (15) 中（内循环优化）时进行 50 次梯度步骤。然后我们在优化 ψ 并保持 λ 固定在 (16) 中（外循环优化）之前重新模拟 Y(·) 和 Ỹ(·) 的 N 个实现。回想一下，我们在 (11) 中优化 ψ 时，Wasserstein 距离仅依赖于 ψ，并且每次更新 ψ 时都需要重新建立（即，λ 需要重新估计）。我们重复这个两阶段过程，迭代优化 λ 和 ψ（始终使用最近更新的 λ 和 ψ 值作为初始条件），直到 Wasserstein 距离稳定。由于我们在进行校准时“即时”生成数据，过拟合的风险很小（Chan 等人，2018）；参见补充材料中的图 S2，展示了所有模型和模拟实验的 Wasserstein 距离随外循环优化步骤的变化情况。请注意，由于 1-Lipschitz 函数需要使用神经网络进行近似，如第 3 节所述，我们使用 Adagrad 和 RMSprop（Kochenderfer 和 Wheeler，2019）策略来调整内循环和外循环优化中的梯度步骤大小。在表 2 中，我们展示了我们考虑的六种 (S)BNN 在最终 100 次外循环迭代中 Wasserstein-1 距离的平均值。在此表中，我们还列出了与每个模型相关的超参数数量。在“每层先验”BNN-IL 和 SBNN-IL 的情况下，每层的超参数数量为 16（每层两个均值和两个方差超参数）。在“每层先验”SBNN-VL 的情况下，每层的超参数数量为L = 4 层 = 900，总共 4 × 900 = 3600 个超参数。“每层先验”模型的参数化程度更高，因为对于这些模型，超参数的数量与模型中的权重和偏置数量成线性增长。BNN-IL 和 BNN-IP 的权重和偏置数量为 3441，而具有嵌入层的 SBNNs 为 12361。将 BNN-I 和 SBNN-I 变体的参数数量乘以 2，SBNN-V 变体乘以 2K，可以得到与这些“每层先验”模型相关的总超参数数量。表中的粗略观察表明，更多的超参数通常（但不总是）会导致更低的 Wasserstein 距离，并且 SBNN 变体通常优于 BNN-I 变体，有时优势相当大。我们将在以下部分更详细地探讨这些细微差别。

可重现的代码，其中包含本节模拟研究的额外详细信息，可以从 https://github.com/andrewzm/SBNN 获取。

4.1. 校准到平稳高斯空间过程

在这项模拟研究中，我们考虑了一个均值为零的平稳各向同性高斯空间过程，其协方差函数为单位方差和平方指数协方差函数，作为我们的目标过程 Ỹ(·)。因此，Ỹ ~ Gau(0, Σ)，其中 Σ ≡ (cov(Ỹ(sᵏ), Ỹ(sₗ)) : k, l = 1, ..., n)。我们通过平方指数协方差函数 C⁰(·) 来模拟协方差，

我们设定长度尺度 ℓ = 1。从表 2 我们可以看到，所有 SBNN 变体在这种情况下表现相似，并且明显优于 BNN-I 变体。因此，在接下来的讨论中，我们将重点比较校准后的 BNN-IL 和校准后的 SBNN-IL 与目标高斯过程；下面显示的结果代表了它们各自变体的结果。

我们首先通过从网络中采样计算的经验协方差来比较这两个模型。我们不仅在最终（在本例中为第 4000 步）优化步骤中计算经验协方差，还在多个中间步骤中计算经验估计，以监控 (S)BNN 在优化过程中对目标过程的适应。具体来说，我们在 100、200、400、2000 和 4000 次外循环梯度步骤后分别计算经验协方差，并将这些估计与目标高斯过程的真实协方差进行比较。图 3 左侧显示，校准后的 BNN-IL 未能恢复真实的协方差图；在收敛时，BNN-IL 的协方差图在原点处具有较小的截距，并且随着空间滞后增加而缓慢减小。另一方面，图 3 右侧显示，具有嵌入层的 SBNN-IL 的协方差图在大约 2000 次外循环梯度步骤后收敛到与目标过程非常相似的协方差图。

在图 4 中，左上角我们绘制了目标过程协方差 cov(Ỹ(s₀), Ỹ(S)) 的热图，其中 s₀ 在 D 上的 4 × 4 网格中排列了 16 个值，其中 Ỹ(·) 是平稳的，S 是由 D 的 64 × 64 网格的网格单元质心组成的。在左下角我们绘制了 Y 的实现。在右上角我们显示了从校准后的 SBNN-IL 得到的协方差 cov(Y(s₀), Y(S)) 的相应经验估计。这些协方差表明平稳性和各向同性，并且与目标过程的协方差非常相似。这是令人欣慰的，因为 SBNN-IL 的构建或训练过程中没有任何东西限制该过程为平稳或各向同性；协方差之间的相似性是另一个表明 SBNN-IL 正在瞄准正确过程的指示。在图 4 的右下角我们绘制了 Y 的一些样本实现。这些实现具有与 Ỹ 非常相似的属性（相似的长度尺度、平滑度和方差）。

尽管 SBNN-IL 是一个高度非高斯过程，但它已针对高斯过程进行了校准，因此所有从用于校准的高维分布中得出的有限维分布都应近似为高斯分布。为了说明高斯性得到了很好的近似，在图 5 中我们绘制了从校准后的 SBNN-IL 和真实高斯过程中抽取的 1000 个样本的核密度估计。顶部面板显示了 Y(s₀) 和 Ỹ(s₀) 对于 D 上 2 × 4 网格中排列的 s₀ 的八个值的经验边际密度，而底部面板显示了对应于 (Y(s₀), Y(s₀)′) 和 (Ỹ(s₀), Ỹ(s₀)′) 的双变量密度，对于 s₀ = (−1.33, −0.06)′ 和三个 s₀ 的选择：一对坐标接近 s₀（左下角）；一对远离 s₀（右下角）；最后一对在这两对之间（中间子面板）。边际和联合密度非常相似，表明有限维分布的高斯性在校准过程中得到了很好的近似。总体而言，证据表明校准后的 SBNN-IL 是对基础高斯过程的一个很好的近似。

在补充材料的图 S3、S4 和 S5 中，我们展示了校准后的 SBNN-VL 的相应图，这也很好地近似了基础过程。这些结果令人欣慰，因为它们表明 SBNN-VL 可以很好地模拟平稳过程，尽管引入了大量复杂性来模拟非平稳过程。

4.2. 校准到非平稳高斯空间过程

在这项模拟研究中，我们考虑了一个具有零均值、单位方差和协方差函数的非平稳高斯过程

在图6中，我们绘制了目标高斯过程的真实协方差函数（左图）以及经校准后的 SBNN-VL 的经验协方差函数（右图），后者与经校准的 SBNN-IP（未显示）和 SBNN-VP（未显示）的经验协方差函数非常相似。这些图中的每个热力图都表示该过程相对于某一特定空间位置（以十字标记）处的过程值的协方差。协方差结构围绕点 ξ = (0.5, 1)′ “旋转”，因此在该点附近近似各向同性，而在远离中心的位置则呈现各向异性。SBNN-VL 显然能够捕捉到这一协方差结构。相比之下，BNN-IL 和 SBNN-IL（其对应的图见补充材料中的图 S6）显然无法做到这一点。其中，SBNN-IL 对协方差的拟合效果尤其差，表明它仅应被用于建模平稳过程。

在图7中，我们绘制了来自目标过程及所有经校准模型的多条样本路径。经校准的 SBNN-VP 的样本路径显然与目标过程的样本路径非常相似，而经校准的 BNN-IL、BNN-IP 以及 SBNN-IL 的样本路径则明显不同。通过观察样本路径所得出的结论与上述基于协方差函数的结论一致。这表明，对于 SBNN 而言，仅使用 IL 是不够的，还需要额外的机制：要么采用 IP，要么采用 VL（或两者兼用，即 VP）。

4.3. 校准到平稳对数正态空间过程

图 9 类似于图 5，但针对的是 SBNN-IP（根据表 2 是“最佳”模型）和对数正态过程。也就是说，该图显示了从校准后的 SBNN-IP 和目标对数正态过程中的 1000 个样本中选取的 D 中选定点的边际和双变量核密度估计。与高斯情况一样，边际和联合密度非常相似。补充材料中的图 S7 中的 SBNN-VL 的密度图显示，采用“每层先验”方案的 SBNN-V 校准良好，但无法很好地捕捉尾部。另一方面，SBNN-VP 具有所需的灵活性，能够很好地模拟尾部；参见补充材料中的图 S8。

总体而言，这些结果表明，我们的 SBNN 能够对非高斯过程进行建模，并且它们有可能应用于比本文所考虑的更广泛的模型类别，特别是那些似然函数难以处理（intractable）但相对容易进行模拟的模型（例如，空间极值模型，Davison 和 Huser，2015）。

使用 SBNN 进行推断

一旦 SBNN 校准完成，它就有两个用途：(i) 高效地模拟底层随机过程的实现；(ii) 基于观测数据进行条件推断。一旦 SBNN 校准完成，无条件模拟就很容易进行，只需使用第 2.2.3 节中概述的模型规范之一，将自由超参数 ψ 替换为优化后的 ψ*。在这方面，SBNN 可以用作计算密集型随机模拟器的替代品，例如随机天气生成器（Semenov 等人，1998；Kleiber 等人，2023）。我们注意到，还有其他几种神经网络架构也非常适合无条件模拟，例如变分自编码器（VAEs，Kingma 和 Welling，2013）和生成对抗网络（GANs，Goodfellow 等人，2014）。另一方面，推断需要进一步计算。具体来说，给定在位置收集的 Y(·) 的噪声测量数据集 Z ≡ (Z₁, ..., Zₘ)′，推断过程通过评估、近似或采样权重和偏置的后验分布进行；即，给定 Z 和校准后的超参数 ψ* 的神经网络参数的条件分布。在从权重和偏置的后验分布中采样后，很容易获得 Y(·) 的后验分布样本，我们称之为预测分布。SBNN 的过程模型定义相对于其他生成模型（如 VAEs 和 GANs）的优势在于，它可以很容易地纳入空间统计学中常见的层次模型。因此，在对过程进行推断时，可以以直接的方式处理有关缺失数据、噪声甚至不确定的数据模型的问题。

已经为 BNN 开发了几种推断方法（例如，Jospin 等人，2022）。这些包括变分推断（例如，Zammit-Mangion 等人，2022）和 MCMC。在 MCMC 技术中，汉密尔顿蒙特卡洛（Neal，1996）是最广泛使用的。Neal（1996）的原始 HMC 算法是全批量的；也就是说，它使用整个数据集 Z 生成每个后验抽样。然而，对于大型数据集，HMC 所需的梯度计算在计算上是不可行的。Chen 等人（2014）提出通过使用数据的小批量来近似每个 MCMC 迭代中的梯度来解决这些计算限制。由此产生的梯度近似称为随机梯度，相应的 HMC 近似称为随机梯度汉密尔顿蒙特卡洛（SGHMC）。SGHMC 及其自适应变体（Springenberg 等人，2016）非常适合使用 BNN 进行推断。由于可以很容易地利用现有的 BNN 软件，因此可以直接将 SGHMC 应用于 SBNN-I 变体。为了说明，在本节中，我们提供了使用 SGHMC 对 Y(·) 进行预测分布，这些分布校准到第 4.1 节中的平稳高斯分布，以及一个更复杂的平稳最大稳定过程，其中使用传统技术从多个数据点获得预测分布极具挑战性。

5.1. 案例研究 1：GP 目标过程

校准后的 SBNN-IL 和真实（也是目标）平稳 GP 下的。图 5 的顶部和底部面板显示了在图 5 中考虑的相同空间位置的预测分布的经验边际预测密度和联合双变量预测密度。SBNN-IL 的边际和联合预测密度似乎是单峰和高斯分布的；这是令人欣慰的，因为任何在数据 Z 上条件化的目标过程的有限维分布确实是高斯分布。另一方面，这些后验密度的形状存在轻微差异，SBNN-IL 似乎产生略大的后验方差。这种差异可能有几个原因。首先，可能并非所有在最小化 Wasserstein 距离时被针对的随机过程的有限维分布都被考虑。其次，可能需要使 SBNN 更加灵活（例如，具有更大的嵌入层）以更忠实地表示底层过程的有限维分布。第三，可能是 MCMC 链需要更多时间才能收敛：尽管我们运行了四个并行的 MCMC 链，每个链 300,000 次迭代，排除了 100,000 次作为烧入期，并以 1,000 的因子进行稀释，但我们在几个预测位置的有效样本量在 50-400 之间。尽管有这些缺点，SBNN-IL 的预测分布显然与在真实模型下获得的分布非常相似。

我们重复了上述实验，其中。在表 3 中，我们使用传统的预测诊断方法对 SBNN-IL 进行评分，并将其与真实过程和未校准的 BNN-IL（即，权重和偏置具有标准正态先验）的评分进行比较。表 3 中校准后的 SBNN-IL 和未校准的 BNN-IL 之间的差异在小 m=100 情况下最大，其中（先验）模型在预测中的作用比大 m 情况更大。在图 S9 中，我们绘制了从我们空间域的 12 × 12 网格的规则间隔的空间位置的预测分布中抽取的样本；800 个样本来自四个 MCMC 链中的每一个。链的收敛没有明显问题，三种 m 情况下的预测分布与预期相似。由于 SGHMC 使用固定大小的小批量，并且我们保持 SBNN 架构不变，因此获取不同 m 的样本所需的时间相同。对 m 以及底层“真实”模型的不敏感性是该方法的一个主要优势。在本例中，获取代表性样本所需的时间仅为一小时，这可能被认为是相当可观的，考虑到底层过程是一个 GP。然而，如我们接下来所示，可以在相同时间内为空间模型获得 SBNN 的预测分布，其中预测在计算上困难或不可能。

5.2. 案例研究 2：最大稳定目标过程

结论

所提出的将 SBNN 校准至目标空间过程的空间统计方法，与当前主流方法存在显著差异。现有方法通常以参数化模型为起点，先估计模型参数，再利用拟合后的模型对未观测位置进行预测。而 SBNN 的做法则不同：首先校准权重和偏置的先验分布，然后使用 SGHMC（随机梯度哈密顿蒙特卡洛）求得这些权重和偏置的后验分布，最后基于该后验分布获得过程的预测分布。我们证明，SBNN 可用于建模多种多样的空间过程，这些过程可能是非平稳的和/或非高斯的。

本结论部分聚焦于 SBNN 的优缺点，旨在阐明其在哪些情形下可能有用，又在哪些情形下可能不适用。

6.1. 校准需要来自底层随机过程的重复实现

SBNN 的一个显著局限在于，其校准需要大量来自底层随机过程的实现（realisations）。在许多实际关注的应用中，空间统计学家手头通常仅有单一实现。在此类情况下，可以将 SBNN 校准到一个易于模拟的过程模型上，但尚不清楚这种方法最终是否能带来任何计算或推断上的优势。例如，对于高斯过程，已有多种成熟的参数估计和预测方法，除了用于软件验证之外，几乎没有理由需要将 SBNN 校准到高斯过程上。

另一方面，对于其他一些过程（如第 5.2 节中的极大稳定过程，以及某些类别的随机偏微分方程），参数估计、预测和条件模拟众所周知地困难，但这些过程却相对容易进行（无条件）模拟。在这些情形下，SBNN 相较于传统的“先拟合参数化模型再进行预测”的经典方法，有望带来计算上的优势。

当有大量数据可用，且这些数据可合理地视为来自某个底层随机过程的重复实现时，SBNN 便成为建模与预测的一种自然选择。它对底层过程几乎不做假设，也免除了建模者必须判断哪类模型最适合其具体应用的难题。例如，校准数据可能以某种地球物理量（如海表温度）的再分析数据形式存在。再比如，时间上平稳的时空数据可提供以时间为索引的空间重复实现。

6.2. 计算资源

校准 SBNN 以及求解其参数的后验分布都需要大量的计算资源和复杂的算法。然而，一旦这些计算流程被开发出来，它们就具有广泛的适用性；这从计算角度带来了若干优势。

首先，由于 SBNN 对过程本身不作特定假设（即“过程无关”，process agnostic），无论底层目标过程是什么，其校准和拟合所需计算资源大致相当。而经典方法则不然——在经典方法中，所采用的空间过程模型和数据模型在很大程度上决定了参数估计和预测过程的计算复杂度。

其次，尽管 SBNN 可应用于广泛的不同场景，但其校准和推断均可使用相同的算法。这与传统的基于似然的方法形成鲜明对比：在传统方法中，模型依赖于具体应用，参数空间维度各异，且复杂模型通常需要专门设计复杂的算法。

最后，对于 SBNN，模型校准可通过小批量（mini-batches）梯度下降法完成（即在每次优化步骤中仅使用少量实现）；这使得即使在内存受限的设备上，也能利用大量实现对 SBNN 进行校准。

6.3. 用于促进校准的计算工具

6.4. SBNN 架构和模型解释

将嵌入层和空间变化的网络参数纳入我们的 SBNN 是必要的，以便我们的 SBNN 能够再现现实的协方差和非平稳性/各向异性。我们已经尝试探索空间过程或 SBNN 架构不适合的情况。未来的工作可能会揭示我们的 SBNN 在某些设置中过于不灵活，即使具有“每层先验”方案，也需要进一步修改。SBNN 的一个缺点是它们在很大程度上是不可解释的：与经典建模不同，经典建模通常对参数有明确的解释，SBNN 只能以高度间接的方式访问权重和偏置的后验分布，这些分布与输出高度间接相关。这个限制本身就可能阻碍 SBNN 在某些设置中的使用，其中参数解释是至关重要的。另一方面，在预测和不确定性量化通过预测方差是主要目标的情况下，SBNN 可能具有很高的实用价值。

6.5. 开放问题和未来研究方向

我们认为我们的工作是使用 SBNN 模拟空间随机过程的第一步。虽然我们已经证明了它们的多功能性，但仍然有几个问题需要回答，其中三个问题尤为突出。首先，目前尚不清楚如何使用具有空间变化参数的 SBNN 进行预测性推断，尽管有可用的 BNNs 软件，这些软件通常假设权重和偏置没有输入依赖的先验分布。这就是为什么我们将第 2 节中的分析限制在平稳过程上，我们还没有研究在现实数据设置中（其中 SBNN 的空间变化参数化对于模拟非平稳性很重要）的预测。其次，我们尚未探索在存在协变量的情况下使用 SBNN 进行预测。我们认为这个问题相对良性，因为可以在更大的模型中以直接的方式将 SBNN 纳入 MCMC（例如，通过添加 Gibbs 步骤）。第三，了解 SBNN 的表示能力是什么，它们的局限性是什么，以及哪些类别的空间过程可以由 SBNN 表示以及在何种程度上表示，将是有用的。SBNN 的表示能力如何随着其大小的增加而扩展？回答这些问题需要将 SBNN 构建为空间统计建模的可行工具。

原文链接：https://www.sciencedirect.com/science/article/pii/S2211675324000162

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.