posteriordb：贝叶斯推理算法的测试、基准测试与开发|方差|后验|模态|mcmc|深度思考模型

分享至

posteriordb: Testing, Benchmarking andDeveloping Bayesian Inference Algorithms

posteriordb：贝叶斯推理算法的测试、基准测试与开发

https://arxiv.org/pdf/2407.04967

摘要
推理算法的通用性和鲁棒性对于当前广泛使用的概率编程语言（如 Stan、PyMC、Pyro 和 Turing.jl）的成功至关重要。在设计新的通用推理算法时，无论是涉及蒙特卡洛采样还是变分近似方法，都会面临一个根本性问题：如何评估其在一系列代表性目标模型上的准确性和效率。为了解决这个问题，我们提出了posteriordb2，这是一个包含模型和数据集的数据库，用于定义目标密度函数，并附带参考的蒙特卡洛抽样结果。我们还进一步提供了使用 posteriordb 进行模型评估和比较的最佳实践指南。为了提供广泛且真实的目标密度函数，posteriordb 目前包含了 120 个代表性模型，并已在多个通用推理算法的开发中发挥了重要作用。

1 引言
posteriordb 软件包的开发旨在解决在概率编程语言（PPL）中常见的一类概率推理算法的评估问题。在本节中，我们将回顾这一问题的重要性以及我们通过 posteriordb 解决该问题的方法。

概率编程语言概率编程语言（PPL）是一种（通常是嵌入式的）面向概率建模的领域特定编程语言。在过去三十年中，概率编程语言吸引了数十万名用户。这些框架使用户能够灵活地指定涉及数据和未知参数的模型，并提供基于数据的通用概率推理功能（例如参数估计、事件概率估计、预测推理）。根据学术论文引用情况，PPL 已经几乎被应用于应用统计学和机器学习的各个领域，包括物理、生物与社会科学、医学、工程、教育、金融和娱乐等行业。目前最广泛使用的 PPL（根据文献 [51] 的统计）包括 Stan [10]、Tensorflow Probability [15]、PyMC [48]、Pyro [6]、JAGS [40] 和 Turing.jl [53]。

PPL 支持统计模型的开发与编程，并提供通用推理以支持下游应用。对于上述列出的 PPL 来说，这一过程是以“黑盒”方式进行的，仅依赖于模型的对数密度及其梯度，而不是模型的具体结构。给定一个关于未知参数 θ 和观测数据 y 的（不一定是归一化的）联合概率模型 p(y, θ)，我们通常的主要兴趣是基于 θ 估计期望值，例如参数估计、事件概率或预测。一开始，我们使用 PPL 的语法来指定一个非归一化的联合模型 p(θ, y)。在给定数据 y 的情况下，贝叶斯定理告诉我们感兴趣的后验分布正比于联合密度，可以分解为似然乘以前验，即 p(θ | y) ∝ p(θ, y) = p(y | θ)·p(θ)。利用后验密度，我们可以计算新数据 ỹ 的后验预测分布 p(ỹ | y)，估计事件概率 Pr[θ ∈ E]，以及将参数估计为 E[θ | y] [19]。

在大多数情况下，计算 p(θ|y) 是解析上难以处理的，因此我们无法直接获得后验分布。PPL 则使用近似推理算法来解决这个问题。

近年来，研究兴趣集中在适用于多种模型的“黑盒”推理算法上。已经提出了几种这样的推理算法，如哈密顿蒙特卡洛（HMC，Hamiltonian Monte Carlo）[HMC, 37, 22]、变分推理（VI，Variational Inference）[VI, 24, 42, 7]、拉普拉斯近似（Laplace Approximations，LA）[55, 47, LA]，以及这些方法的各种改进和变体 [1, 14, 63, 33, 60]。这些黑盒推理算法具有不同的性质。HMC 以及其他马尔可夫链蒙特卡洛（MCMC）方法，在许多情况下会在总变差距离下收敛到真实后验 [54]。但 MCMC 算法通常计算成本较高。另一方面，VI 和 LA 可能计算成本较低，但在估计后验期望时往往引入偏差 [61]，从而在准确性和计算成本之间形成权衡。

posteriordb 鉴于不同的推理算法和 PPL 实现、算法改进、初始化方式及一般性优化手段，要判断这些提出的方法之间的优劣变得颇具挑战。通常，新的方法只在少量后验分布上进行评估，这使得我们难以了解特定推理算法在整体上的表现如何。在开发和维护 PPL 与推理算法时，理想情况下，我们希望测试它们是否在大量后验分布上都能按预期运行。在开发新算法时，我们也希望评估其性能，从而了解哪些后验分布上算法表现良好，哪些地方存在失败风险。最后，我们希望对提出的算法进行基准测试，以评估新提出的方法相较于已有方法的表现。

我们介绍posteriordb，这是一个旨在辅助算法和 PPL 开发的数据库，用于测试、性能评估和基准测试。为了实现这一目标，posteriordb 包含了数百个后验分布、模型、数据集以及参考后验结果，且存储结构简单（见图1和图2）。该数据库还包括论文引用、后验细节、模型和数据的元信息，以便简化性能分析。posteriordb 是一个完全开放的后验数据库，我们鼓励贡献者分享他们的后验分布和模型，尤其是那些更复杂的后验。目前，posteriordb 已经被用于多项关于后验近似的相关研究 [例如：14, 62, 2, 29]。

在此之前，有关收集模型和数据集的工作主要集中在某些特定类型的子类模型上。例如因果结构图模型 [43] 和贝叶斯神经网络 [56]。此外，大多数流行的 PPL 当前也提供了示例模型用于比较和评估目的，比如 Stan [50]、BUGS 和 JAGS [30, 40]、PyMC(3) [48]、(Num)Pyro [6, 39]、Turing.jl [53]、ADMB/TMB [35] 和 NIMBLE [12] 等等，还有像 emcee [18] 这样不依赖 PPL 或梯度的黑盒 MCMC 软件包。一些用于更通用基准测试的小型后验集合包括 Inference Gym [49] 和 PPLbench [41, 27]。这些后验中的许多也被包含在 posteriordb 中。

第2节介绍了后验仓库的主要用途。第3节介绍 posteriordb 及其使用方式。第4节描述了一个使用 posteriordb 评估 Pathfinder 算法 [65] 的实例。第5节总结全文。

2 贝叶斯后验数据库的使用场景

尽管我们可能对许多不同的期望感兴趣，但通常的关注点集中在参数以及预测变量的均值、方差和尾部分位数上，这些预测变量是通过对参数和数据的变换定义的（例如后验预测和事件概率预测）。

评估一个推理算法的性能并不简单。从总体角度来看，我们可以从以下三个方面来评估推理算法的表现，而所有这些方面都可以使用 posteriordb 中的目标模型来进行度量：

准确性（Accuracy）该算法对目标密度的近似程度如何？（例如使用 KL 散度、平方误差、Wasserstein 距离等指标）

效率（Efficiency）该算法的计算成本是多少？（包括时间消耗、浮点运算次数、梯度评估次数、内存占用、功耗等）

通用性（Generality）该算法能够在哪些类型的后验分布和后验推理问题上运行？其在准确性和效率方面的表现如何？

2.1 测试算法及其实现

对后验推理算法的测试比标准的软件测试 [16] 更具挑战性，并且与功能测试（functional testing）[25] 有相似之处。在测试后验推理算法时，尤其是那些渐近无偏的算法（如 MCMC 和 HMC），通常关注的是后验期望的估计。

表示某个期望值的平方近似误差。那么，后验的边缘均值和方差具有一个优势：如果它们是有限的，则可以使用马尔可夫链中心极限定理来评估推理算法的表现 [23]。如果算法运行正常，近似误差的速率随迭代次数增加而减小。因此，我们可以使用高质量的参考后验近似来进行测试；详见第3.3节。

一种“可测试正确”的算法生成的样本其边缘分布符合目标密度，因此可用于评估推理算法。独立采样器是可测试正确的，而在某些可验证假设下（例如几何遍历性 [44]），有限时间内运行的 MCMC 方法也是可测试正确的。然而，在面对具有复杂几何结构的后验密度时，计算资源的限制可能导致 MCMC 在有限运行时间内的精度较低。例如，尽管在理论上具有渐近保证，随机游走 Metropolis、Gibbs 和 HMC 在有限时间内都无法对“漏斗密度”（funnel density）进行有效采样 [36]，这是因为在漏斗的“口”和“颈”部分条件较差且变化剧烈 [38, 32]。

尽管如此，我们有两种方式可以走出这一困境。第一种方法是对模型进行重新参数化，从而可以在漏斗示例中进行独立抽样。第二种方法是从有限时间内估计期望的角度出发，评估混合效果差甚至渐近有偏的算法的实际表现如何。

就评估的可靠性而言，最佳做法是使用解析已知的期望值，这在许多情况下是可以推导出来的（例如，漏斗模型中的所有均值参数都为零）。次优的做法是采用独立抽样，因为其标准误是已知的。最不得已的做法是使用 MCMC 抽样，并尝试验证结果是否正确（例如通过基于仿真的校准 [52, 34]），然后对其进行稀释（thinning），直到大致独立为止。

尽管后验期望是我们关注的主要统计量，但为了更全面地评估后验的一般性质，也可以使用各种分布之间的差异度量，例如 Wasserstein 距离 [59, 11]、最大均值差异（MMD）[20] 或 Pareto- k̂ 诊断指标 [58]。

为了评估准确性，我们建议以下几种方法：

RMSE（均方根误差）：将感兴趣的后验矩与参考后验的真实解析矩或通过可信算法及高计算预算获得的高精度矩估计进行比较；
Wasserstein 散度：衡量近似分布与真实后验之间的距离；
最大均值差异（MMD）：衡量近似分布与真实后验之间的差异；

一些推理算法，如变分推理或拉普拉斯近似，在大多数应用中是有偏的（即期望误差不为零）。这些方法还可能因直接建模协方差矩阵而导致问题维度爆炸。因此，对于这些算法来说，评估其对真实后验的近似程度变得尤为重要。同样地，我们可以使用后验期望或更全面的方法来判断其准确性。

当测试后验推理算法的正确性和准确性时，拥有一组易于运行的多样化后验分布可以大大简化任务。posteriordb 提供了不同形状、规模和几何结构（因而难度各异）的后验分布，使得开发者能够在广泛的现实场景中掌握算法的表现。

在测试后验参数估计时，评估参数平方的估计是一个良好的实践。准确估计参数平方是有用的，因为它是通过公式 var[θ]=E[θ2]−E2[θ]来估计方差所必需的部分。像 HMC 这样的算法可能在估计参数期望方面表现极佳，但在估计参数平方方面却表现不佳。

2.2 新算法的开发

后验分布仓库的第二个使用场景是新后验近似算法的开发。在开发新的推理方法时，某些算法可能在一些后验分布上表现良好，而在其他后验上则失败。例如，HMC 在处理“漏斗型”（funnel-shaped）后验时存在困难，而正态近似方法则在后验大致为多元正态分布时效果最佳。

我们希望了解一个新的算法在哪种类型的后验分布上表现良好，在哪种情况下会失效。因此，许多不同的后验分布既可以用于发现未知的失败情况，也可以用来展示预期中的难点。

在开发后验近似算法时，一个更重要的方面是准确性和计算成本之间的权衡。评估后验近似算法的计算性能可以是与实现相关（implementation-dependent）或与实现无关（implementation-independent）的指标。

与实现相关的指标
包括运行时间（wall time）或消耗的能量；
与实现无关的指标
包括每秒浮点运算次数（flops）、对数密度评估次数、梯度评估次数等。

通常，计算的瓶颈主要在于对数密度和/或梯度的计算；使用自动微分时，对数密度及其梯度通常是同时计算的 [31]。

在开发算法时，无论这些算法是有偏的还是渐近无偏的，我们都可以在固定计算量下比较它们的准确性。其中一些与实现相关的衡量标准包括：

每秒对数密度评估次数（LDE/s），
每秒梯度评估次数（GE/s），
每秒有效样本数（ESS/s），其中有效样本数可以通过多次运行的标准差和标准误来估计：这是核心的与实现相关的性能指标，因为它衡量了在给定实际时间预算内可达到的近似精度 [9]。

2.3 现有算法的基准测试

计算与准确性的权衡凸显了对算法进行比较和基准测试的重要性。作为方法开发的一部分，我们希望做出明智的决策，选择哪些算法值得实现和使用，也就是说，我们需要对各种方法进行基准测试。这也适用于现有算法的一些虽小但重要的改进，比如预热阶段的自适应机制和计算效率的提升。

开发与基准测试都需要具有挑战性的模型和后验分布，对于这些后验，我们可能还没有高效的算法，或者当前的算法无法在可行的时间内进入渐近状态。

对大量后验分布进行基准测试至关重要，这有助于恰当地评估某类算法能够以高精度近似的后验范围，并评估其相关的计算成本。即使某个渐近无偏的算法及其实现对于某些后验几何结构表现良好，它也可能在其他结构上完全失效。例如，使用固定步长积分器的动态 HMC 在可行时间内无法对许多漏斗型后验进入渐近状态 [5]。另一方面，如果维度足够低，拉普拉斯近似和变分近似结合重要性采样可以在某些相同的漏斗型后验上进入渐近状态 [64]。

一组大量的后验分布，如漏斗型后验、多峰后验、离散型和混合离散连续型后验、高维后验、有限与无限后验（如狄利克雷过程）、大数据后验以及简单且解析可解的后验，可以用于评估算法的通用性。

一个后验近似算法如果能在某些模型上表现良好，并且在不适用时能被诊断出来，那它就是有用的。算法的通用性也描述了不同算法在哪些类型的后验上存在性能问题。因此，我们希望了解错误和问题的类型，以评估基准测试中算法的通用性。

2.4 算法开发与维护

测试算法的过程包括多个步骤。在开发新算法时，采用之前经过充分测试的算法所使用的同样严格的测试方法是一种常见做法。这确保了新实现符合预期的功能和可靠性标准。

同样地，在维护现有软件时，测试有两个目的：一是验证更改没有破坏推理算法的完整性；二是确保算法的性能没有受到影响。在计算机科学中被称为回归测试（regression testing）的方法，通过对整个开发周期中的算法输出进行比较，以捕捉任何行为或性能上的“退化”（regressions）。

3 posteriordb：一个用于测试、基准测试与开发的数据库

我们在设计posteriordb时充分考虑了上述所有使用场景。它是一个综合性仓库，包含后验分布、模型、数据以及参考后验结果。其主要目标是利用这一组后验分布来对概率编程语言（PPL）和后验近似算法进行测试、评估、基准测试、开发和维护。该数据库既包含较为复杂/困难的后验分布，例如新冠疫情流行模型 [17]、贝叶斯神经网络 [28]，也包含较简单、标准的后验分布，例如“八所学校”示例 [46, 19]。所有的后验、数据和模型都以统一格式存储，便于在通用性和基准测试方面对大量后验进行估计。

3.1 posteriordb 的组成部分

posteriordb 包含四种主要类型的对象（参见图1和图2以获得概览）。

后验（posterior）对象（1）汇总了集合中某一特定后验的所有信息。一个 posterior 对象指向一个（不一定是归一化的）联合模型 p(y,θ)、数据 y，以及一个参考后验（如果有的话）。

将模型与数据分开的原因在于：一些模型使用相同的数据，这对于模型比较诊断和基准测试是有意义的；同时一些模型可以应用于多个数据集，从而支持跨数据集的模型比较诊断和基准测试。

最后，如果存在参考后验，posterior 对象也会指向该参考后验。

在 posteriordb 中，模型（2）对象以 PPL 代码和 JSON 信息文件的形式存储一个（非归一化的）联合模型 p(y,θ)。虽然目前大多数模型是用 Stan 编写的，但该结构设计使得我们可以轻松地包含其他概率编程语言（PPL）的代码，例如 PyMC、Tensorflow Probability、Pyro 等。

数据（3）对象y被存储为压缩的 JSON 文件，以便简化和方便数据的使用。每个数据文件还包括一个信息 JSON 文件。如果数据经过处理，data-raw 文件夹中会包含用于数据处理的代码及相关说明。

参考后验（4）对象（从 JSON 的“对象”意义上讲）表示真实的后验分布，通常以后验抽样结果（posterior draws）的形式呈现，前提是能够计算出这种表示方式。要作为参考后验，这些抽样结果必须具有非常高的质量，详见第 3.3 节。根据后验分布的大小和可计算性，参考后验的抽样结果本身和/或相应的后验期望值会被存储在参考后验对象中，并以压缩的 JSON 文件形式保存。

拥有一个真实或高度近似的参考后验的好处在于，我们可以在给定误差容忍度和特定计算预算下，判断某个算法输出的结果是否符合真实的潜在后验分布。信息 JSON 文件中包含了关于如何计算这些后验抽样结果的详细信息。

以 posteriordb 中的一个后验示例为例：eight_schools-eight_schools_centered后验对象指向eight_schools数据集以及八所学校模型的中心参数化版本eight_schools_centered[5]。此外，该 posterior 对象还包含后验的维度信息，并指向参考后验eight_schools-eight_schools_noncentered。中心参数化方法由于其后验的漏斗几何结构而众所周知存在采样困难。因此，使用了非中心参数化方法来为该中心模型计算参考后验。

在选择包含哪些模型时，我们遵循了一个原则：目标是构建一个广泛且多样化的后验集合。我们也特别关注那些数据和模型均已公开发布的后验。这使得 posteriordb 的用户可以查阅更多关于特定模型和数据的详细信息，因为仓库中已包含相关引用。

访问 posteriordb 有两种方式：

直接访问仓库：通过 GitHub 地址 https://github.com/stan-dev/posteriordb 访问。

仓库中的posteriord_database文件夹以文件夹结构组织数据（如图2所示）。
数据和参考后验抽样结果被压缩为 zip 压缩包。

通过 R 包或 Python 库访问

R 包：https://github.com/stan-dev/posteriordb-r
Python 库：https://github.com/stan-dev/posteriordb-python
这些工具简化了对数据库的快速访问。

所有后验分布、数据、模型、参考后验以及软件都使用语义版本控制（semantic versioning）进行版本管理。

3.2 额外的元信息

我们在所有四种对象中都包含了潜在相关的元信息，例如后验对象的参数数量、关键词等，以简化后验的选择过程。我们还为后验添加了关键词，以增强对不同性能方面的评估能力，从而全面理解算法的行为，并服务于基准测试和新算法开发的目的。这也有助于在新算法诊断或基准测试环境中识别问题。

此外，如果可用的话，后验、模型和数据也包含参考文献条目，以便为用户提供更多关于后验的信息。

3.3 参考后验对象

posteriordb 的一个核心组成部分是参考后验（Reference Posterior, RP）对象。RP 对象由（近似）独立同分布的蒙特卡洛抽样组成，这些抽样来自于对应的后验模型对象，并用于表示真实的潜在后验分布。

根据后验 p(θ∣y)的形式，RP 对象中的抽样可以通过以下两种方式之一生成：独立抽样或MCMC 方法。

对于一些简单模型，我们可以解析地计算真实后验并从中抽样，但大多数后验并不具备这种条件。我们通过纳入那些我们有高度信心能够获得足够高质量抽样的模型来扩展参考后验集合，这些抽样可以被认为是来自真实后验的样本。我们使用 MCMC 方法，特别是 Stan 实现的 NUTS 算法，为那些无法进行独立抽样的表现良好的模型生成参考后验。

具体步骤如下：

我们首先计算一组抽样结果 {θ(s)} ，并将它们包含在 posteriordb 中；
然后我们计算后验参数的期望值（可通过解析方法或抽样结果得到）。

后验均值支持直接的误差评估，而抽样结果则允许更全面的评估，例如使用 Wasserstein 距离。抽样结果的引入还有助于识别哪些区域和哪种类型的后验表现出次优性能以及存在困难的区域。

即使 posteriordb 提供了大约 10,000 个近似独立的抽样结果，参数估计的标准误仍然是该参数标准差除以 100（即 10,000 的平方根）。例如，估计一个标准正态分布（其均值为 0）的均值时，标准误为 0.01。这为被评估系统的精度设定了一个上限，在参考后验本身的误差成为主导因素之前，这是必须考虑的。

我们将一个参考后验（或其期望值）定义为从真实后验分布中抽取的至少 10,000 个抽样。在实践中，这种情况仅在有限的几个解析可解的场景中才可能实现。

在使用 MCMC 的情况下，我们需要对链进行稀释处理，使得抽样结果大致独立，以便进一步比较更加容易。然而，我们也确实使用 MCMC 来从真实后验分布中生成抽样结果。要将 MCMC 生成的抽样视为参考后验，我们需要满足以下要求：

每个参数至少有10,000 个抽样（或更多）；
抽样应大致独立，即所有参数在各链中滞后 1 的平均自相关绝对值小于0.05；
所有参数的R̂ 值低于 1.01[参见 57]；
所有参数的预期缺失信息比例（E-FMI）低于 0.2[参见 4]；
如果使用 HMC，则不应出现任何发散转移（divergent transitions）[参见 3]。

为了使用 MCMC 计算参考后验抽样，我们采用的是 Stan 的 HMC/NUTS 算法。不过，在某些特殊情况下，如果明确需要（例如对于具有离散参数的模型），也可以使用其他特定模型的算法。

我们的仓库还包括一些有趣且具有挑战性的后验分布，即使在这些后验无法或不实际计算出参考后验的情况下也是如此。例如，在组合多模态后验中，如高维聚类模型（如潜在狄利克雷分布模型 [8]）或贝叶斯神经网络中，就常常遇到这种情况。

3.4 posteriordb 的当前范围

目前，posteriordb 包含147 个后验分布、120 个模型、91 个数据集和46 组参考后验抽样结果。其中大约三分之一属于较简单的情况，而剩下的三分之二则更具挑战性。

表1中列出了一些可以使用 Stan 的 HMC 运行的后验示例，但标准设置下会出现大量发散转移（divergent transitions）或 Leapfrog 步数较多的情况，这表明这些后验具有更复杂的几何结构。请注意，提高 HMC 的接受率可以改善发散情况，而最大树深度（max tree depth）则限制了 Leapfrog 步数的平均值。因此，这些结果可以被看作是对 posteriordb 中某些后验采样难度的一种指示。

我们可以看到，一些后验分布，如soil_carbon-soil_incubation，会产生发散转移，这表明曲率发生了较大的变化；而像synthetic_grid_RBF_kernels-kronecker_gp这样的模型则需要大量的 Leapfrog 步数来探索后验空间。

纳入那些没有参考抽样结果的复杂后验，也包括一些场景，例如当前的 Stan 动态 HMC 在效率上较低，或存在固有的限制与困难。这种有意识的纳入不仅促进了新推理算法的发展，也为研究社区提供了宝贵的资源。

4 案例研究：Pathfinder 算法

posteriordb 的内容已经被用于多个场景中，以评估和开发新算法 [例如参见 13]。在此，我们举例说明 posteriordb 是如何被用来开发和评估 Pathfinder 变分推理算法 [65] 的。

该方法利用拟牛顿算法——具体来说是有限内存的 Broyden-Fletcher-Goldfarb-Shanno 算法（L-BFGS）——沿着拟牛顿优化路径寻找目标分布的低秩正态近似。每个近似的协方差矩阵由 L-BFGS 所产生的紧凑且高效的逆海森矩阵估计值提供。Pathfinder 并行计算每个正态近似的证据下界（ELBO），并返回来自 ELBO 最小化近似的抽样结果。Pathfinder 能够快速找到高概率质量区域，并从中抽取近似样本。

Pathfinder 被与 ADVI [26] 和短链 MCMC 运行进行了比较，其中使用的是 Stan 实现的 ADVI 和 HMC/NUTS [50]。后者的过程对应于 MCMC 预热阶段的第一步，或者本身也可视为一种变分推理算法，如文献 [21] 所述。近似性能通过1-Wasserstein 距离的离散形式以及对数密度和梯度评估次数来进行评估。

Pathfinder 算法在 posteriordb 中选取的20 个后验分布上进行了测试。这些模型包括广义线性模型、层次元分析模型、（异方差）高斯过程模型、混合模型、微分方程动力学模型、隐马尔可夫模型和时间序列模型。

对于 posteriordb 中的每一个模型，作者运行了100 次 Pathfinder，并与以下三种方法各运行 100 次的结果进行对比：

Stan 第一阶段预热（phase I adaptation）
：使用 Stan 的无 U 型转弯采样器（NUTS）进行自适应哈密顿蒙特卡洛；
密集 ADVI（dense ADVI）
：使用全协方差矩阵的 ADVI；
均场 ADVI（mean-field ADVI）
：使用对角协方差矩阵的 ADVI。

图3的右侧面板比较了各种算法在梯度评估次数（GE）方面的计算效率。实现无关的计算成本通过对数密度评估次数（LDE）和梯度评估次数（GE）来衡量。实验表明，在所评估的算法中，Pathfinder 的计算成本最低。总体来看，Stan 第一阶段采样的成本低于均场 ADVI，而密集 ADVI 的计算成本最高。不同测试模型和算法之间的计算成本差异明显。

图3的左侧面板展示了单路径 Pathfinder、ADVI 和 Stan 第一阶段采样器之间通过1-Wasserstein 距离进行的比较。为了调整不同目标密度下 1-Wasserstein 距离的尺度差异，结果相对于每个模型下 100 次单路径 Pathfinder 的 1-Wasserstein 距离的中位数进行了归一化处理。这使得我们可以比较不同方法之间 1-Wasserstein 距离的比例关系。

总体而言，Pathfinder 相较于各种 ADVI 方法产生了更低的 1-Wasserstein 距离。对于 20 个测试模型中的 8 个模型，均场 ADVI 的中位 1-Wasserstein 距离是单路径 Pathfinder 的两倍以上。密集 ADVI 在逼近真实后验时表现出最大的不稳定性。

值得注意的是，在隐马尔可夫模型bball_drive_event_0-hmm_drive_0上，均场 ADVI 的中位 1-Wasserstein 距离甚至不到单路径 Pathfinder 的十分之一。这个特定模型具有多个有意义的后验模态，而 ADVI 所使用的随机梯度下降方法固有的噪声使其能够逃离那些可能困住 Pathfinder 所用 L-BFGS 优化器的次要模态。

与 Stan 第一阶段预热相比，在本实验中，单路径 Pathfinder 在面对具有挑战性的后验时表现相对稳定。在 20 个测试模型中，有 7 个模型的 Stan 第一阶段预热产生的 1-Wasserstein 距离是单路径 Pathfinder 中位距离的两倍以上。除了bball_drive_event_0-hmm_drive_0模型外，其余模型中单路径 Pathfinder 的 1-Wasserstein 距离最多是 Stan 第一阶段预热的两倍。

5 讨论与结论

我们提出了posteriordb，这是一个用于开发概率编程语言（PPL）和后验近似算法的模型、数据、后验分布以及参考抽样结果的集合。在构建 posteriordb 的过程中，我们积累了一些关于基准测试项目的重要经验。

首先，我们添加了许多相对简单的后验分布，这些后验可以使用标准默认的动态 HMC 轻松估计。但事后来看，更困难的后验分布对于算法开发尤其重要。

其次，我们发现后验的标签和相关信息比最初设想的更加关键。一些后验过于复杂（例如多模态且识别性较弱），导致计算非常缓慢；而另一些则过于简单。当我们在进行基准测试和算法开发时，意识到必须根据实验目标选择合适的后验（例如排除或特别关注非对数凹函数形式的后验）。

第三，一个重要的结论是：为了便于组件的广泛使用和重复利用，应将模型、数据和后验分布分开存储。

5.1 局限性与未来工作

目前，绝大多数模型是用 Stan 编写的（也包含少量 PyMC 模型）；因此，当前的 posteriordb 在很大程度上依赖于 Stan。不过，通过bridgestan[45]，我们可以在许多不同的编程语言中访问这些模型的对数密度和梯度信息，从而简化这些语言中的算法开发。

此外，有些后验分布极具挑战性，以至于目前尚无法生成参考后验，这使得它们暂时难以用于基准测试。

我们计划对 posteriordb 进行多个方面的扩展与改进：

增加更多类型的后验分布
，特别是更具挑战性的后验；
纳入来自更多 PPL 的后验模型代码
，以便简化不同 PPL 之间的比较与基准测试；
扩展数据库功能，加入预测分布或支持预测分布的计算功能
。这将有助于基于预测分布的比较和诊断，并促进模型评估方法的发展；
我们还意识到需要从抽样结果中实证地识别后验几何结构，例如漏斗型后验、抽样集中海森矩阵非正定的后验，或多模态后验。虽然目前这项任务并不容易，但在后验近似算法开发中亟需进一步简化这一过程。
原文链接：https://arxiv.org/pdf/2407.04967

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.