网易首页 > 网易号 > 正文 申请入驻

模型误设下的模拟贝叶斯推理

0
分享至

模型误设下的模拟贝叶斯推理

Simulation-based Bayesian inference under model misspecification

https://arxiv.org/pdf/2503.12315



摘要
基于模拟的贝叶斯推断(Simulation-based Bayesian inference, SBI)方法广泛用于复杂模型中的参数估计,这类模型的特点是似然函数难以计算,但生成模拟数据相对容易。然而,这些方法通常假设模拟模型能准确反映真实的数据生成过程,而这一假设在现实场景中常常被违背。本文聚焦于模型误设情形下SBI方法所面临的挑战。我们整合了近期旨在缓解误设影响的研究,重点介绍了三种关键策略:i) 鲁棒性汇总统计量,ii) 广义贝叶斯推断,以及 iii) 误差建模与调整参数。为说明主流SBI方法在模型误设下的脆弱性,以及对误设具有鲁棒性的替代方法的有效性,我们在一个示例问题上展示了实证结果。

关键词:近似贝叶斯计算,条件密度估计,无似然推断,模型误设,神经网络,基于模拟的推断,合成似然

1 引言

标准贝叶斯方法依赖于从参数化统计模型导出的显式定义的似然函数。然而,在许多现实应用中,直接计算该似然函数在计算上可能代价高昂,或在解析上不可行。在此类情形下,可通过直接指定数据生成过程(DGP)来使用隐式统计模型(Diggle and Gratton, 1984)。

基于模拟的贝叶斯推断(SBI)方法通过隐式统计模型的模拟来近似后验分布。近似贝叶斯计算(ABC)方法在候选参数值下生成模拟数据集,然后计算观测数据与模拟数据之间的差异——通常通过低维汇总统计量来定义(Tavaré et al., 1997; Martin et al., 2024; Sisson et al., 2018)。另一种历史悠久的方法是间接推断(indirect inference),它基于观测数据的间接或辅助汇总量来估计统计模型的参数(Gourieroux et al., 1993)。一种相关且流行的 SBI 技术是贝叶斯合成似然(BSL)(Price et al., 2018; Wood, 2010),它建立在间接推断基础上,假设这些汇总统计量服从(条件)多元正态分布。最近,机器学习技术,尤其是神经条件密度估计器(NCDEs),为近似似然函数、后验分布和似然比提供了强大工具(Cranmer et al., 2020)。

在复杂应用中,小规模的污染或未建模现象使得详尽指定 DGP 的每一个细节变得不切实际,尤其在面对大规模数据集时(Miller and Dunson, 2019)。尽管实践者意识到模拟与现实之间存在差距,但推断通常仍以模型被完美设定为前提进行。当真实分布位于所考虑模型集合之外(即 P ⋆ ∉ P
)时,这一假设常被违背,这被称为 M-open 情形;相比之下,M-closed 情形则指 P ⋆ ∈ P
(Bernardo and Smith, 2009; Le and Clarke, 2017; Yao et al., 2018)。

针对模型误设的鲁棒方法的主要目标是:即使在 M-open 情形下,也能提供可靠且有用的推断。我们采用 Huber 和 Ronchetti(2009)的经典定义来界定鲁棒性:对假设模型的微小偏离仅应导致推断结果的微小变化。这确保了假设模型与真实分布之间的适度偏差不会不成比例地影响我们的结论。

模型误设在 SBI 中构成一项重大挑战,会导致经验上观察到的不可靠推断(Cannon et al., 2022;Schmitt et al., 2024),并违背通常的理论假设,因而需要专门处理(Legramanti et al., 2025;Marin et al., 2014;Frazier et al., 2020)。尽管近期在统计学(Bharti et al., 2022;Dellaporta et al., 2022;Frazier and Drovandi, 2021)和机器学习(Huang et al., 2023;Kelly et al., 2024;Ward et al., 2022)等多个领域已涌现出大量关于 SBI 中模型误设鲁棒方法的研究,但尚无综合性工作将这些成果统一整合。本文对 SBI 框架下模型误设相关研究进行了全面回顾与综合。我们描述了模型误设情形下 SBI 所面临的问题,探讨了各类 SBI 方法如何受此问题影响,并汇总了近期提升这些方法鲁棒性的策略。通过这一工作,我们旨在厘清分散的文献,为实际应用提供实用洞见,并勾勒未来研究的可行方向。

在第 2 节中,我们考察了三种主要的 SBI 方法——近似贝叶斯计算(ABC)、贝叶斯合成似然(BSL)和神经条件密度估计(NCDE)——并描述和演示了每种方法如何易受模型误设的影响。在第 3 节中,我们将近期方法归类为三类应对 SBI 中模型误设的鲁棒策略:鲁棒性汇总统计量、广义贝叶斯推断,以及误差建模与调整参数。随后,我们在第 4 节通过一个贯穿全文的示例展示这些策略的应用。最后,在第 5 节中,我们进行总结讨论,并展望 SBI 中模型误设问题的未来研究方向。

2 SBI 与模型误设

在本节中,我们首先介绍贝叶斯推断所需的背景知识,包括对模型误设的一般性讨论。随后,我们概述基于模拟的推断(SBI),重点介绍三种关键方法:近似贝叶斯计算(ABC)、贝叶斯合成似然(BSL)和神经条件密度估计(NCDE)。接着,我们在 SBI 框架下考察模型误设问题,侧重于理论层面的洞见。最后,我们通过一个示例——一个误设的 MA(1) 模型——来演示标准 SBI 方法如何因模型误设而受到不利影响。

2.1 贝叶斯推断预备知识

贝叶斯推断通过利用观测数据更新我们对模型参数的初始信念,从而量化参数的不确定性。对于数据 y y 和模型参数 θ θ,贝叶斯推断的目标是后验分布(posterior distribution):


在贝叶斯推断中,模型误设可能源于两个相互关联的组成部分:数据生成过程(DGP)和先验分布。尽管本文聚焦于 DGP 的误设,但另一种形式的误设出现在先验与似然所包含的信息相互冲突时,即使 DGP 被正确设定,这种冲突仍可能导致不良推断(Evans and Moshonov, 2006)。关于在无似然推断中如何检验先验-数据冲突的讨论,参见 Chakraborty et al. (2023a)。

与其追求一个完美“真实”的模型——这在实践中往往无法实现——我们将模型构建视为一个迭代过程。我们从更简单的模型出发,仅当增加复杂性能带来更清晰的洞见或更好的拟合时才引入复杂性,遵循 George Box 的名言:“所有模型都是错的,但有些是有用的”(Box, 1976, 1980)。这一理念构成了原则性贝叶斯工作流的基础(Betancourt, 2020;Gabry et al., 2019;Gelman et al., 2020;Schad et al., 2021),该工作流包括模型构建、推断、模型检验、评估与扩展。通过计算验证和模型评估技术来评估模型拟合情况是该工作流的关键环节,有助于识别潜在的误设。例如,后验预测检查(posterior predictive checks)用于评估模型能否复现观测数据的关键特征(Gelman and Shalizi, 2013)。当检查表明拟合不佳时,建模者可通过修订先验、纳入更多数据、重新审视关键假设或扩展模型结构等方式改进模型。然而,不加区分地增加模型复杂度可能会掩盖洞见,并阻碍有意义的科学推断(McElreath, 2018;Miller and Dunson, 2019)。原则上,贝叶斯框架可通过奥卡姆剃刀原则——即通过模型证据(model evidence)——协调模型复杂度与数据拟合(参见 MacKay, 2003, 第28章),但在 SBI 中,由于仅有不充分的汇总统计量可用,这一方法会变得有问题(Robert et al., 2011;Marin et al., 2014)。

在 M-closed 情形下,贝叶斯方法(配合恰当的先验和充足的计算能力)被证明是诸如决策(Savage, 1954)和信息处理(Zellner, 1988)等任务中唯一最优的方法。此外,它具有“一致性”(consistency),即随着数据量增加,后验分布会集中于真实参数值。

相比之下,在 M-open 情形下,在正则条件下,标准贝叶斯推断将集中于伪真参数(pseudo-true parameter),



2.2 SBI 背景知识

我们关注的情形是:似然函数不可用或难以处理,但我们可以方便地从模型中生成模拟数据。本文聚焦于近似贝叶斯计算(ABC)、贝叶斯合成似然(BSL)和神经条件密度估计器(NCDE),因为 SBI 中关于模型误设的研究主要基于这些方法。尽管如此,也存在其他策略,例如非神经网络的条件密度估计器(Forbes et al., 2022;Häggström et al., 2024)以及密度比估计(Hermans et al., 2020;Thomas et al., 2022)。此外,频率学派方法(Cranmer et al., 2016;Dalmasso et al., 2024;Warne et al., 2023)提供了另一种视角,但本综述仍专注于贝叶斯方法。




尽管有这些改进,所有 ABC 方法在处理高维汇总统计量时仍面临“维度灾难”(curse of dimensionality)的挑战(Barber et al., 2015;Csilléry et al., 2012)。随着维度增加,要么需要放宽对“接近性”的容差,从而导致更大的近似误差;要么接受的模拟数量减少,为了维持给定数量的后验样本,就必须进行更多次模拟,进而大幅增加计算成本。

2.2.2 贝叶斯合成似然(Bayesian Synthetic Likelihood, BSL)
与 ABC 依赖差异函数比较模拟数据与观测数据不同,BSL 使用参数化估计器来近似不可处理的似然函数。合成似然方法最早由 Wood(2010)提出,他采用多元正态分布来近似汇总统计量的似然。当汇总统计量是大量独立随机变量的和或均值时,中心极限定理可为该正态性假设提供理论依据。

Price 等人(2018)将合成似然纳入贝叶斯框架,从而发展出 BSL。在标准 BSL 中,合成似然函数定义为:



2.2.3 神经条件密度估计(Neural Conditional Density Estimation, NCDE)

NCDE 类方法通过神经网络从模型模拟中学习目标条件密度的代理模型,从而逼近 SBI 中不可计算的条件密度。这类方法因能有效处理高维数据与参数而广受欢迎。这与传统密度估计方法(如核密度估计,KDE)形成对比——后者受“维度灾难”困扰,在高维情形下变得不切实际(Rosenblatt, 1956;Parzen, 1962)。


最常见的情形是,NCDE 方法直接以目标后验分布为拟合对象。当神经网络用于此目的时,该方法被称为神经后验估计(Neural Posterior Estimation, NPE)(Papamakarios and Murray, 2016;Lueckmann et al., 2017;Greenberg et al., 2019)。其目标是学习一个神经网络近似 ,使其最小化前向 KL 散度,即:




若 amortised 方法收效甚微,或无法从先验预测性模拟中高效学习到准确的 NCDE,则可采用分轮次运行模拟的序贯采样方案(Papamakarios and Murray, 2016)。该策略旨在针对感兴趣的区域生成更多模拟,以提升推断效率与精度。当应用于 NPE 时,此方法称为序贯神经后验估计(Sequential Neural Posterior Estimation, SNPE)。另一种聚焦于感兴趣区域的策略是:先通过 ABC 方法生成一个更贴近观测数据的训练数据集(即“预条件化 NPE”,pre-conditioned NPE),如 Wang et al. (2024b) 所提出。


类似地,高斯过程(GP)代理模型已被用于 ABC 中,以高效建模模拟数据与观测数据之间的差异,并近似合成似然。例如,无似然推断的贝叶斯优化(BOLFI)(Gutmann and Corander, 2016)利用 GP 建模差异函数,引导模拟朝向参数空间中信息更丰富的区域,并显著减少所需模拟次数。进一步的研究将贝叶斯优化与不确定性下的决策制定相结合,以实现准确、高效的后验估计(Järvenpää et al., 2019, 2021;Oliveira et al., 2021)。

2.3 SBI 中的模型误设


ABC 通过绝对差异比较观测与模拟汇总统计量。在模型误设下,Frazier 等(2020)已证明 ABC 后验会集中于伪真参数


因此,ABC 的伪真参数既取决于汇总统计量的选择,也取决于差异函数 d ( ⋅ , ⋅ )
,凸显了审慎选择这些组件的重要性。尽管精确复现完整数据集可能不可行,但采用鲁棒性汇总统计量有助于实现兼容性。类似地,选择鲁棒性差异度量也可能提升模型在误设下的收敛表现(见第 3.1 节)。

虽然 ABC 在误设下表现出一定鲁棒性(因其收敛于伪真参数——无论该参数是否实用),但它通常无法提供有效的频率覆盖(frequentist coverage)。此局限并非 ABC 独有:标准贝叶斯推断在误设下同样可能无法实现名义覆盖(Kleijn and Vaart, 2012)。此外,与标准 Bernstein–von Mises 情形不同,误设下 ABC 后验的极限分布未必为高斯型(Frazier et al., 2020)。进一步地,常见的后处理调整(如局部回归)在模型误设时可能恶化推断,使后验偏离伪真参数(Beaumont et al., 2002)。


相比之下,ABC 与 BSL 已受益于对其误设行为的严谨理论分析,而 NCDE 方法目前尚缺乏同等水平的理论清晰性。近期理论工作(Frazier et al., 2024a)在兼容性假设(即模型正确设定)下提供了洞见,但针对误设情形的研究仍属空白。尽管如此,实证研究表明模型误设可能对 NCDE 方法产生不利影响(Cannon et al., 2022;Schmitt et al., 2024)。直观而言,这是由于神经网络在训练时所见的数据分布(来自假设模拟器)与测试时需泛化的分布(真实观测数据)不同,从而引发分布外(out-of-distribution, OOD)泛化问题——这在深度学习中是一个核心关切(Hendrycks et al., 2021;Hendrycks and Gimpel, 2022;Yang et al., 2022)。例如,常用于神经 SBI 的归一化流模型已被证实难以应对 OOD 数据(Kirichenko et al., 2020)。在标准深度学习中,通常通过测试/验证集(来自真实数据)评估模型泛化能力,以增强对未见真实数据适用性的信心;然而在 SBI 中,验证损失仅反映模型在假设模拟器生成数据上的性能,无法保证其在与假设模型显著不同的真实观测数据上表现良好。

诊断模型误设对基于 ABC 的方法的可靠结果获取及模型改进至关重要。Frazier 等(2020)提出了两种 ABC 诊断工具:其一检验接受概率随容差衰减的情况——线性偏离提示误设;其二比较不同 ABC 算法所得后验期望,不一致则暗示模型问题。类似地,Gutmann 等(2018)将分类准确率引入 ABC,将推断问题建模为模拟数据与观测数据间的二分类任务;高分类准确率表明模型难以复现观测数据,提示潜在误设。

基于汇总统计量的后验预测检验在 SBI 中被广泛采用(Bertorelle et al., 2010;Wang et al., 2024a)。通过从后验预测分布生成数据,并将其汇总统计量与观测数据的汇总统计量比较,可评估模型对实际观测的复现能力。若后验预测区间无法覆盖大部分观测数据,则提示模型误设或推断性能不佳0。此外,Chakraborty 等(2023a)将先验-数据冲突检验拓展至 SBI 框架,有助于识别先验与观测数据之间的不一致性。

多种拟合优度检验已被提出用于评估 SBI 中的模型设定。Dalmasso 等(2020)提出一个结合固定参数下局部双样本检验与全局拟合优度检验的框架,用于检测代理模型中的误设。Ramírez-Hassan 与 Frazier(2024)提出一种检验统计量,在零假设 ε ∗ = 0
(即式 (2) 定义的兼容性)下渐近服从卡方分布,从而支持对模型误设的假设检验。Schmitt 等(2024)则采用最大均值差异(MMD)度量观测与模拟数据分布间的差异,并基于模拟估计的临界 MMD 值实施假设检验。

2.4 示例:误设的 MA(1) 模型

我们以 Frazier 和 Drovandi(2021)所提出的一阶移动平均(MA(1))误设模型作为贯穿全文的示例。我们的目标是在该玩具示例上演示 ABC、BSL 和 NCDE 如何对模型误设作出不同的响应。我们将在第 4 节再次回到此示例,展示第 3 节所述的鲁棒方法如何用于获得理想的推断结果。

在此误设示例中,我们所假设的数据生成过程(DGP)是一个 MA(1) 模型:





当然,在实践中,对于如此简单的例子,人们通常会进一步探究以构建更精确的 DGP。我们采用此例纯粹出于教学目的:旨在说明——即使在 DGPs 根本不同的误设情形下,后验仍可能集中于一个在当前情境下具有合理解释的参数值;同时展示建模者可用于迭代改进模型的若干相关诊断工具。

作为现实类比,“2018 年 Volmageddon 事件”提供了一个典型案例:因随机波动率模型误设,与波动率挂钩的金融产品遭遇灾难性损失(Augustin et al., 2021)。这一失败凸显了误设波动率假设的严重风险。Cannon 等(2022)对 Volmageddon 进行了模拟复现,发现常用 SBI 方法均产生较差的推断结果。

在此简单示例中,我们可观察到三类主要 SBI 方法对模型误设的不同响应:





3 SBI 的鲁棒方法

我们归纳出文献中用于实现模型误设下鲁棒推断的三类主要策略:第一,可通过谨慎选择鲁棒性汇总统计量,缓解对完整、复杂数据的依赖,从而减轻模型误设的影响;第二,可采用广义贝叶斯推断,其中鲁棒推断通过使用替代性损失函数实现——特别地,SBI 可在 GBI 框架下实施,利用基于样本的鲁棒损失函数;第三,可通过直接建模观测与模拟汇总统计量之间的差异,并引入调整参数,以应对数据不匹配问题。

3.1 鲁棒汇总统计量

当使用汇总统计量而非完整数据集进行推断时,模型误设体现为无法复现观测汇总统计量,而非无法复现全部观测数据。通过将数据映射至一组经审慎筛选的鲁棒汇总统计量0,我们可聚焦于对推断目标关键的特征,同时抑制可能引发误设的复杂噪声或无关特征0。汇总统计量的构建在 SBI 中已获大量关注(参见 Sisson 等,2018,第5章),但本文聚焦于如何构造对模型误设鲁棒的汇总统计量0。

遵循原则性贝叶斯工作流(Betancourt, 2020),我们区分“相关”与“无关”的模型误设:不尝试精确匹配真实 DGP,而是集中于提取对分析目标相关、并忽略数据采集或处理中产生的无关伪影等无关特征。在 SBI 中,我们的目标是通过汇总统计量捕获相关特征。理想情况下,所构建的汇总统计量应具备鲁棒性——即使存在对模型假设的微小偏离,估计仍保持可靠。一个常见例子是中位数:因其高截断点(breakdown point),它能承受显著污染而不致估计退化0。


尽管基于汇总统计量的推断常被视为必要之恶——因牺牲信息换取计算效率——但若丢失的信息属于无关特征,则使用汇总统计量反而可能提升鲁棒性。

由 Lewis 等(2021)提出的贝叶斯受限似然方法(Bayesian restricted likelihood approach)将数据映射至一组对特定数据特征鲁棒、但对不良扰动(如离群点)不敏感的不足量汇总统计量。例如,M-估计量可降低对离群点的敏感性(参见 Vaart, 2000,第5章综述)。该思路亦被 Ruli 等(2020)采纳,其在 ABC 中采用 M-估计函数构建鲁棒汇总统计量;近期,Luciano 等(2024)进一步发展出一种基于 Gibbs 抽样的方法,其条件依赖于鲁棒不足量汇总统计量。

另一种策略是贝叶斯数据选择(Bayesian data selection),即识别出与所假设参数模型兼容的数据部分(Weinstein and Miller, 2023)。在此框架中,“前景”(foreground)由参数模型刻画,“背景”(background)则由贝叶斯非参数模型建模;Weinstein 与 Miller(2023)提出一种新颖评分准则,用于寻找数据的低维投影——这些投影能被参数模型有效描述,从而作为兼容的汇总统计量,使我们可聚焦于模型能捕捉的数据方面0。

同样聚焦于贝叶斯数据选择任务,Huang 等(2023)在损失函数中引入最大均值差异(MMD),以鲁棒地学习适用于 SBI 的汇总统计量。先前自动化构建汇总统计量的方法(如 Albert 等, 2022;Chen 等, 2021;Fearnhead & Prangle, 2012;Jiang 等, 2017)虽在信息获取上有效,但通常未考虑模型误设情形。相比之下,Huang 等(2023)的方法明确针对误设场景:他们提出两种方法:其一,在 NPE 框架内联合学习神经网络与汇总统计量网络;其二,利用自编码器学习对 ABC 鲁棒的汇总统计量0。对于 NPE0,其目标是最小化如下损失:


此外,Bharti 等(2022)通过在汇总统计量选择过程中引入领域专家来应对 ABC 中的模型误设问题。他们认识到手动选择信息性汇总统计量的困难,提出了一种序贯实验设计方法,以最小侵入性的方式主动让专家参与其中。该方法通过允许专家识别并剔除具有误导性的汇总统计量,有效缓解了模型误设的影响。

另一种策略是模块化贝叶斯推断(modularised Bayesian inference),它通过将联合后验分解为多个模块,并采用“切断反馈”(cutting feedback)方法选择性地忽略被误设的模块,从而应对模型误设(Bayarri et al., 2009;Yu et al., 2023)。在我们基于汇总统计量的语境下,这意味着可以忽略那些对某些模型参数推断产生不利影响的汇总统计量的作用。Chakraborty 等(2023b)进一步将这一概念拓展至 SBI 框架,提出了一种基于联合后验高斯混合近似的切断反馈方法。

3.2 广义贝叶斯推断

标准贝叶斯推断对模型误设高度敏感,因为它本质上最小化的是 Kullback–Leibler(KL)散度,而 KL 散度会严重惩罚模型与数据之间任何小概率区域的不匹配(Basu et al., 1998;Jewson et al., 2018)。为应对这一脆弱性,可使用替代性损失函数取代常规的对数似然更新,这构成了广义贝叶斯推断(Generalised Bayesian Inference, GBI)的基础。本节探讨 GBI 思想如何与 SBI 相结合。

GBI 推广了传统的贝叶斯信念更新方式(Bissiri et al., 2016;Knoblauch et al., 2022)。广义后验(亦称 Gibbs 后验或伪后验)定义为:




Miller 和 Dunson(2019)通过“粗化后验”(coarsened posteriors)形式化了类似联系:该方法通过对经验分布的某个邻域(而非精确数据)进行条件化,从而增强鲁棒性。作为其工作的副产品,他们展示了 ABC 后验如何通过核函数 K ε
隐式地契合广义后验视角。

在开创性工作中,Wilkinson(2013)通过将假设 DGP 与真实 DGP 之间的差异视为模型误差或测量误差,明确承认了模型误设的可能性。他们指出,若实际的模型误差被明确指定,则 ABC 在该假设下可产生精确结果,这反映了 K ε
如何编码模型误差。此外,Schmon 等(2020)将 ABC 的接受/拒绝步骤解释为隐式定义了一个误差模型。在实践中,基于阈值或高斯核的选择主要出于计算便利性或启发式考虑,但这些选择本身很可能也是误设的。例如,拒绝式 ABC 可被视为在以 S ( y )
为中心、半径为 ε ε 的球内对均匀模型误差进行的精确推断,而这种均匀误差假设不太可能反映真实的模型误差。为缓解这一潜在的误设误差假设,可采用更灵活的误差分布(见第 3.3 节)。此外,由于 ABC 可被纳入 GBI 框架,更广泛的 GBI 鲁棒推断策略自然也适用于 ABC(Schmon et al., 2020)。

广义后验主要通过两种方式应对模型误设:一是调整校准参数 w ,二是选择对误设更具鲁棒性的损失函数 L 。

3.2.2 校准参数 w 的调整
降低对负对数似然的权重(即取 w < 1
)可限制误设似然的影响。该方法被称为温控后验(tempered posteriors;Holmes and Walker, 2017)或分数后验(fractional posteriors;Bhattacharya et al., 2019)。其中最早的方法之一是 SafeBayes(Grünwald, 2012;Grünwald and Ommen, 2017),它通过自适应地缩放似然,以防止在模型误设下出现不一致性,从而确保即使模型未被正确设定,后验仍保持“安全”。Miller 和 Dunson(2019)通过温控似然来近似其粗化后验(一种广义后验)。尽管温控对于真实似然可能是一种有效的鲁棒策略,但对于依赖模拟数据的似然方法而言,温控通常被证明无效。例如,Frazier 等(2024b)考虑对合成似然进行温控,Gao 等(2023)则研究了神经似然方法中的温控。在这两种情形中,该策略均被发现无效甚至有害。如 Frazier 等(2024b)所展示的,尽管温控可改变后验近似的尺度,却无法改变其众数或整体形状,因此通常无法解决由模型误设引发的核心问题。

3.2.3 鲁棒损失函数
广义贝叶斯推断(GBI)可通过在式 (3) 中选择一个鲁棒的损失函数来应对模型误设。由于 ABC 后验是一种广义后验,我们可以采用相同的思路来指导鲁棒距离度量的选择。与此相关的是,Frazier 等(2020)的结果表明,ABC 所用的距离决定了伪真参数,这凸显了选择对模型微小偏离不敏感的距离度量的重要性。此处我们聚焦于已在 ABC 中被考虑过的距离选择。

积分概率度量(Integral Probability Metrics, IPMs;Müller, 1997)是一类适用于基于模拟推断(SBI)的有用度量,其中包括最大均值差异(MMD)和 Wasserstein 距离。两个定义在空间 X 上的概率测度 P 与 Q 之间的 IPM 一般形式定义为:


Legramanti 等人(2025)近期的理论工作为在 ABC 中使用基于 IPM 的距离提供了严格的理论基础。他们的框架引入了 Rademacher 复杂度的概念,用于分析基于差异度量的 ABC 后验的极限性质,包括在非独立同分布(non-i.i.d.)和模型误设情形下的表现。

ABC 中鲁棒距离的一个早期例子来自 Park 等人(2016),他们提出了 K2-ABC 方法,该方法在 ABC 中采用最大均值差异(MMD)作为差异函数。平方 MMD 的一个无偏估计量如下所示:



另一种被研究的距离选择是 Wasserstein 距离(Villani, 2009)。Bernton 等人(2019)提出在 ABC 中使用观测数据与模拟数据经验分布之间的 Wasserstein 距离。他们开发了计算近似方法,以缓解其随观测数量呈超二次方增长的计算复杂度,从而使该方法在大数据集上更具实用性。

进一步的散度度量已在 ABC 中被探索:Fujisawa 等人(2021)利用一种基于 k k-近邻核密度估计的 γ γ-散度估计器;Jiang(2018)将 KL 散度作为 ABC 中的数据差异度量,将其与贝叶斯推断中的传统 KL 基伪真参数对齐;Frazier(2020)则研究了 Hellinger 与 Cramér–von Mises(CvM)距离的使用,验证了其在模型误设下的鲁棒潜力。

面对众多距离选项,建模者需了解哪些在 ABC 中最具前景。当然,最合适的距离取决于具体问题;Drovandi 与 Frazier(2022)的实证研究表明,在模型正确设定情形下,CvM、Wasserstein 与 MMD 距离表现相当;而在模型误设情形下,Legramanti 等人(2025)在误设的 Huber 污染模型中比较了 MMD、Wasserstein 与 KL 散度,发现 MMD 在各类误设程度下表现最优,突显了其在鲁棒推断中的有效性。

最初,研究 ABC 中多种距离选择的主要动机在于它们既适用于使用汇总统计量的情形,也适用于不使用汇总统计量的情形。例如,Park 等人(2016)提出 K2-ABC 的初衷是为了避免使用不充分的汇总统计量,并未提及模型误设问题。然而,幸运的是,人们后来发现,在 ABC 中使用 MMD 对模型误设具有高度鲁棒性。本节内容同时适用于基于汇总统计量和无汇总统计量的 SBI 方法。

在 ABC 中,用于定义广义后验的损失函数相当明确,因为建模者必须显式选择一个距离度量和误差核函数。对于 BSL 和 NCDE 方法,也隐含地使用了类似的损失函数——尽管其形式不那么显式。Pacchiardi 等人(2024)利用评分规则(scoring rules;Gneiting and Raftery, 2007)构建 GBI 框架,从一个恰当的评分规则导出损失函数,以度量模型与数据之间的差异。例如,BSL 后验对应于一个以 Dawid–Sebastiani 评分(Dawid and Sebastiani, 1999)为基础的广义后验。

NCDE 方法通常旨在近似标准贝叶斯后验;例如,如式 (1) 所示,NPE 最小化前向 KL 散度。但如前所述,KL 散度并不鲁棒,最坏情况是遭遇对抗性攻击——即微小但有针对性的扰动会显著影响估计器的输出。为增强对此类对抗性扰动的鲁棒性,Glöckler 等人(2023)提出了一种正则化方案,通过惩罚条件密度估计器的 Fisher 信息来实现。

另一种方法是使用 KL 散度以外的损失函数训练神经网络,以提升模型误设下的鲁棒性。例如,Gao 等人(2023)提出了一种 GBI 的 amortised(摊销式)方法,通过训练神经网络直接预测损失函数。他们的方法称为摊销成本估计(Amortised Cost Estimation, ACE),学习损失函数的代理模型,从而在推断阶段无需大量模拟。通过采用鲁棒的损失函数(如 MMD),ACE 可提供对模型误设具有鲁棒性的推断。同样的原则也适用于其他依赖损失函数代理建模的 SBI 方法,例如 BOLFI(Gutmann and Corander, 2016),其中所建模的差异度量可被选择为鲁棒的形式。

3.3 误差建模与调整参数


这些误差模型的一个有用特例是引入 调整参数 (adjustment parameters),其可直接平移模拟输出,使其更好地与观测数据对齐。当使用汇总统计量时,调整参数可被理解为对不兼容汇总统计量的修正——即通过偏移来缓解模型与数据之间的不匹配。对于给定参数 θ θ ,引入与汇总统计量维度相同的加性调整参数向量 Γ = ( γ 1 , … , γ d ) ⊤,我们有:


早期关于确定性计算机模型的研究即引入调整参数以校正模型与观测数据之间的不匹配。Kennedy 与 O’Hagan(2001)提出的模型 Γ 被称为“模型不足校正”(model inadequacy correction),其采用高斯过程建模。Bayarri 等人(2009)将该方法拓展至模块化贝叶斯框架,并提供了对 Γ 建模的策略。

在 SBI 的背景下,一种早期方法是 Ratmann 等人(2009)提出的 ABC(_\mu) 方法。鉴于评估模型适切性的必要性,Ratmann 等人(2009)将一个未知误差项引入似然函数,并将 ABC 误差容差视为具有自身指数先验分布的随机变量。这些随机的 ABC 误差容差——对每个汇总统计量分别设定——与调整参数 Γ 实质相同,即:模拟与观测汇总统计量之间的偏差。

从模型参数与误差项的联合后验分布中抽样,使得可通过误差项的后验分布直接检验模型误设。这一模型批评机会是所有调整参数方法的共有特征。在兼容汇总统计量情形下(如 Frazier 与 Drovandi, 2021 所示), Γ 各分量的后验收敛于其先验;而在模型误设情形下, Γ 的后验会偏离其先验,以修正模型与观测数据间的差异。通过检验调整参数是否显著偏离其先验,我们可识别出不兼容的汇总统计量。若汇总统计量经领域专家审慎筛选而被认为有意义,则该方法可精准揭示模型中哪些方面存在不足,从而促进模型批评与改进。

Frazier 与 Drovandi(2021)提出了鲁棒 BSL(RBSL)方法,该方法在合成似然中引入调整参数以增强对误设的鲁棒性。在 RBSL-M 中,合成似然中的均值向量被调整为:



在 RBSL-V 变体中,不调整均值,而是对协方差进行膨胀(inflated)以应对误设:



该增广的 BSL 后验可通过分量式 MCMC 算法进行抽样:模型参数 θ θ 采用 Metropolis–Hastings 算法(Metropolis et al., 1953;Hastings, 1970)抽样,而调整参数 Γ 则采用切片抽样(slice sampling)(Neal, 2003)抽样。RBSL-M 算法详见算法 3。尽管为保持记号一致性我们仍称其为 RBSL-M,但也可将 RBSL-V 解释为:将标准合成似然与一个独立高斯误差模型相结合,其中协方差项被视为未知参数。




4 重访示例:鲁棒方法的效果验证

为展示第 3 节所述鲁棒方法如何在模型误设下改进推断,我们再次考察第 2.4 节中的误设 MA(1) 示例。在标准设定下,BSL 与 SNL 均给出较差的推断结果,其近似后验集中于参数空间中远离伪真参数值的区域。




通过引入调整参数,我们可实现更鲁棒的推断。图 6 展示了 RBSL-M 与 RBSL-V 的结果。与标准 BSL 相比,这些鲁棒变体产生的后验更紧密地围绕伪真参数值 θ = 0
集中0。其后验预测模拟也更好地匹配观测汇总统计量,从而缓解了先前观察到的过度自信(overconfidence)与覆盖不足问题。我们在图 7 中对神经方法也观察到类似改进:当采用鲁棒策略(如 RSNL)时,性能得到提升。


使用调整参数的另一优势在于支持模型批评(model criticism)。图 8 表明,第一调整参数分量 γ 1
的后验明显偏离其先验分布,明确警示该模型与第一汇总统计量不兼容0。这提示所选 MA(1) 模型无法复现观测样本方差,有助于建模者定位并修正模型缺陷0。尽管这是一个简单示例,但相同逻辑适用于更复杂的场景,帮助建模者精准识别其模型中未能捕捉数据关键特征的部分0。


5 讨论

模型误设现已被确立为 SBI 中的核心问题。本文全面综述了 SBI 中的模型误设问题,涵盖其对关键方法——近似贝叶斯计算(ABC)、贝叶斯合成似然(BSL)和神经条件密度估计(NCDE)——的影响,并概述了近期应对模型误设的方法。

在实践中构建鲁棒模型,要求从业者意识到模型误设的存在,并迭代地改进其模型。在原则性贝叶斯工作流中,模型检验起着关键作用。后验预测检验等诊断工具,或第 2.3 节末尾所述更专门针对 SBI 的诊断方法,有助于揭示模型在何处以及如何未能捕捉数据的关键特征。基于这些诊断结果,建模者可迭代改进模型或引入鲁棒推断技术。

第 3 节概述了 SBI 中实现鲁棒推断的三大策略:鲁棒汇总统计量广义贝叶斯推断(GBI)和调整参数。采用鲁棒汇总统计量(例如用中位数而非均值)可降低对离群点和微小偏差的敏感性。尽管许多自动学习汇总统计量的方法易受误设影响,但鲁棒自动化汇总构造的研究正在积极推进,如 Huang 等人(2023)提出的方法。对于依赖模拟数据与观测数据之间距离度量的 SBI 方法,选用鲁棒度量(如基于 MMD 的方法)可增强稳健性。若条件允许,测试多种距离度量可提供进一步洞见。类似地,在使用 BSL、NPE 或 SNL 时,引入鲁棒调整参数可在几乎不增加计算开销的情况下提升可靠性。通过归类近期进展,我们可考虑将多种鲁棒策略结合,并整合进贝叶斯工作流,以进一步增强鲁棒性并提升整体推断质量。

尽管本文未显式比较 ABC、BSL 和 NCDE 的鲁棒性,但值得注意的是,标准 ABC 方法通常表现出一定程度的内在鲁棒性(Schmon 等, 2020)。颇具讽刺意味的是,ABC 中常被视为缺点的特性——如依赖汇总统计量、误差容差阈值以及用户指定的差异函数——实际上可能缓解某些形式的误设。例如,鲁棒汇总统计量(第 3.1 节)可能比使用完整数据集对离群点更不敏感;容差阈值本质上充当了隐式误差模型(Miller and Dunson, 2019;Wilkinson, 2013);而选择鲁棒距离度量(第 3.2 节)相比标准贝叶斯推断可降低离群点的影响。尽管 ABC 在高维数据下扩展性较差,但其天然的鲁棒性可能使其在低维问题中更具优势。

尽管近期取得诸多进展,仍有许多开放问题亟待解决,并指向未来研究的激动人心方向。首要任务之一是为误设模型开发标准化的度量指标与基准测试,类似于 Lueckmann 等人(2021)在模型正确设定情形下建立的基准。此类基准将有助于不同方法的比较,并为实践者提供指导。另一重要空白在于 NCDE 在误设下的理论基础。虽然 ABC 和 BSL 已受益于对其误设行为的严格理论分析,但 NCDE 方法目前尚缺乏同等水平的理论清晰性。近期关于 NCDE 的理论洞见依赖于兼容性假设(Frazier 等, 2024a),但在模型误设情形下尚不明确,亟需进一步研究。

在 SBI 的序贯采样中,参数样本本应从高密度区域抽取,但标准方法可能不稳定。一个挑战是后验质量“泄漏”到先验支撑集之外(Durkan 等, 2020),对此已有研究建议采用截断先验提议分布(Deistler 等, 2022)。另一问题是极端的先验预测样本会损害训练,可通过预条件化 NPE 缓解——该方法使用 ABC 样本作为初始训练集(Wang 等, 2024b)。在模型误设下,神经 SBI 方法的经验表现较差,表明其未必自然收敛至合适的伪真参数,而 ABC 的这一性质已被充分证实。因此,在误设场景中,采用 ABC 样本进行预条件化的序贯方法可能具备更强的鲁棒性。

获得具有可信区间且覆盖概率与真实覆盖率一致的后验,是 SBI 中一个公认难题,许多 NCDE 方法倾向于给出过度自信的推断(Hermans 等, 2022)。当模型未被正确设定时,这一问题可能加剧,正如 Cannon 等人(2022)的实证结果所示;一般而言,当模型误设时,贝叶斯可信集并非有效的置信集(Kleijn and Vaart, 2012)。针对误设情形下的校准问题,近期利用最优传输理论实现更鲁棒、更校准推断的工作可能提供帮助(Wehenkel 等, 2024)。

同时,新兴的 SBI 方法类别(如流匹配和扩散模型;Gloeckler 等, 2024;Simons 等, 2023;Wildberger 等, 2023)在误设背景下的研究仍基本空白。探究其鲁棒性并设计缓解模型误设的方法,有望显著拓展其实际适用性。此外,训练神经近似模型时,若放弃通常最小化前向 KL 散度的损失,转而采用广义变分推断(GVI)框架(Knoblauch 等, 2022),也可能有助于学习更鲁棒的近似。

SBI 领域正开始认真应对模型误设问题。目前已有许多鲁棒方法被提出,且对其在模型误设下行为的理论理解也在稳步提升。神经网络方法虽因其可扩展性而广受欢迎,却对模型误设较为敏感。从 ABC 方法所具有的内在鲁棒性中汲取的经验,或可启发 NCDE 方法的进一步鲁棒化改进。归根结底,实践者必须对模型误设保持警惕,积极开展模型检验,并在必要时引入鲁棒方法。我们预期,持续的研究将进一步扩充可用工具集,使针对模型误设的鲁棒推断日益成为可能。

原文:https://arxiv.org/pdf/2503.12315

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8离世家!美媒:自打拒绝湖人4年8400万续约,施罗德5年换了8队!

8离世家!美媒:自打拒绝湖人4年8400万续约,施罗德5年换了8队!

818体育
2026-02-02 08:56:59
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

敢不敢打?我军重大人事变故后菲律宾南海演习,更像是一种试探

悦心知足
2026-02-01 00:50:48
军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

老羴学科普
2026-01-31 17:25:45
央视主持人胡蝶嫁给导演陆川,九年育两子,如今生活状况如何?

央视主持人胡蝶嫁给导演陆川,九年育两子,如今生活状况如何?

泪满过眼
2026-02-01 03:17:00
讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

涵豆说娱
2026-01-31 14:30:35
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
加拿大这步棋,下出了一场全球变局!

加拿大这步棋,下出了一场全球变局!

浪子的烟火人间
2026-01-30 07:03:12
结束西甲进球荒,维尼修斯社媒:至死忠于皇马,永远都是皇马

结束西甲进球荒,维尼修斯社媒:至死忠于皇马,永远都是皇马

懂球帝
2026-02-02 00:52:21
狂胜53分创队史纪录!活塞大胜篮网 坎宁安18+12杜伦21+10

狂胜53分创队史纪录!活塞大胜篮网 坎宁安18+12杜伦21+10

醉卧浮生
2026-02-02 09:29:31
中日交恶80天后,美防长落地日本:向中国喊话,高市早苗马上改口

中日交恶80天后,美防长落地日本:向中国喊话,高市早苗马上改口

现代小青青慕慕
2026-02-01 14:15:09
朱元璋怀疑饭菜有毒,赐给侍卫一碗饭,侍卫立马把饭倒在地上

朱元璋怀疑饭菜有毒,赐给侍卫一碗饭,侍卫立马把饭倒在地上

铭记历史呀
2026-02-01 07:15:33
中国男篮VS日本队!郭士强拒绝输球,胡金秋领衔,央视直播

中国男篮VS日本队!郭士强拒绝输球,胡金秋领衔,央视直播

体坛瞎白话
2026-02-02 08:29:49
一块H200芯片,为何炸翻了整个汽车圈?

一块H200芯片,为何炸翻了整个汽车圈?

智驾在线
2026-01-30 20:48:37
发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

刘哥谈体育
2026-01-19 11:46:50
国内销量回落,比亚迪的牌打完了吗?

国内销量回落,比亚迪的牌打完了吗?

小李子体育
2026-01-31 15:39:55
伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

伊朗最高领袖哈梅内伊:如果美国挑起战争,这次冲突将不再局限于一地;美方发布“林肯”号航母在阿拉伯海接受补给视频

每日经济新闻
2026-02-01 21:46:27
5648万!莱巴金娜赢下总决赛澳网冠军,孙颖莎一年奖金只有300万

5648万!莱巴金娜赢下总决赛澳网冠军,孙颖莎一年奖金只有300万

曹说体育
2026-02-01 12:03:07
15名菲议员施压驱逐我大使,中方表态将配合离境

15名菲议员施压驱逐我大使,中方表态将配合离境

像梦一场a
2026-01-31 22:25:57
全村移民加拿大,70多年没回来,广东一无人村,村民斥巨资盖别墅

全村移民加拿大,70多年没回来,广东一无人村,村民斥巨资盖别墅

小熊侃史
2026-01-10 07:20:10
2026-02-02 10:20:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1193文章数 18关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
房产
本地
健康
公开课

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版