No-prior Bayesian inference reIMagined: probabilistic approximations of inferential models
重新构思无先验贝叶斯推断:推理模型的概率近似
https://arxiv.org/pdf/2503.19748
摘要
在缺乏先验信息的情况下,进行概率推断的常用策略是通过贝叶斯定理将一个“默认先验”与似然函数结合起来。客观贝叶斯方法、(广义)置信推断等都属于这一类方法。这种构建方式是自然的,但相应的后验分布通常只能提供有限的、近似有效的不确定性量化。本文提出了一种全新的方法,能够生成具有更强可靠性性质的后验分布。该方法首先使用一个“推理模型”(Inferential Model, IM),其数学形式是一种数据驱动的可能性测度,并具备完全有效的不确定性量化;然后返回该模型的一个所谓“内蕴概率近似”(inner probabilistic approximation)。该内蕴概率近似继承了原始IM的许多优良性质,包括具有精确覆盖率的可信集以及渐近有效性。此外,在模型具有群变换结构的应用中,该近似结果与熟悉的贝叶斯/置信解一致。本文还提出了一种用于评估该概率近似的蒙特卡罗方法,并提供了数值实例进行说明。
关键词和短语:置信分布;可信集;置信推断;p值;可能性理论;相对似然;有效性
1 引言
科学通过将当前所知(无论其多么模糊或不完整)表述为先验信念,并在新数据的基础上应用一种规范程序来更新这些先验信念,从而推进研究的这一理念是自然的,并深深植根于每一位学习过概率与统计学的人心中。尽管这种方法颇具吸引力,但出于多种原因,在实践中实施起来具有挑战性,其中最主要的一个原因是:真正的先验信息很少存在,因此没有哪一种特定的先验信念表达是有依据的。
布拉德·埃夫隆(Brad Efron)在2016年芝加哥联合统计会议上的演讲中曾指出:“科学家喜欢研究新问题”,意思是说,在构建有意义的先验分布时,往往缺乏历史或经验可供借鉴。基于类似的原因,Efron(2013)更正式地指出:“……统计推断中最重要的未解问题是在缺乏先验信息的情况下使用贝叶斯定理。”本文提出了新的见解、理论和方法,旨在雄心勃勃地解决这个至关重要的未解问题。
费舍尔(Fisher)及其提出的置信推断(fiducial argument)是上述问题的第一个解决方案,它试图“在不打破贝叶斯蛋的前提下做出贝叶斯煎蛋”(Savage 1961);有关详尽综述,请参见 Zabell(1992)。共识是费舍尔的解决方案失败了,但即使是他所谓的“最大的失误”(Efron 1998),也产生了重大影响,激发了许多基础性的进展,如置信限(Neyman 1941)、不精确概率(Dempster 1966)以及新的解决方案提议,包括广义置信推断(Hannig 等 2016;Murph 等 2021)、置信分布(Cox 2006;Schweder 与 Hjort 2016;Thornton 与 Xie 2020;Xie 与 Singh 2013),以及客观/非信息性贝叶斯方法(Berger 2006;Berger 等 2009;Jeffreys 1946;Kass 与 Wasserman 1996)。为了便于术语统一,下文中我将(虽然不准确地)把这些方法统称为“无先验贝叶斯”方案。
在这种无先验设定下,类贝叶斯的概率推断面临的一个难题在于后验概率本身的解释。当存在真实的先验信息时,贝叶斯后验概率就是根据观测数据对先验信念进行的唯一一致更新。然而,当没有可更新的先验信念可用,而是使用一个默认先验来替代时,上述“更新”的解释自然就消失了,因此相应的后验分布是否还有意义也就变得不确定了。事实上,“[贝叶斯公式] 并不会从假设性的概率中创造出真实的概率”(Fraser 2014),说得更尖锐一些:
“任何严肃的数学家无疑都会问你,如何在缺少一个前提的情况下使用[贝叶斯定理],即自己编造出一个成分,并认为该定理的结论仍然成立。”(Fraser 2011b)
幸运的是,先验信念的一致更新并非后验具有形成信念的推断效力的必要条件。但要证明这一点,首先需要定义一个框架具备形成信念的推断效力意味着什么,其次需要证明某个提出的框架确实满足这一要求。对我而言,前进的唯一途径是证明后验概率是可靠的,即:如果后验对关于未知量的虚假(相应地,真实)断言赋予高(相应地,低)概率,那么这种情形是一个明显罕见的事件。这种要求的优势在于,这种信念形成的推断效力继承自费舍尔的归纳逻辑:例如,如果将高概率赋给一个假断言是一个罕见事件,而在当前应用中某断言被赋予了高概率,那么我们可以安全地推断该断言为真,因为罕见事件实际上不会发生。
无先验贝叶斯方案通常具有一些形式的可靠性,但“虚假置信定理”(false confidence theorem, Balch 等 2019)指出,它们都不具备我刚刚描述的那种强可靠性;另见 Martin(2019, 2024b)及下文第2节。由于无先验贝叶斯方案无法提供可靠的信念分配,这就激励我们去探索现有方法之外的新路径。
作为这些概率方法的替代,推理模型(IM, inferential model)框架(例如 Martin 2022b, 2024a;Martin 和 Liu 2013, 2015a)提供了一种返回数据依赖的可能性测度的方法,该测度能够对未知参数进行可靠的不确定性量化。关于可能性测度和具体的IM构建的更多细节与参考文献将在下文第2节中给出。重要的是,我所提出的从概率不确定性量化向可能性不确定性量化的转变有助于实现强可靠性,并且在诸多方面中,这种强可靠性意味着可以在不放弃完全条件化的类贝叶斯推理的前提下,实现通常的频率学派误差率控制。
尽管具有明显的优势,但我并不幻想统计学家会在近期就放弃概率推断而转向基于可能性的IM方法。但这并不意味着IM必须等到遥远的未来才能发挥作用。我在此提出的“重构IM”(reIMagined)方法,是从可证明可靠的可能性IM出发,从中读取并返回一个“内蕴概率近似”(inner probabilistic approximation),作为一种新的无先验贝叶斯解决方案。正如我将在下文中展示的那样,所提出的这种内蕴概率近似继承了原始可能性IM的部分——但并非全部——强可靠性性质:特别是,它对应的关于完整参数的可信集是精确的置信集。
通过构造默认先验并检验相应后验分布是否可靠所能实现的目标是有限的。这促使我们探索一种新方法,我的建议是优先考虑可靠性性质,并直接构造一个具有这些期望性质的数据依赖性概率。
本文其余部分的结构如下:
第2节简要介绍了可能性理论和可能性IM的相关背景知识。
第3节对可能性IM的信任集合(credal set)进行了刻画,并以此定义相应的内蕴概率近似。
第4节探讨了所提出内蕴概率近似的各种性质,包括其在具有群论不变性(group-theoretic invariance)模型中的表现,即与熟知的无先验贝叶斯解的一致性,以及一个类似于著名的Bernstein–von Mises定理的结果,从而建立了其渐近有效性。
第5节提出了用于(近似)计算IM内蕴概率近似的一种策略。
第6节介绍了一个技术上具有挑战性且实际意义重大的问题——Behrens–Fisher问题的一种新的、有效的、可靠的解决方案。
第7节给出了若干结论性评论,附录则包含了一些额外的技术细节和示例说明。
2 背景知识
2.1 可能性理论
可能性测度(例如,Dubois 和 Prade 1988)是不精确概率中最简单的形式之一,与模糊集理论(例如,Zadeh 1978)和 Dempster–Shafer 证据理论(例如,Shafer 1976, 1987)密切相关。Dubois(2006)中描述了一些在统计学中的应用,而下面我将提到一种具有悠久历史的、基于可能性理论的统计推断方法。
概率论与可能性理论在哲学和数学上都存在差异,但此处我仅简要讨论后者;关于前者,Shackle(1961)的阐述清晰且有说服力。
概率论与可能性理论之间的数学差异可以简洁地总结如下:
优化之于可能性理论,正如积分之于概率论 。
这种不同的运算法则带来了许多影响。对于本文的发展而言,特别相关的是上述“上确界等于1”的归一化条件确保了 Π是一个一致的上概率 (coherent upper probability)(例如,参见 De Cooman 1997;De Cooman 和 Aeyels 1999;Walley 1997),这一概念源于 Walley(1991)及其他学者的研究。
除此之外,这意味着 Π确定了一个非空的(闭合且凸的)普通概率集合,这些概率被它所支配:
2.2 可能性推理模型(Possibilistic IMs)
我将始终假设对于几乎所有的 x,上述相对似然函数的分母是有限的。
相对似然函数定义了一个可能性轮廓函数 (possibility contour),即一个非负函数,并且满足对几乎所有的 x有:
这个轮廓函数确定了一个可能性测度,可用于对未知参数 Θ进行数据驱动的不确定性量化。这一方法在(例如)Denœux(2006, 2014)、Shafer(1982)和 Wasserman(1990a)等文献中已有广泛研究。
这种由似然驱动的可能性具有许多理想的性质。然而,它所缺乏的是:为何分配给关于 Θ的假设的“可能性”能够具有形成信念的推断效力?幸运的是,通过对相对似然函数进行“有效性化”(validifying)(Martin 2022a),可以轻松实现这一目标;另见 Martin(2015, 2018)。
这相当于应用了一种概率到可能性的转换 (probability-to-possibility transform)(例如,Dubois 等 2004;Hose 2022),其结果就是所谓的可能性推理模型 (possibilistic IM)的轮廓函数:
3 “内部概率近似”
“一个众所周知的刻画(例如,Couso 等人,2001 年;Destercke 和 Dubois,2014 年)指出,对于一般可能性测度应用于当前情况时,其信度集(credal set)具有三个内部概率近似。”
其中,Cα(x) 如式 (5) 所定义,πx 是对应于 Πx 的轮廓函数(contour)。IM 的有效性意味着 Cα(x) 是一个置信水平为 100(1 − α)% 的置信集。因此,由于信度集(credal set)中的元素 Qx 会为该 100(1 − α)% 置信集 Cα(x) 至少分配概率 1 − α,所以将这些元素称为置信分布 (confidence distributions)是有充分理由的。这一对置信分布的定义与 Taraldsen(2021)中给出的定义一致,并且推广了统计文献中常见的定义(如 Cunen 等人,2020;Schweder 与 Hjort,2013;Xie 与 Singh,2013),后者出于第 4.3 节所讨论的原因,主要关注标量参数及其对应的单变量置信分布。这种置信分布与可能性 IM 相关联的信度集之间的联系最早由 Martin(2023a)提出,我们将在第 4.1 节重新审视其具体结果。
对于式 (7) 中的刻画还可以进一步细化。例如,Wasserman(1990b,定理 2.1)将与信念函数(belief function)相关联的信度集刻画为一组合适的混合分布(mixture distributions)的集合。下面的结果给出了一个类似的混合分布刻画,但适用于一般的可能性测度,包括 IM 输出的 Πx。
这样一个 Qₓ⋆ 被称为可能性测度 Πx 的内部概率近似 (inner probabilistic approximation)(Dubois 等人,2004)。请注意,式 (5) 中的 Cα(x) 是与内部概率近似 Qₓ⋆ 相关联的一个置信水平为 100(1−α)% 的可信集(credible set),并且由于 IM 的有效性意味着它也是一个置信水平为 100(1−α)% 的置信集(confidence set),因此可以得出结论:Qₓ⋆ 精确地 (而不仅仅是渐近地)实现了无先验贝叶斯解所期望的“概率匹配”(probability matching)性质(例如 Datta 和 Ghosh,1995;Staicu 和 Reid,2008)。也就是说,按照定义/构造,Qₓ⋆ 的可信集同时也是置信集。
要满足式 (9),需要什么条件?根据定理 1 中的刻画式 (8),可以相对容易地看出,式 (9) 中的等号成立相当于选择一个核 Kₓ^β,其完全支撑在 ∂Cβ(x) 上,即 Cβ(x) 的边界上,并且边缘分布 Mx = Unif(0, 1)。但式 (9) 中的等式并没有确定核是如何将质量分配到 ∂Cβ(x) 上的,因此 Πx 的内部概率近似 Qₓ⋆ 并不唯一。
不过,集合 Cβ(x) 通常是有界的 ,即它们包含在参数空间 T 的某个紧子集中;事实上,当样本量中等到较大时,这些集合近似为椭球体(见第 4.2 节)。因此,在这种情况下,将核 Kₓ^β 设定为 ∂Cβ(x) 上的均匀分布是相当自然的选择——这既符合最大熵原理(maximum entropy principle)(例如 Bernardo 和 Smith,1994;Cover 和 Thomas,2006),也符合无差别原理(indifference principle)(例如 Jaynes,2003;Keynes,1921)。
总结一下,我所提出的关于可能性 IM 的内部概率近似 Qₓ⋆ 是一个均匀混合的均匀分布 。更具体地说,可以通过以下两个步骤来抽取样本 (Θ | x) ∼ Qₓ⋆:
第 2 步说起来比做起来简单得多,我将在第 5 节讨论如何应对这一挑战——至少在近似意义上。
4 性质
4.1 在群不变模型中与贝叶斯方法一致
设 G 表示一个从 X 到 X 的变换组成的群,其二元运算为函数复合(◦)。按照惯例,将 x ∈ X 在变换 g ∈ G 下的像记为 gx;如果 g₁ 和 g₂ 是两个群元素,则 g₁ ◦ g₂ 表示它们的复合。由于 G 是一个群,它是结合的,即对所有 g₁, g₂, g₃ ∈ G,有 g₁ ◦ (g₂ ◦ g₃) = (g₁ ◦ g₂) ◦ g₃;它包含单位元(恒等变换)e;并且对于每个 g ∈ G,都存在一个逆元 g⁻¹ ∈ G,使得 g ◦ g⁻¹ = g⁻¹ ◦ g = 恒等变换。变换群的例子包括平移、缩放、旋转、置换等。
该群 G 与统计模型之间的联系如下。假设对于每个 g ∈ G 和每个 θ ∈ T,存在一个对应的 ¯gθ ∈ T,使得:
例如,如果 X 的分布依赖于一个位置参数 θ,则 X + τ 的分布就依赖于参数 θ + τ。当统计模型 {Pθ : θ ∈ T} 满足 (10) 时,该模型被称为不变统计模型 (invariant statistical model)。设 G 表示作用在参数空间 T 上的变换 ¯g 的全体,这些变换对应于映射 g ∈ G 和参数 θ ∈ T;可以很容易验证,G 本身也是一个群。关于群不变模型的更多详细内容,可参见 Fraser(1968)、Eaton(1989)以及 Schervish(1995,第6章)等文献。必要的技术背景见附录 B。
当模型按照上述意义具有不变性时,存在标准且广泛接受的“无先验”贝叶斯解,即那些通过将似然函数与所谓的右 Haar 先验结合,并使用贝叶斯公式得到的解(例如 Kass 和 Wasserman,1996)。这一解也与通过 Fisher 的置信推断(fiducial argument)得到的解一致。在 Martin(2023a)中,我展示了在上述条件下,可能性 IM(possibilistic IM)与这种标准的无先验贝叶斯解之间存在联系。不过,当时内部概率近似尚未被更广泛地提出,因此我当时的目标与现在有所不同。但其中建立的结果表明:标准的无先验贝叶斯解——即相对于不变右 Haar 先验的贝叶斯后验分布——恰好是可能性 IM 的内部概率近似 。包括新证明在内的更多细节见附录 B。
定理 2 (Martin 2023a)。对于一个不变统计模型,在附录 B 所述条件下,相对于右 Haar 先验的贝叶斯后验分布就是该可能性 IM 的内部概率近似。
也就是说,在不变统计模型下,我们熟知的贝叶斯/置信分布(Bayes/fiducial distribution)正是可能性 IM 的内部概率近似。这一联系为我在此提出的新的、通用的无先验贝叶斯解提供了强有力的原理性验证。它还有助于从贝叶斯视角解释某些现象。例如,这种内部概率近似关系解释了为何在这些问题中,贝叶斯/置信解能够精确实现概率匹配(probability matching)。
4.2 渐近正态性与有效性
本节给出了一个针对可能性 IM (possibilistic IM)的著名 Bernstein–von Mises 定理 的版本,该定理建立了其渐近正态性 与有效性 。也就是说,当样本量 n 很大时,可能性 IM 的轮廓函数(contour)类似于下面定义的高斯可能性轮廓 (Gaussian possibility contour),并且其协方差矩阵与熟悉的 Cramér–Rao 下界 (Cramér–Rao lower bound)相匹配。
这意味着对于所提出的内部概率近似 (inner probabilistic approximation)也成立一个传统的 Bernstein–von Mises 定理,因此在渐近意义下,它与任何其他合理的无先验贝叶斯解是一致的。此外,IM 输出的这种近似高斯形式为计算内部概率近似提供了有价值的见解和简化;参见第 5 节。
首先要做的是定义高斯可能性 (Gaussian possibility)。
设 gm,v 表示 D 维高斯概率密度函数,参数为均值向量 m ∈ ℝᴰ 和协方差矩阵 v ∈ ℝᴰ⁺ˣᴰ。定义相应的高斯可能性测度(Gaussian possibility measure)为标准正态分布 ND(m, v) 的外可能性近似 (outer possibilistic approximation)(例如 Dubois 和 Prade,1990),即包含 ND(m, v) 的最小信度集(credal set)的可能性测度。
类似于第 2 节中给出的公式 (2),这实际上就是将上述高斯分布进行概率到可能性转换 (probability-to-possibility transform)的结果,对应的可能性轮廓函数为:
请注意,高斯极限中的协方差矩阵与克拉默-拉奥下界(Cramér–Rao lower bound)一致。正是在这个意义上,可能性IM(possibilistic IM)是渐近有效的,因此,IM的精确有效性(和不精确性)在效率方面没有任何代价。
根据定理3,IM的内部概率近似收敛于一个高斯概率分布,这与贝叶斯情形下的Bernstein–von Mises定理类似。
这里我将对一个标量参数Θ的情形给出证明的简要概述。对于一般的参数值θ,如果水平集 Cα(xₙ) 是区间 [lowα(xₙ), uppα(xₙ)],那么可以很容易地验证:
4.3 边际化带来的风险,或曰风险的缺失
除了那些极罕见的情况(即确实存在真正的先验分布的情形)之外,可靠的统计推断本质上都是不精确的——所有控制误差率的熟知检验和置信推定程序都具有不精确的概率描述(Martin 2021a)。关键在于,不存在一个单一的概率分布能够可靠地量化统计模型中未知参数的不确定性。因此,坚持将不确定性量化限制为概率形式是带有风险的:
[Xie 和 Singh(2013)] 因此建议我们应忽略对置信集或其等价形式的限制,让“置信”自由发展,从而生成参数的分布。当然,分布形式更容易思考,大体上也符合 Fisher 的原始提议,并更接近贝叶斯方法的自由性,但它们确实忽视了其中固有的风险……(Fraser 2013)
Fraser 所说的“风险”主要指的是边际化问题 (例如 Balch 等人 2019;Dawid 等人 1973;Fraser 2011a)。粗略地说,无论一个无先验的贝叶斯方法在对 Θ 进行推断时具有多么优良的性质,通过概率边际化得到的关于 Φ = m(Θ) 的相应无先验贝叶斯方法通常并不具备这些优良性质。当 Schweder 和 Hjort(2013)警告说“不应寻求联合[置信分布],我们认为这可能会轻易误导统计学家”时,他们所担心的是使用者会受到诱惑而进行这些常见的概率操作,从而带来不可靠的风险。
Fraser(2011a)与 Fraser 等人(2016)强调,函数 m 的非线性性是这种风险的主要来源;另见 Martin(2023a, 2024b)以及下文讨论。
这并不陌生:贝叶斯学派会选择专门为特定推断目标 Φ 定制的默认先验分布(例如 Berger 等人 2009;Bernardo 1979;Datta 和 Ghosh 1995;Tibshirani 1989),而置信分布和似真(fiducial)分布的使用者则会进行各种临时性的操作,类似于用于构造近似枢轴量的方法。我提出的新建议是:首先在可能性IM(possibilistic IM)上执行一种更为高效的边际化方法——基于轮廓分析(profiling)的边际化,然后获得该边际可能性IM的内部概率近似。相关内容的细节将在下文第6节的具体示例中予以展示。
5 计算
直到最近,用于计算IM轮廓函数的方法仍然只有较为简单且相对低效的策略。特别是,常用的方法是通过以下方式近似 πₓ:
感谢(16)中包含关系的方向性,所提出的内部概率近似方法是保守的。因此,IM的内部概率近似在理论上所具有的相关性质,至少在近似意义上也应被上述实际方案所保持;见第6节。
6 示例:Behrens–Fisher问题
为简洁起见,这里仅详细展示一个关于内部概率近似的例子,但另有两个示例在附录F中给出。
在统计学中,几乎没有哪个例子在实践和历史上比Behrens–Fisher问题 更具深远意义。该问题的名称源于Fisher在其提出的似真(fiducial)解法中引用了Walter Behrens的一项技术成果(Fisher 1935a, 1939)。该问题的原始陈述非常简单:从两个不同的正态总体 N(Θ₁₁, Θ₁₂²) 和 N(Θ₂₁, Θ₂₂²) 中分别独立抽取样本,样本量分别为 n₁ 和 n₂,其中参数 Θ = (Θ₁₁, Θ₁₂, Θ₂₁, Θ₂₂) 未知,目标是对两个均值之差 Φ = m(Θ) = Θ₂₁ − Θ₁₁ 进行边缘推断。
如果两个方差已知,或它们的比值已知,则该问题相对直接;但在两个方差完全未知的情况下,问题一直难以解决:即虽然存在大量候选解法,但由于其表面的简洁性和实际重要性,人们至今仍未就哪种解法是“正确”或“最优”的达成共识。有关该问题及各种解法的综述,参见 Kim 和 Cohen(1998)。
迄今为止,Behrens–Fisher问题最广泛使用的解法是由 Welch(1938, 1947)提出的学生t检验的修改版本,它通过自由度近似来处理不等方差情况,并已在R语言的 t.test 函数中实现。其他标准方法包括 Hsu(1938)与 Scheffé(1970)提出的简单但保守的解法,以及 Jeffreys(1940)基于右Haar先验提出的贝叶斯解法,后者在数学上等价于 Fisher 的似真解法。讽刺的是,Jeffreys 提出的解法与其以 Jeffreys 先验为基础的贝叶斯解法在构造和性能上都有所不同。Martin 和 Liu(2015b)曾提出一种保守的IM解法,但本文将采用一种不同的方法。
为了设定背景,我们首先考虑对完整参数 Θ 的推断。该模型具有丰富的结构,因此基于相对似然的可能性IM构建在概念和计算上都很直接。由于该模型具有底层仿射群不变性,根据定理2可知,Θ 的内部概率近似恰好是以右Haar先验为基础的贝叶斯后验分布,同时也是 Θ 的Fisher似真分布。
由于从 Θ 到 Φ 的映射是线性的,根据定理4可知,Jeffreys 和 Fisher 分别提出的(数学上等价的)贝叶斯与似真解法,对应于从IM的内部概率近似中导出的 Φ 的边际分布;此外,这些也是遵循扩展原理所构建的边际IM的内部概率近似。
我在此提出的新方法首先采用了一种不同且通常更高效的可能性IM边际化策略,该策略基于对轮廓相对似然的有效化(validification)。这一思想最初由 Martin(2023b)提出,并在其中的例5中展示了其在Behrens–Fisher问题中的应用。粗略地说,基于轮廓函数的边际IM构造与前述基于扩展原理的构造之间的区别在于边际化的执行位置:前者首先在相对似然中消除干扰参数,然后直接为 Φ 构建IM轮廓;而后者则是先为 Θ 构建IM轮廓,再将其边际化到 Φ。
此前人们曾猜测基于轮廓函数的边际IM构造比基于扩展的构造更高效,而 Martin 和 Williams(2025)最近至少在渐近意义上证实了这一点。我在此提出的建议是从 Φ 的基于轮廓的边际可能性IM中提取其内部概率近似。这不需要改变第5节中概述的计算方法,且边际IM的精确有效性意味着,例如,基于这种“后验”的可信区间实际上是精确的置信区间。
唯一的难点在于,在Behrens–Fisher问题中,相对轮廓似然没有闭式表达式,且其分布依赖于一个干扰参数;这正是该问题具有挑战性的原因所在。与其它例子相比,这会增加内部概率近似的计算成本(见附录F),但从效率提升的角度来看,这是值得的,正如我在下文中所展示的那样。
Behrens–Fisher问题中最常用的实际数据示例是 Lehmann(1975,第83页)中关于通过两条不同路线上班所需时间的例子。相关的汇总统计量——样本量、样本均值和样本标准差——如下:n₁ = 5,θ̂₁₁ = 7.580,θ̂₁₂ = 2.237;n₂ = 11,θ̂₂₁ = 6.136,θ̂₂₂ = 0.073。
两个标准差 θ̂₁₂ 和 θ̂₂₂ 之间存在巨大差异,这使得很难合理假设两组方差相等。图2展示了从边际IM的内部概率近似中抽样得到的Φ的样本直方图,并叠加了基于右Haar先验和Jeffreys先验的贝叶斯解法所对应的密度函数(核估计);其中前者也与Fisher的似真分布一致。可以看出,这三个分布非常相似,其中新的内部概率近似和基于右Haar先验的后验分布比基于Jeffreys先验的后验分布略为更分散一些。
为了进一步比较这些方法,我进行了一个小规模的模拟研究。我特别设计了一个样本量严重不平衡的情形:n₁ = 3,n₂ = 20,以确保各种方法在性能上的差异能够显现出来。其他设置则较为直接:Θ₁₁ = 2,Θ₂₁ = 0,Θ₁₂² = 1,Θ₂₂² = 2。根据这一设定,我生成了10000个样本,表1总结了各种方法针对Φ的90%置信区间的覆盖概率和期望长度。值得注意的是,只有基于边际可能性IM的内部概率近似能够几乎精确地达到目标覆盖概率,并且如我们所期望的那样,它比基于右Haar先验的有效但保守的贝叶斯/似真解法更加高效。
7 结论
本文为“无先验的贝叶斯推断”提供了一种全新的视角,这种推断方法虽然与传统的贝叶斯推断有一定联系,但实际上并不属于贝叶斯方法。我的方法始于一种以数据驱动的不确定性量化框架——推断模型(IM)框架,该框架强调可靠性,要求其依赖于数据的信念度具有校准性(calibration)。IM所需的这种校准特性使其无法与概率形式的贝叶斯推断兼容,正因如此,IM的输出是可能性形式的,即它在数学上表现为一个可能性测度 (possibility measure)。
然而,如果使用者希望获得概率形式的不确定性量化,IM也可以通过对其可能性输出进行内部概率近似 来实现这一目标。除了恰好满足概率匹配(probability matching)之外,所提出的方法在群不变问题中与现有的无先验贝叶斯/似真解法一致(此时已有广泛共识),并且通过一种著名的Bernstein–von Mises定理的变体,它在渐近意义上也是有效的。
此外,这种方法完全不需要选择先验分布:对于给定的统计模型和观测数据,可能性IM的形式是唯一确定的,因此只需从中提取其内部概率近似即可。
定理1对IM的可信集(credal set)内容的刻画表明,可以通过蒙特卡洛方法对内部概率近似进行评估(至少可以近似地或保守地评估)。我在Martin(2025)中对此进行了深入探讨,但主要是在可能性IM的背景下。在本文中,我将同样的策略应用于我所提出的“重新构想的无先验贝叶斯推断”,并展示了它如何为技术上具有挑战性且实际意义重大的Behrens–Fisher问题提供一种新的、广泛可靠的解决方案。
需要指出的是,这种方法并非专为Behrens–Fisher问题设计,因此我完全有理由相信它在许多其他重要应用中也能表现出色。当然,我所提出方法的计算效率仍有提升空间,我也非常欢迎熟悉计算的读者在这方面做出改进。
本文的重点是无先验情形的解法,但在某些情况下也可能存在不完整或部分先验信息,例如在高维问题中常见的稀疏性等结构假设。贝叶斯方法无法处理不完整的先验信息——因为必须为未知参数Θ的所有方面都指定一个先验分布(即使是一个扩散先验)。近年来,人们已经发展出了真正意义上的部分先验可能性IM(partial-prior possibilistic IM)(例如 Martin 2022b, 2023b),一个有趣的想法是,将本文在无先验情形下提出的内部概率近似方法,同样应用于上述文献中的部分先验情形。正如本文所述,这些内部概率近似将在一定程度上保留部分先验IM所具有的内在可靠性性质,但具体细节仍有待进一步研究。
A 更多关于IM的见解与直觉等内容
在正文部分,我仅给出了可能性推断模型(possibilistic inferential model, 简称IM)的数学定义及其基本性质的简要解释。然而,这些发展背后所蕴含的思想比上述简短说明要深刻得多,也更具启发性。因此,在此我想进一步分享一些关于IM的直觉理解和逻辑思考。为了便于阐述,我将以问答形式列出一些常见问题或“常问问题”,并逐一解答。
问题1:为什么需要不精确性?
答: 《虚假置信定理》(False Confidence Theorem,Balch 等人,2019)指出,对于任何精确的、依赖于数据的概率分布 Qₓ,例如贝叶斯后验或似真后验,对于任意给定的阈值 ρ 和 τ,都存在一个假设 H,使得:
这被称为虚假置信 (false confidence),因为当 τ 很大且 ρ 不是特别小的时候,后验分布倾向于以不可忽略的概率(ρ)对一个实际上为假的假设 H 表达高度置信(概率 τ)。从某种意义上说,这个结果看起来是“显然的”:比如取 H 为 Θ 的补集,这样 H 是假的,并且至少在绝对连续的情况下,Qₓ(H) = 1 几乎必然成立。
但这里的复杂性远不止于此——虚假置信不仅出现在这些极端/平凡的 H 上;它也不仅仅出现在那些碰巧为假的“大集合”上。正如本文第4.3节所讨论的那样,H 的形状以及非线性的影响在其中扮演了重要角色,尽管这一机制目前尚未被充分理解。
此外,也没有理由认为假设的“大小”本身应当有任何影响——只要数据与假设中的任意一个点相容,那它就与该假设整体相容。只有当引入积分时,“大小”或“测度”才变得相关,而除了统计学家习惯于使用积分之外,并没有足够的理由迈出这一步——积分理论已经深植于我们的思维之中。
理想情况下,可以用某种不依赖于“大小”概念、也无需微分元素的新计算方式来替代积分。
幸运的是,上述两个问题都可以通过用适当的不精确概率 (imprecise probability)取代传统概率来同时解决。虚假置信定理的证明依赖于后验的可加性,因此如果放弃可加性的假设,那么该定理的证明就不成立了。而且,某些依赖于数据的不精确概率,特别是(可能性形式的)IM,已经被证明可以免疫于虚假置信。
更进一步,可能性理论(possibility theory)本身就采用了一种不同于积分的计算方式:它的核心运算是优化(optimization),而不是积分,因此在判断某个假设是否与数据相容、以及在多大程度上相容时,假设的“大小”是无关紧要的;参见 Martin(2024a)。
问题2:为什么偏偏选择可能性的形式?
要回答这个问题,首先需要明确我们在构建一种新的、改进的统计不确定性量化框架时的目标。我在此列出三个期望具备的性质:
数学严谨性 :统计推理不应建立在一堆零散拼凑的方法之上,而应是一个连贯的整体,在这个体系中可以针对所有与未知参数相关的问题给出一致的答案。
尽可能简单且“熟悉” :当前用于统计推断的许多理论(例如用于检验的 p 值)总体上是有效的。因此,新框架不必完全不同,事实上,它在经典推断问题上的解法也不应该与现有方法截然不同。
可靠性 :不仅要确保从不确定性量化中导出的过程(如检验、置信集等)在频率学派意义下控制误差率,而且它为相关假设或评估所分配的(下界和上界)概率与期望值也必须经过校准。事实上,正是这种可靠性赋予了不确定性量化其实际意义。
据我所知,唯一能满足数学严谨性要求的不确定性量化框架,是那些可以由某种形式的不精确概率 描述的框架。而在众多不精确概率理论中,可能性理论可以说是其中最简单的之一。
此外,由于我一直在推进的可能性IM框架与似然比检验的p值、置信分布,以及如今的无先验贝叶斯解法之间存在紧密联系,因此它显然满足上述前两个期望条件。
正文部分强调了可能性信息度量(possibilistic IM)框架的一些可靠性属性,但关于本节的主题——为什么采用可能性形式——还有更多可以说的。我在正文论文中提到的有效性属性(Equation (4))实际上是非常强的。它为从信息度量(IM)输出中推导出的检验和置信集程序所保证的频率主义错误率控制固然重要,但并不能完全体现这一属性的强度。正如 Martin(2022a)和 Cella 与 Martin(2023)所展示的那样,正文论文中 Equation (4) 的有效性属性等价于:
这与正文 Equation (6) 中所述的属性相似,但有一个关键区别:(6) 中的属性表明信息度量(IM)在 H 中是“逐点”校准的,而 (17) 显示,实际上,信息度量(IM)在 H 中是“均匀”校准的。这很重要,因为现代统计学家和数据科学家并不是为自己量化不确定性,而是开发通用工具和软件,以帮助其他用户量化他们的统计不确定性。由于我无法知道用户可能想如何使用我提供给他们的不确定性量化框架,如果我想保证它是安全的(这既对科学/社会很重要,也对我作为这种工具的开发者很重要),那么我必须确保即使用户例如先查看数据以决定考虑哪些假设,校准仍然得以保持。正文 (6) 中的逐点有效性结果无法保证这一点,但 (17) 中的均匀有效性结果可以。
问题 3:除了为模型参数的假设分配信念之外?经典参数推断是完全指定的统计模型的正确背景,用于描述本文的贡献,即对无先验贝叶斯推断的新视角,但科学家们感兴趣的还有许多其他类型的问题和统计任务。幸运的是,信息度量(IMs)也可以在这方面做出贡献,并且已经有所贡献。首先,通常情况下,感兴趣的量并不是最好被描述为统计模型的参数,而是底层分布 P 的某种特征(或泛函),而这种分布没有熟悉的参数形式。针对这种情况构建近似有效信息度量的研究见于 Cella 和 Martin(2022a);去除“近似”这一形容词的工作正在进行中。预测也是一个重要的问题,通常需要非参数化的方法。关于这方面的信息度量进展可以参考 Cella 和 Martin(2022b),而 Martin(2023b,第 6.3 节)则提供了更具可能性导向的视角。有时推断并不是目标,关注点在于决策,即选择一个适当的(数据驱动的)行动。在 Martin(2021b)中,我提出了使用 Choquet 积分来利用信息度量的输出来评估上(和下)期望损失,并建议选择使上期望损失最小化的行动。我还证明了信息度量在推断中的固有可靠性可以延续到决策问题中:从行动的角度来看,信息度量的上期望损失评估明显比“先知”(oracle)更乐观的事件是一个可以被证明是罕见的事件。最后,针对模型评估和选择、信息融合(例如,元分析)等的创新且可证明可靠的信息度量解决方案目前正在开发中。
https://arxiv.org/pdf/2503.19748
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.