推理模型的渐近效率与可能性的Bernstein–von Mises定理
Asymptotic efficiency of inferential models and a possibilisticBernstein–von Mises theorem ✩
https://doi.org/10.1016/j.ijar.2025.109389
![]()
摘要
推断模型(IM)框架为统计推断中的经典概率性(例如,贝叶斯和可信区间)不确定性量化提供了一种替代方案。一个关键的区别在于,经典的不确定性量化采取精确概率的形式,并仅提供有限的大样本有效性保证,而IM的不确定性量化是不精确的,这种方式使得精确的、有限样本有效的推断成为可能。但IM的不精确性和有限样本有效性是否与统计效率兼容?也就是说,IM能否同时具有有限样本有效性和渐近效率?本文通过一个新的可能性伯恩斯坦-冯·米泽斯定理给出了肯定的答案,该定理与一个基本的贝叶斯结果相平行。除此之外,我们的结果表明,IM解在渐近意义上是有效的,即其可信集是包含方差等于克拉默-劳下界的高斯分布的最小集合。此外,针对涉及消除干扰参数的问题,提出了该新伯恩斯坦-冯·米泽斯定理的一个相应版本,这解决了关于基于轮廓化的方法与基于扩展的方法的边际化策略相对效率的一个开放性问题。
关键词: 贝叶斯 可信区间 高斯分布 大样本 干扰参数 可能性理论 相对似然
引言
根据 Efron [29] 的说法:“统计推断中尚未解决的最重要问题,是在缺乏先验信息的情况下如何使用贝叶斯定理。” 人们已做出诸多尝试来解决这一问题,包括使用默认先验的贝叶斯推断 [5, 43]、Fisher 原始意义上的置信推断(fiducial inference)[30, 85] 及其各种推广形式 [17, 18, 31, 40],以及各类不精确概率(imprecise-probabilistic)方法(例如 [1, 4, 24, 82])。这些方法中的许多都提供了一种大样本结果,其大致表述如下:当样本量 n 足够大时,相应的可信集(credible sets)能够达到名义上的频率学派覆盖概率(frequentist coverage probability)。统计学家坚持使用那些在重复应用中至少在渐近意义上倾向于给出“正确推断”的可靠方法,因此这类结果具有很高的价值。其中的关键结果就是所谓的伯恩斯坦–冯·米泽斯定理(Bernstein–von Mises theorem),该定理指出:在某些正则性条件下,贝叶斯或置信后验分布近似于高斯分布,其中心位于最大似然估计量处,并且在方差等于克拉默–劳下界(Cramér–Rao lower bound)的意义上是有效的;这里的“近似”是指,当样本量 n→∞ 时,这两个分布之间的全变差距离(total variation distance)依概率趋于零。有关细节,参见 van der Vaart [81, 第10章]、Ghosh 等人 [36, 第4章] 或 Hannig 等人 [40]。除其他作用外,该结果确保了当样本量 n 较大时,贝叶斯和置信方法所提供的不确定性量化至少在近似意义上满足上述可靠性要求。
尽管如此,上述贝叶斯和置信推断的发展尚未被证明完全令人满意,原因或许在于大样本置信集并不能讲述完整的故事。事实上,“虚假置信定理”(false confidence theorem)[2, 8, 55] 表明,无论样本量 n是小还是大,总存在某些错误的假设,而(贝叶斯或置信)后验分布会倾向于赋予这些假设相对较高的概率或置信度。虚假置信与其他一些熟悉却神秘的现象相关,例如斯坦悖论(Stein’s paradox)[78]、有限长度置信区间的不存在性 [37],以及置信分布(confidence distributions)所享有的“置信”性质在概率演算下无法保持(例如 [32, 33, 73])。为避免虚假置信定理所揭示的这种内在不可靠性,必须用不精确概率(imprecise probabilities)取代精确的后验概率。
推断模型(Inferential Model, IM)框架——包括 Martin 和 Liu [62, 63] 的原始工作以及 Martin [56, 58, 59] 更近的推广——正是这样做的。该框架在某种意义上被证明是有效的,这种有效性意味着它能避免虚假置信,并且例如能够提供精确的有限样本置信集。然而,人们可能会猜测:为了实现可证明的有效性,IM 必须在效率上做出牺牲——也就是说,前述 IM 置信集必须比渐近有效的贝叶斯或置信可信集更大。然而,前述文献中的例子均表明,尽管 IM 具有不精确性和精确有效性,其解在效率上并不逊色于(有时甚至优于)贝叶斯和置信方法的对应解。但迄今为止,尚无关于 IM 效率的一般性理论结果。
为回应这一关于效率的问题,本文——作为我们会议论文 Martin 和 Williams [65] 的扩展版本——提出了一个适用于 Martin [53, 54, 59] 所研究的基于似然的 IM 类的可能性论版本的伯恩斯坦–冯·米泽斯定理(possibilistic Bernstein–von Mises theorem)。具体而言,我们证明:经过适当中心化和缩放后的 IM 可能性轮廓(possibility contour),可以被一个高斯可能性轮廓精确近似,其协方差矩阵等于克拉默–劳下界。更准确地说,当 n很大时,IM 的信念集(credal set)是包含方差等于克拉默–劳下界的高斯分布的最小集合。这一结果证实了我们的猜想:尽管 IM 因实现精确有效性而具有内在的不精确性,但在渐近意义上并没有效率损失。该结果也推广了 Martin [60] 在群变换模型中给出的刻画:当 n很大时,贝叶斯和置信解(大致相同)对应于 IM 的内层概率近似(inner probabilistic approximation),即贝叶斯/置信后验分布是 IM 渐近信念集中“最弥散”(most diffuse)的元素。
本文还将该结果推广到存在需消除的干扰参数(nuisance parameters)这一具有实际重要性的情形,即仅对完整模型参数的某个特征感兴趣。在此可能性论框架下,存在两种被广泛接受的边缘化(marginalization)方式:一种基于形式化的扩展原理(extension principle),其动机纯粹来自可能性理论;另一种基于适当的轮廓化(profiling),具有统计学渊源。已有经验证据(例如 [56, 61])强烈表明,基于轮廓化的策略比基于扩展的策略更高效,但迄今为止尚无一般性理论能证实或解释这一现象。本文第 4 节所呈现的渐近分析正式解决了这一问题,证明了如我们所猜想的那样:基于轮廓化的策略在渐近意义上能给出比基于扩展的策略更紧致的可能性轮廓。
背景
2.1. 可能性理论
2.1.1. 一般性概述
可能性理论属于最简单的不精确概率理论之一,对应于所谓的“辅音信念结构”(consonant belief structures)(例如,[74, 第10章]),即具有嵌套焦点元素的信念函数与似然函数。其他关键参考文献包括 Zadeh [87]、Dubois 和 Prade [26],以及 Dubois [24]。这种简洁性是以牺牲其表达能力为代价的,但 Shafer 认为,在本文所考虑的统计推断问题中,这种权衡是可以被合理化的:
……特定类型的证据常常可以被视为辅音的,且至少存在一种普遍类型的证据似乎非常适合这种处理方式。这就是推断性证据——由某种效应所提供的关于原因的证据。[74, 第226页]
可能性论不确定性量化的简洁性源于它与精确概率理论的平行关系。一个旨在量化关于某个不确定量 Z(Z∈Z)的不确定性的必要性–可能性测度对 (Π,Π),是通过一个可能性轮廓函数 π:Z→[0,1](满足 supz∈Zπ(z)=1)并依据以下规则确定的:
![]()
![]()
![]()
2.1.2. 特例:高斯可能性
一种构造可能性测度的方法(对我们此处特别相关)是通过概率–可能性变换(probability-to-possibility transform)(例如,[25, 42])。如果 p是一个概率密度函数,它决定了一个随机变量 Z∼P,那么概率–可能性变换将轮廓函数 π定义为:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2.2. 推理模型
原始的 IM 构造方法(例如,[62, 63])使用了(嵌套的)随机集,因此与可能性理论的联系是间接的。Martin [59] 提出的一种更简化的版本则直接利用概率–可能性变换来定义 IM 的可能性轮廓;另见 Martin [53, 54]。这种新且直接的构造方法的一个优势在于,它避免了同时指定数据生成方程和所谓“预测随机集”的模糊性——只需要模型/似然函数即可。
![]()
![]()
相对似然函数本身定义了一个依赖于数据的可能性轮廓,这一轮廓已被广泛研究(例如,[19, 20, 75, 83])。基于似然的可能性轮廓最吸引人之处在于其形状:它在最大似然估计量 处达到峰值,并且与 Fisher 所提出的基于似然的参数空间偏好序一致。然而,相对似然缺乏一个标准的尺度——也就是说,何为“小”的相对似然,取决于具体应用场景的某些特性。通过 Martin [58] 所谓的“有效性校准”(validification)——一种可能性论意义上的变换——可以轻松获得一种在不同应用间具有(字面意义上的)统一解释尺度的可能性轮廓。具体而言,对于观测数据 ,该可能性论推断模型(possibilistic IM)的轮廓函数为:
这与 Martin [53, 54] 中基于原始 IM 构造方法(略有调整)所得到的轮廓函数相同——该方法使用相对似然定义了一种所谓的“广义关联”(generalized association),并结合一个简单的嵌套区间预测随机集(nested-interval predictive random set)。它也等价于在使用常规似然比检验统计量检验假设 “ Θ=θ ” 时所对应的 p 值;但关于更深入、更原则性的解释,参见 Martin [59]。通过优化所得到的相应可能性测度为:
![]()
![]()
![]()
![]()
这种统一性意味着,可能性论 IM 所提供的远不止对预先设定假设的检验,这一点至关重要,因为科学研究者所希望或需要的恰恰不止于此。也就是说,除了基本的显著性检验之外,那些旨在实现“科学发现”的研究者必须能够探索其他假设——无论这些假设是否受到数据支持;而即便是对固定假设的可靠检验,在这种意义上也无法提供可靠的探索能力(例如,[66])。关于“探索”(probing)及其与式 (6) 的相关性,我们建议读者参阅 Cella 和 Martin [12] 以获取更深入的讨论。
我们在此想要强调的结论是:上述性质——尤其是式 (6)——是仅属于具有可能性测度数学形式的 IM 的独特属性。因此,尽管如前所述,可能性论 IM 在表达能力上存在某些数学限制,但在可靠性方面,它不仅充分弥补了这些限制,甚至超越了它们,而这正是我们的首要目标。
鉴于 IM 本质上是不精确的,并提供强大的有限样本可靠性保证,读者可能会倾向于认为:在实际应用中,IM 给出的结果要保守得多——例如,置信区间更宽——相比之下,贝叶斯解等方法则是精确的且具有渐近效率。然而,事实并非如此。下一节将为 IM 建立一个渐近高斯性/效率的结果,从而破除这种关于“保守性”的迷思。从高层次来看,这种不精确性与(渐近)之所以能够共存,正是得益于前述 IM 辅音信念结构(consonant belief structure)所固有的有限表达能力;详见下文备注 1。
可能性论伯恩斯坦–冯·米泽斯定理
3.1. 预览
![]()
在精确高斯模型之外,可能性论 IM 的解与高斯可能性测度之间不再存在精确对应关系。贝叶斯和(广义)置信推断的情形也是类似的。但经典的、概率论意义上的伯恩斯坦–冯·米泽斯定理意味着,在某些温和/标准的正则条件下,当 n→∞时,适当中心化并缩放的贝叶斯后验分布将近似服从高斯分布。我们下面的主要结果表明,上述第 2.2 节回顾的 IM 解也满足该主张的一个可能性论版本。
![]()
定义1(a)中的性质(7)通常被描述为:函数 θ↦sθ 在点 ϑ 处 均方意义下可微 。其核心要点在于,该条件并不要求平方根密度函数在 ϑ 点处实际可微,而仅要求它在平均意义上是局部“可线性化”的,类似于一个在 ϑ 点可微的函数。另一方面,经典的克拉默条件则假设(远不止)对数密度函数具有二阶连续可微性。因此,条件(7)——甚至不需要一阶导数的存在——比经典教科书中所能找到的条件要 显著弱得多 ;关于条件(7)的充分条件,参见 van der Vaart [81, 引理 7.6] 并在下文进一步讨论。正如读者可能猜到的,定义1(b)与费舍尔信息的概念相关,我们将在稍后讨论这一联系。
![]()
![]()
3.3. 主要结果:可能性论伯恩斯坦–冯·米泽斯定理
在上述正则性条件下,我们现在可以为第 2.2 节中提出的 IM 解建立一个可能性论版本的伯恩斯坦–冯·米泽斯定理。粗略地说,该结果表明,当样本量 n较大时,经过中心化和缩放后的 IM 可能性轮廓可以被高斯可能性轮廓精确近似。更具体地,若 γμ,Σ是第 2.1 节中的高斯可能性轮廓,定义以下简写记号:
![]()
![]()
3.4. 核心结论
如第1节所述,最重要的信息在于可能性论 IM 解的(渐近)效率。这一点从式(15)中可以最直观地看出:可能性论 IM 轮廓在渐近意义上类似于一个均值向量为、协方差矩阵为的高斯分布的概率–可能性变换,而后者与无偏估计量方差的经典克拉默–劳下界一致。由于具有与克拉默–劳下界一致的渐近方差正是(渐近)效率的经典定义,因此将定理1解释为“可能性论 IM 是渐近有效的”是合理的。尽管渐近效率是可取的,但它并非可能性论 IM 所独有:贝叶斯后验分布和(广义)置信分布也能实现可比版本的渐近效率。可能性论 IM 的显著特征在于,它通过战略性地引入不精确性(以可能性论形式),确保了对所有样本量 n的有效性。因此,核心结论是:IM 固有的不精确性——这正是其获得有限样本有效性的原因——出人意料地并未导致任何渐近效率的损失:与贝叶斯、置信推断等方法一样,可能性论 IM 也是渐近有效的;但与贝叶斯、置信推断等不同的是,可能性论 IM 在有限样本下即具有效性。这一点将在下文备注1中更详细地解释。
3.5. 数值示例
![]()
![]()
![]()
关于对参数 Θ本身的推断,计算“精确”的 IM 轮廓需要大量的蒙特卡洛评估,因此成本非常高。然而,高斯近似却非常容易计算,并且图3(b) 显示,正如定理1所预测的那样,该近似结果相当准确。
3.6. 对不确定性量化的意义
定理1中的统一性至关重要,因为轮廓函数本身仅仅是 IM 的基本构建模块。我们的主要目标是可靠的不确定性量化——避免虚假置信等——这涉及到由轮廓函数优化得到的相应必要性和可能性测度 。关键在于,对轮廓函数在式(12)中的统一控制,正是控制通过优化轮廓函数所确定的可能性测度所必需的。由于正式细节可能会使这些相对简单的要点变得过于复杂,我们在此进行非正式阐述。
首先,如果 f和 g是定义在同一域上的两个通用实值函数,且 A是该公共域的一个子集,则很容易证明:
![]()
![]()
从统计学角度看,这一结果与贝叶斯后验一致性定理(例如,[35, 36])相平行。也就是说,它表明,对于任何可以明确归类为“真”或“假”的假设,可能性论 IM 的不确定性量化将在 n→∞ 时收敛到该分类。除了熟悉的统计学推论外,这一结果还具有有趣的认识论含义。最近,Lin [52] 描述了一种“趋同主义”(convergentist)传统,其中推理方法是根据其“趋近真理”的特性来评估的;Lin 将这种观点追溯至 Peirce [68] 和 Reichenbach [69]。因此,虽然 IMs 在理想的方式上偏离了贝叶斯主义(例如,能够优雅地处理空先验情况并提供有限样本有效性),但它仍是一种偏离,所以人们可能会问是什么使 IM 框架在哲学上站得住脚。对此问题更完整的答案可以给出(并将另文阐述),但定理1,特别是推论1,证明了 IMs 至少植根于 Lin 的趋同主义传统。回到第2.2节对 IM 输出主观解释的讨论,如果一名主体采纳了这种解释,那么推论1意味着他/她将在 n→∞ 时“正确”。也就是说,他/她在真实假设 H (其中 Θ 位于其内部)上的主观信念将收敛到 1,类似地,他/她愿意以低于 1 美元(相应地,高于 0 美元)的价格买入(相应地,卖出)一个关于真实(相应地,虚假)假设 H 的赌注。
![]()
3.7. 技术性备注
备注 1(贝叶斯–置信推断–IM 的联系)。Martin [60] 在一类重要的群变换模型(group transformation models)(例如,[28, 71])——包括位置-尺度模型等——中建立了贝叶斯解、置信推断解与可能性论 IM 解之间的联系。具体而言,在这类模型中,默认先验的贝叶斯解与置信推断解是一致的,而这一共同的贝叶斯/置信解被证明是可能性论 IM 的内层概率近似(inner probabilistic approximation);换句话说,贝叶斯/置信分布是可能性论 IM 信念集(credal set)中“最弥散”(most diffuse)的成员。尽管这种贝叶斯/置信与 IM 之间的联系仅在上述特殊模型类中严格成立,但定理 1 表明,对于所有正则模型,这种联系在渐近意义上成立。
我们倾向于通过“极限实验”(limit experiments)的视角来理解这一点;参见例如 Le Cam [49, 第10章] 和 van der Vaart [80, 81]。这些结果大致表明:在正则模型中的推断,其渐近行为等价于在高斯位置模型中的推断。因此,既然 Martin [60] 已证明在高斯位置模型中贝叶斯/置信解与可能性论 IM 之间存在上述联系,那么人们自然会预期,对于所有足够正则的模型,这种联系在渐近意义上也成立。定理 1 正好证实了这一预期。
这种信念集层面的联系也揭示了 IM 的可能性结构的重要性和相关性。首先,请回想:统计推断涉及基于数据排除那些不可信的假设,而有效性(validity)则防止我们错误地对真实假设赋予过低的似然度(或对虚假假设赋予过高的信念度)。在此背景下,我们所关心的统计效率,指的是那些远离真实参数 Θ的尾部假设被判定为“不可信”的程度。得益于式 (1) 中引用的刻画结果,可能性论 IM 的信念集——从而 IM 本身——完全由轮廓函数 πxn的尾部行为所决定。因此,要实现渐近效率,只需确保 IM 轮廓的尾部与渐近高效的贝叶斯后验分布的近似高斯尾部相匹配即可。从这一视角来看,可能性论 IM 有限的表达能力反而是一种优势:我们只需在大样本 n下高效地覆盖尾部,而辅音性(consonance)结构则自动保证了每个固定 n下的有效性。若采用更具表达力的不确定性量化形式,实践者将面临更大的负担,需要在有效性与效率之间进行精细权衡。
备注 2(定理 1 的条件)。上述可能性论 IM 的伯恩斯坦–冯·米泽斯定理与更经典的贝叶斯和置信推断版本之间存在一些差异。其原因在于,贝叶斯和置信解并不直接依赖于最大似然估计量——而可能性论 IM 在构建相对似然时却依赖于此——因此相应的贝叶斯/置信伯恩斯坦–冯·米泽斯定理无需假设最大似然估计量的一致性等条件。人们可以通过将上述相对似然替换为其他形式(例如,另一种归一化的似然函数)来弥补这一差异,
![]()
其中 W是支撑在 T上的一个概率分布。这种归一化似然(19)的大样本性质将与本文所用的相对似然类似,因此我们推测:若用(19)替代我们当前使用的相对似然,将得到一个不同的可能性论 IM,它在大样本下仍具有定理 1 所述的性质,但所需条件更弱。然而,我们进一步推测:基于归一化似然(19)构建的可能性论 IM 在有限样本下往往会比基于相对似然的 IM 效率更低。综合来看,我们的推测表明:天下没有免费的午餐——人们可以通过用不直接依赖最大似然估计量的量(如(19))替代相对似然,从而放宽定理 1 的条件,但这种放宽的代价是在有限样本下普遍损失效率。我们将对这些(及其他)猜想的深入研究留作未来的工作。
备注 3(与高斯随机模糊数的联系)。通过定理 1,可能性论 IM 解与 Thierry Denœux 最近提出的基于高斯随机模糊数(Gaussian random fuzzy numbers)的不确定性推理框架之间可建立有趣的联系。从相对似然出发,同时应用标准的泰勒展开近似以及观测费舍尔信息与期望费舍尔信息的渐近等价性,可得:
![]()
![]()
涉及干扰参数的情形
4.1. 设定
![]()
4.2. 消除干扰参数
4.2.1. 扩展法
![]()
![]()
![]()
![]()
4.2.4. 其他策略
我们在此不会深入细节,但至少值得提及的是,上述两种通用方法并非进行边缘化的唯一途径。一种在某些场合有效的方法是条件化(conditioning),即用相对条件似然替换相对似然。关键在于,在某些情况下,通过对一个合适的统计量进行条件化,对干扰参数的依赖性会消失,只留下一个仅涉及数据和感兴趣参数的函数;Basu [3] 将这种被条件化的统计量称为“P-充分”(P-sufficient),其中“P”代表“部分”(partial)——在 P-充分统计量上进行条件化仅消除了完整参数的一部分。在其他情况下,人们或许可以完全忽略似然函数,而是从头开始构建一个可能性论边缘 IM,首先识别一个仅依赖于感兴趣参数的函数,然后应用概率–可能性变换。这两种方法都不是普适的;它们能否成功实施取决于手头的具体问题,这也是我们选择不在此处深入探讨的原因。
在另一个相关但不同的方向上,Martin 和 Liu [64] 提出的方法为消除干扰参数提供了一种新颖的视角。作者的提议非常强大,因为它赋予用户极大的灵活性,允许他们或多或少地采取任何必要的措施——例如,基于模型的策略,如边缘化和数据生成方程的代数操作——以消除干扰参数并降低问题的整体维度,从而使高效的推断成为可能。然而,该方案的一个缺点是,一旦干扰参数被消除,推断过程需要指定一个合适的“预测随机集”。目前,尚缺乏关于如何选择该随机集以同时实现统计效率和计算效率的指导原则。
4.3. 背景
在提出我们的边缘可能性论伯恩斯坦–冯·米泽斯定理之前,我们需要一些关于存在干扰参数时基于似然的推断的额外背景知识。具体而言,此处我们将定义得分函数和费舍尔信息矩阵的版本,这些版本经过了一些调整,以适应感兴趣参数与干扰参数的分解。
![]()
![]()
![]()
![]()
4.4. 边缘可能性论伯恩斯坦–冯·米泽斯定理
如上所述,我们的关注点在于 Θ为有限维的情形。这当然意味着感兴趣参数和干扰参数(即 Φ和 Λ)也都是有限维的。在这种情况下,我们可以继续在定理1所施加的正则性条件下进行工作。然而,在所谓的“半参数问题”(semiparametric problems)中——即 Φ为有限维而 Λ为无限维的情形——这些正则性条件可能会变得有问题。在这些情况下,前一小节(以及下文将要呈现的结果)所引用的结论可以在更弱的条件下建立(例如,[67]),但我们在此不考虑这一情形。针对无限维未知参数构造 IM 存在实际挑战,因此我们将此作为未来研究的主题。
![]()
![]()
![]()
![]()
![]()
我们之前的主张是:基于扩展法的边缘化策略不如基于轮廓法的策略高效;事实上,其效率可能显著更低。但原因并不特别深奥:观察两种高斯极限轮廓之间的差异,唯一的不同在于相关卡方分布的自由度。对于基于轮廓法的策略,自由度恰好等于感兴趣参数的维度 Dϕ。而对于基于扩展法的策略,自由度则是完整参数的总维度 D=Dϕ+Dλ。这种维度不匹配的效果是,基于扩展法的轮廓在最大似然估计量处不会像基于轮廓法的轮廓那样尖锐,从而使其整体上更宽,因此效率更低。这正是我们在图4中针对简单的正态均值模型所看到的情形。
尽管如此,这两种策略之间的比较并不完全公平,因此不应将其解读为一种批评。之所以不公平,是因为基于扩展法边缘化方案中看似低效的表现是完全可以预期的。关键在于,基于轮廓法的策略要求用户事先确定一个特定的兴趣参数,并付出努力去推导边缘 IM 轮廓。而基于扩展法的策略则可以立即适应用户关心的任何兴趣参数,用户所需做的仅是一个合适的优化例程。
4.5. 数值示例
例5。考虑一个典型的高斯线性回归模型,其中响应变量(我们在此记为 Xi)是独立的,且
![]()
![]()
![]()
![]()
![]()
![]()
关键在于,即使在渐近效率方面不如基于轮廓法的解,基于扩展法的解仍具有某些优势。
结论
如第1节所述,人们很自然地会将不精确性和精确的有限样本有效性与保守性和低效率联系起来。然而,已有经验证据表明,事实恰恰相反:IM 解——既不精确又具有精确有效性——往往与那些仅具备渐近有效性的解一样高效。在此之前,IM 解的渐近效率仅是一个猜想;本文通过建立一个全新的、基于可能性论的著名伯恩斯坦–冯·米泽斯定理版本,证实了 IM 解确实是渐近有效的。其核心启示在于:IM 解因其内在的不精确性而提供的精确有效性,在渐近效率方面无需付出任何代价。
从实践角度看,本文结果为 IM 解提供了极为简单的近似方法。当然,这些渐近版本并不具备精确有效性,但它们是近似有效的。于是问题就变成了:是否可以通过某种巧妙的方式对这些简单近似进行“修饰”,从而实现精确有效性?直观来看,如果我们凭空写出一个可证明有效的 IM 构造方案,计算上显然极具挑战;但如果我们已经对这个 IM 的形态有了相当清晰的认识,那么计算负担或许可以大大减轻。Cella 和 Martin [13] 已在这方面给出了一些初步结果,但仍需进一步研究。
本文结果的一个可能扩展方向是:将不确定参数 Θ定义为某个期望损失的最小化者。这类似于 M-估计或经验风险最小化对最大似然估计的推广,是对本文设定的一种广义化。在此更一般的情形下,我们可以用经验后悔(empirical regret)(即经验风险与其最小值之差)替代负对数相对似然,并执行相同的“有效性校准”(validification)步骤,以构造一个可能性论 IM 轮廓 [9]。针对这种由经验风险驱动的 IM,类似的可能性论伯恩斯坦–冯·米泽斯定理也指日可待,我们将在其他地方报告相关进展。
最后,本文所发展的可能性论伯恩斯坦–冯·米泽斯定理,为可能性论 IM 框架开辟了两条相邻的、值得进一步探索的研究方向。第一条方向是:在不局限于“相对似然的概率–可能性变换”这一构造方式的前提下,研究 IM 框架的渐近效率——例如,当存在有意义的数据生成方程和预测随机集时。可以确信,在这些具有额外结构的情境中,所得到的 IM 轮廓函数也应如定理1所示那样具备渐近效率。基于此类结果的一个相关推论,是对保形预测集(conformal prediction sets)渐近效率的刻画,参见 [10, 11]。第二条方向是:将不精确的伯恩斯坦–冯·米泽斯渐近理论推广到可能性论之外的更一般框架,使其适用于更广泛的上下概率(lower–upper probability)构造。这类结果可能具有重要意义,例如,可用于调和从主观主义、Shafer 式信念度视角出发的信念–似然(belief–plausibility)构造。
原文链接:https://doi.org/10.1016/j.ijar.2025.109389
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.