无先验后验概率推断的框架|正态|似然|贝叶斯

分享至

Frameworks for prior-free posterior probabilistic inference

无先验后验概率推断的框架

原文链接：https://arxiv.org/pdf/1407.8225

摘要

开发无需先验分布的有效且高效的概率推断统计方法已有很长的历史。Fisher的置信推断可能是这些尝试中最著名的。我们认为，尽管置信推断及其各种扩展在形式上看似无先验，但实际上并非无先验，因此不符合无先验概率推断的要求。相比之下，推断模型（IM）框架是真正无先验的，并被证明是一种有前景的新方法，能够生成既有效又高效的概率推断。通过简要介绍两个基本原则，即有效性原则和效率原则，本文在有效性原则的背景下讨论了基本IM框架的三步构建。基于条件化和边际化的高效IM方法通过两个基准示例进行了说明，分别是具有未知相关系数的二元正态分布和Behrens-Fisher问题。

关键词：贝叶斯；置信函数；置信推断；推断模型；统计原则。

1 引言

统计推断是将以观测数据形式呈现的经验转化为关于相关总体知识的过程，是科学发现方法的重要组成部分。本文的起点是一个关于可观测数据X的抽样模型，该模型依赖于参数。从数学上讲，X的抽样模型是定义在X的样本空间 X 上的一个依赖于的概率分布。抽样模型对的依赖性意味着观测数据X = x携带了关于未知参数的相关信息。我们的目标是将这些信息转化为一种概率性的不确定性度量。也就是说，对于关于未知参数的断言或假设，我们希望为其分配一个“合理性”度量，以衡量断言A为真的可能性。这种合理性度量应依赖于数据x，具有有意义的概率解释，并且不需要指定的先验分布。

R. A. Fisher从他在逆概率方面的工作（Fisher 1930）开始，致力于基于置信论证开发无先验的概率推断方法。Fisher（1973，第54页）写道：

> 与贝叶斯论证相比，置信论证仅使用观测数据将参数的逻辑状态从一无所知、无法做出任何概率陈述的状态，转变为具有明确定义分布的随机变量的状态。

尽管Neyman（1941）重新解释了一些置信思想，并将其用于创建频率学派范式的核心概念——置信区间，但置信推断仍被视为Fisher的“一次重大失败”（Zabell 1992）。Fisher承认他在基于置信论证开发无先验概率推断框架方面仅取得了有限的成功，但他坚持认为其中蕴含了宝贵的价值。他写道：

> 我还不理解置信概率的作用。我们需要很长时间才能知道它为我们做了什么。但我们不应仅仅因为尚未有清晰的解释而忽视它（Savage 1964，第926页）。

Fisher对置信推断价值的信心激发了持续的研究努力，包括结构推断（Fraser 1968）、Dempster-Shafer理论（Dempster 2008；Shafer 1976）、广义p值和置信区间（Chiang 2001；Weerahandi 1993）、广义置信推断（Hannig 2009, 2013；Hannig and Lee 2009）、置信分布（Xie and Singh 2013；Xie et al. 2011），以及使用默认、参考和/或数据依赖先验的贝叶斯推断（Berger 2006；Berger et al. 2009；Fraser 2011；Fraser et al. 2010；Ghosh 2011）。然而，本文将论证，置信推断及其上述变体实际上并非无先验。

Martin和Liu（2013）最近引入了一种名为推断模型（Inferential Models, IMs）的替代范式；另请参阅下文中的参考文献和进一步阅读。这些作者专注于不确定性下的逻辑推理，致力于寻找真正无先验概率推断的最佳方法。本文的重点主要放在其两个基本原则，即有效性原则和效率原则，以及基于这两个原则构建的形式化方法上。这包括基本IM、用于信息组合的条件IM，以及用于对兴趣参数进行高效推断的边际IM。

2 无先验推断推理中的困难

2.1 置信函数与完全无知模型

为了表示关于感兴趣断言的实际知识，使用下概率和上概率或置信函数和似然函数是必要的。给定数据 X ，它们是从的所有子集空间到([0, 1])的函数，分别表示为

也就是说，没有任何证据可用于支持或反驳任何断言 A 。这一定义与Fisher（1973，第36页）中的描述一致：“必要的无知体现在我们无法区分具有不同频率比的不同子集，而这些子集总是存在的。”由此可以立即得出结论，概率并不是表示完全无知的满意模型，因此没有任何贝叶斯先验能够表示完全无知；参见Walley（1991）。换句话说，所有贝叶斯先验都是信息性的，因为中任意两点的相对重要性已被完全指定。然而，基于传统概率（使用适当或不适当先验）的贝叶斯方法可以用于构建具有良好频率性质的方法，例如置信区间（Fraser 2011）。

2.2 置信推断并非无先验

置信推断与默认/“无信息”先验贝叶斯之间存在密切联系，因此后者的局限性（如上所述）也必然是前者的局限性。为了说明这一点，假设存在一个联合分布，它与抽样模型和置信分布都一致。那么或其某种变换必须是一个位置参数，而置信分布对应于从位置参数上的平坦先验获得的贝叶斯后验。详见Lindley（1958）和Taraldsen与Lindqvist（2013）。

为了更清楚地说明这些观点，我们通过一个简单的例子仔细研究置信论证，或者更准确地说，置信操作。考虑从单一观测X推断单位正态模型(N(的均值。该抽样模型的一个简单关联可以写成：

“继续视为”（Dempster 1963）的推理是驱动将的知识状态从完全无知转变为可以用传统概率表示的操作的原因。这种推理似乎与无先验推断的目标不一致。事实上，标准观点认为是固定但未知的，这与完全无知的模型一致。然而，一旦(X)被固定在其观测值(x)上，(Z)的条件分布就会在点处退化。将退化的条件分布替换为非退化的条件分布的置信操作必须使用超出x和所包含信息的一些额外信息。因此，置信推断不可能是无先验的。

3 推断模型（IM）框架

3.1 发展背景

IM框架的精确表述将在下文给出，但了解我们如何达到这一特定表述可能是有意义的，因为有些人可能认为过程至少与结果同样重要。起点是对统计推断目标的精确陈述：

> 对于关于感兴趣参数的任何断言或假设A，给出观测数据中支持“A为真”和“为真”主张的证据的有意义的总结。

在这些约束条件下，目标是做出“尽可能好的推断”。这一总体思想激发了下一节中给出的两个原则。

为了实现这一目标，第一个问题是概率是否是适当的度量方式。在存在真实先验分布的情况下，基于后验概率的贝叶斯方法是合适的。然而，当没有有意义的先验信息可用时（这在科学应用中很常见），就会出现困难。首先，如上所述，没有先验分布能够编码无知。其次，使用依赖于抽样模型的默认或无信息先验与传统贝叶斯方法差异较大，因此在我们看来，它不能真正被视为贝叶斯方法。因此，从基础的角度来看，我们得出结论：贝叶斯方法不适合无先验的概率推断。

接下来的问题是置信推断或其变体是否合适。如上所述，置信推断存在一些困难。事实上，置信推断基本上是带有可能依赖于数据的先验的贝叶斯方法（Hannig 2013），因此上述讨论的相同问题也适用于置信推断。Dempster-Shafer理论是另一种候选方法，其吸引力在于推断不基于概率，而是基于置信函数。然而，在我们看来，Dempster-Shafer方法的困难在于相应的置信函数值无法在共同的尺度上解释。也就是说，在一个应用中，0.9可能是一个较大的置信函数值，但在另一个应用中，它可能很小。在我们看来，拥有一个可以解释置信函数值的共同尺度——这是上述定义中“有意义”部分的关键——对于一种方法作为科学发现工具的成功至关重要。

因此，在考虑了各种现有方法后，Dempster-Shafer对置信函数的使用是可取的，但需要一个工具来正确校准置信函数值。通过使用与不可观测辅助变量分布校准的随机集来扩展置信函数值和似然函数值之间的范围，正是为了满足这一需求而设计的。这种方法实现了上述定义中设定的目标；另请参阅下文的有效性原则和（9）。在有效性约束下实现“尽可能好”的目标，引出了效率原则和最优性考虑（Martin和Liu 2013）。

顺便说一句，尽管IM置信函数输出不是概率测度，但我们认为IM推断在某种意义上是“概率性”的。关键在于它可以通过随机集对不可观测量的预测来解释，而置信只是相对于该随机集分布的概率。这一点将在下一节中进一步讨论。

3.2 两个基本原则与基本IM框架

从哲学上讲，统计推断的IM框架建立在以下有效性原则之上（Martin和Liu 2014b）。

有效性原则：概率推断需要将不可观测但可预测的量与可观测数据和未知参数相关联。用于推断的概率是通过对可预测量的有效预测获得的。

为了使“可预测量”的概念更加精确，我们考虑抽样模型的另一种描述。指定一个在 U 中具有分布的辅助变量U，以及一个函数a，使得样本 X 定义为：

与置信推断及其扩展不同，为了实现有效预测，IM方法在辅助变量的明确定义的概率空间中执行其基本操作。这种方法的关键在于使用预测随机集。根据Martin和Liu（2013）的研究，一个有效的预测随机集 S

S

可以通过以下方式定义：

IM框架通过将辅助变量空间中的预测传播到参数空间来进行概率推断。其三步构建过程如下：

换句话说，例如，当断言A为真时，作为 X 的函数在随机意义上不小于。这为解释似然函数（和置信函数）值提供了一个有意义且客观的尺度。因此，可以获得对频率主义错误率具有精确控制的程序，例如检验和置信区域（Martin和Liu 2013）。

进一步发展涉及效率问题，其动机来自以下原则：

效率原则：在有效性约束下，概率推断应尽可能高效。

Martin和Liu（2014a,c）研究了两类效率问题，即用于信息组合的条件IM和用于对兴趣参数进行推断的边际IM。下面通过两个基准示例介绍这些方法，这些示例有助于展示IM框架与置信型框架之间的差异。

最后，在某些应用中，预测未来观测值是目标，而不是对的推断。预测问题可以被视为涉及边际化或模型平均的问题。IM框架也能够处理此类问题，但这里不再进一步讨论；详见Martin和Lingham（2014）。

3.3 条件IM

以具有零均值、单位方差和未知相关系数\(\theta\)的二元正态模型为例。考虑从大小为(n)的样本中推断。基于数据生成的关联，例如，具有一个\(2n\)维的辅助变量。Martin和Liu（2014a）认为，辅助变量的完全观测函数不需要被预测，并且通过以观测成分为条件，可以加强对未观测成分的预测。这一论点表明，关联可以从模型的充分统计量构建。

人们可能会倾向于遵循置信型论证，并以为条件，这是一个吸引人的无参数恒等式。然而，这种条件化相当于以所有数据为条件，这使得预测分布退化，从而导致相应的推断对所有断言无效。

需要注意的是，辅助变量是二维的，而感兴趣的参数是一维的。为了获得具有较低维辅助变量的关联，Martin和Liu（2014a）提出首先用一对新的辅助变量重写上述关联，使得只有携带与直接相关的信息。通过这样做，可以通过将作为辅助变量，并以的观测值为条件，获得条件关联。这导致辅助维度从二维减少到一维。对于二元正态相关性问题，他们基于偏微分方程的方法给出了条件函数或形式为：

更多技术细节请参见Martin和Liu（2014a）。其中展示的数值结果表明，这种局部条件IM生成的置信区间比现有频率主义方法中最优的方法更高效。

3.4 边际IM

由于预测随机集是有效的，因此可以为关于兴趣参数的任何断言生成有效的概率推断。特别是对于单点断言，即，置信函数为零，但边际似然函数为：

这个似然区间显然具有频率主义覆盖概率，这是我们IM有效性结果的推论。

作为这个例子的一个变体，接下来考虑，即变异系数。Berger等人（1999）证明，这对于贝叶斯、似然和频率主义框架来说是一个具有挑战性的问题。使用上述信号噪声比问题的方法，可以轻松地为构建边际IM。特别是对于单点断言，似然函数为：

4 结论

无先验概率推断方法对于将经验转化为科学探索中的知识至关重要。在我们所处的“大数据”世界中，这一点尤为突出。尽管Fisher的置信论证作为一种通用方法未能实现无先验概率推断，但它激励了许多统计学家跳出传统思维框架，开发出有前景的新方法。例如，J. Hannig及其合作者开发了一种广义置信框架，该框架产生的推断方法具有经典基于似然方法的渐近效率，但在小样本研究中通常表现显著更好。

IM框架受到Fisher置信论证的启发，但两者在哲学和技术上都有所不同。这种新方法的前景在于它是真正无先验的，并且能够生成具有理想频率性质的后验概率不确定性评估。这确实是一种新的思想流派，其雄心勃勃的目标是基于抽样模型进行最佳的科学推断，因此迄今为止的努力主要集中在开发基本思想和框架的构建模块上。更多工作可以在下面的参考文献和进一步阅读部分找到。正如这里简要讨论的那样，当前关于条件和边际IM的研究表明，高效IM的开发将在未来几年非常有趣。尽管在IM的理论、计算和应用方面还有许多工作要做，但作者相信，鉴于统计在科学发展中的基础作用，IM有着非常光明的未来。

原文链接：https://arxiv.org/pdf/1407.8225

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.