典型性原则及其对统计学和数据科学的启示|拟合|贝叶斯|方法论|新论文

分享至

典型性原则及其对统计学和数据科学的启示

The typicality principle and its implications for statistics and data science

https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science

摘要

数据科学的一个核心焦点是将经验证据转化为知识。这里所说的“知识”，指的是那些 (i) 通过明确的推断过程得到数据支持，且 (ii) 伴随有校准过的不确定性度量的主张。因此，像罗纳德·A·费希尔、卡尔·R·波普尔和约翰·W·图基等深刻思想家的科学见解和态度，有望在未来几年激发机器学习和人工智能领域激动人心的新进展。沿着这些思路，本文提出了一种新颖的典型性原则，该原则大致表述为：如果观测数据相对于某个提出的理论在某种意义上足够“非典型”，那么该理论就是没有根据的。这种对典型性的强调，将模型检验等熟悉但常被忽视的背景概念推到了推断的前景。典型性原则的一个实例是在参数估计的背景下，我们提出了一种新的基于典型性的正则化策略，该策略在很大程度上依赖于拟合优度检验。这种新正则化策略的有效性在三个普通最大似然估计失败的、非平凡的例子中得到了说明。我们还展示了典型性原则如何适应于可靠且高效的不确定性量化这一更广阔的图景。

关键词 证伪；拟合优度；推断模型；似然；模型检验；正则化；不确定性量化

1 引言

随着数据科学的持续发展，它必将激发——同时也受启发于——罗纳德·A·费希尔、卡尔·R·波普尔和约翰·W·图基所倡导的基础性研究工作。

现代数据集固有的复杂性意味着存在许多不确定性和模糊性的来源，因此使得分析以及随后的归纳论证变得高度非平凡。正因如此，来自认识论的见解是息息相关的，而占主导地位的思想流派是波普尔在其《科学发现的逻辑》（Popper, 1959a）中阐述的证伪主义。他的关键见解是，在一系列对相关理论进行严苛检验的实验中，那些经受住这种检验的理论便“证明了它们的实力”（Popper, 1959b, p. 10），这是任何理论被称为“未被证伪”的必要但不充分条件。只有在一种极限意义上，随着检验次数/严苛程度的增加，一个理论才能赢得“未被证伪”的地位。

现代经验科学中的一个挑战——这在哲学文本中常讨论的“所有天鹅都是白的”这类例子中并不存在——是经验数据在逻辑上无法反驳任何合理的理论，因此在推断时不可避免地存在不确定性。这就需要对所述不确定性进行可靠的量化，而这正是我们当前贡献的焦点。

证伪主义观点背后是这样一种理解：实验往往会产生典型的数据，即看起来符合现实世界中预期情况的数据。因此，如果观测到的数据相对于某个提出的理论而言是非典型的——或者说看起来与预期情况足够不同——那么就可以合理地认为该理论被证伪了。这就是我们提出的典型性原则的基本形式。但是，数据“看起来像”预期情况究竟是什么意思？（严格来说，在某种意义上，所有数据都是“非典型的”。例如，在涉及绝对连续分布的模型中，所有可能实现的数据在该模型下的概率都为零。幸运的是，可靠的推断并不需要严格意义上的非典型性——稍加创意，就可以发展出有意义的非典型性概念。）通常的做法是将模型的似然函数解释为其对观测数据拟合优度的度量，反过来，通常也通过似然值的大小来判断数据是否“看起来像”预期情况。似然法则（例如，Edwards, 1992; Hacking, 1976）对此进行了形式化。然而，在某些情况下，似然函数值很大可能是由于某种退化所致，而不是因为数据看起来像相应理论下的预期。这凸显了以似然为中心的归纳推理方法的缺陷，以及对新视角的需求。常见的正则化策略仅依赖于提出的理论——例如，惩罚与假定的“稀疏性”不相容的理论——而不依赖于数据本身，因此无法自行修复上述缺陷。作为替代，我们的典型性概念关注的是非参数拟合优度意义上的拟合，而不是基于参数模型、大似然意义上的拟合。本文提出的典型性原则受到了图基关于模型构建/检验的见解（Tukey, 1977, 1962）的启发。虽然哲学原则往往是“自上而下”的，即由更高权威传达的指令，但图基的哲学风格是“自下而上”的（例如，Dempster, 2002; Tukey, 1986），因此本质上具有波普尔主义的色彩。例如，在模型构建中，确实没有哪个候选模型是神授的，所以一个模型的优点必须通过提供对观测结果的合理解释来赢得。我们提出的典型性原则正是建立在这些关键思想之上。

我们在此的主要方法创新是一种新的、以典型性为中心的正则化策略。更具体地说，我们建议采用熟悉的惩罚似然框架，但有一个转变：我们不再惩罚与先验知识不相容的理论，而是惩罚那些数据可能被判定为非典型的理论，从而确保我们推导出的程序奖励那些与数据拟合良好的理论，这有助于解释并提高效率。从这个意义上说，以典型性为中心的正则化不是一种结构约束或先验规范，而是一种有原则的机制，用于将模型检验和基于似然的拟合整合到一个单一、经过校准的推断框架内。我们通过将提出的以典型性为中心的正则化应用于几个具有挑战性的问题来评估其性能，这些问题在历史上一直是统计学基础中的争议点。我们的结果证明了它在点估计和更广泛的不确定性量化方面的效率，突显了它在解决统计科学中一些最深层次的未解决问题方面的潜力。

除了实际应用之外，我们还深入探讨了典型性原则的理论基础，揭示了它与其他常见统计原理的联系——或缺乏联系。这些联系强调了典型性的更广泛重要性，不仅作为一种方法论工具，而且作为连接统计推理各个方面的概念桥梁。通过将典型性原则置于这个丰富的理论和应用背景下，本文为未来探索其在数据科学及其他领域的影响奠定了基础。这种观点与可信机器学习的目的一致，后者不仅寻求准确的预测，还寻求可靠的不确定性陈述和诊断，以便在拟合模型的行为与假设不符时进行检测。最近的研究强调，可靠的不确定性量化是可信人工智能的核心组成部分，特别是用于检测模型局限性和支持稳健的决策制定（Deuschel et al., 2024; Liu et al., 2024）。特别是，基于典型性的评估可被视为一种统计机制，用于 (i) 对模型充分性进行压力测试，以及 (ii) 当诊断证据表明拟合不足时，调节由似然驱动的拟合，从而提高下游决策的可信度。

本文的其余部分安排如下。第2节设定了我们讨论的背景，并介绍了一些关键概念和符号。第3节介绍了典型性原则的第一个基本版本，我们在此的讨论侧重于统计直觉和哲学思考。在参数估计的背景下，典型性原则的一个具体实例产生了我们新的基于典型性的正则化策略，该策略也在那里进行了详细说明。我们提出的基于典型性的正则化策略的性能在第4节中通过三个非平凡且充满悖论的例子进行了研究：勒卡姆混合模型、内曼-斯科特问题和斯坦因均值向量长度问题。这三个例子中面临的挑战在现代数据科学应用中也普遍存在，因为这些应用中存在过拟合的风险，因此我们在此的贡献超越了这里考虑的简单参数模型。第5节进行更深入的探讨，提出了一个形式化的典型性原则，并展示了它如何融入一个能够提供可证明可靠的不确定性量化（超越点估计、假设检验等）的通用框架。文中还讨论了与其他统计原理的联系，并通过一个数值示例展示了所提出框架在一个具有挑战性的边缘推断问题中的有效性和效率。我们在第6节以几点评论作为结论。

2 问题设定

3 典型性原则

我们采纳波普尔的证伪主义观点，即关于不确定的 Θ Θ的假设 H H不能基于数据 x x被确证，它只能根据假设 H H的真实性与数据 x x是否足够矛盾，来决定是被反驳或未被反驳。重要的是，证伪主义实际上是我们唯一的选择：以科学和数学上严谨的方式采用对立的卡尔纳普-杰弗里斯-杰恩斯式的确证主义观点（例如，Carnap, 1962; Jeffreys, 1998; Jaynes, 2003），需要一个真实的先验概率分布并应用贝叶斯定理，而正如第2节所讨论的，这是无法实现的。如第1节所述，我们的证伪主义视角建议指定一种策略，用于评估数据 x x相对于关于 Θ Θ的某个陈述假设 H H是否是“典型的”——如果是，那么是在何种意义上以及何种程度上是典型的。基于这样的评估，至少在概念上，推断就变得直接了当。

我们从一个非正式且直观的关键原则陈述开始，该陈述侧重于简单的、单点假设。更正式的形式将在第5节中给出。

我们提出的典型性原则的实现方式是通过正则化。这将围绕似然函数展开，因为它在正则情形下是高效的，但我们提出的正则化在几个重要方面与数据科学文献中常见的正则化不同。具体来说，考虑目标函数

4 示例：非正则估计 4.1 勒卡姆混合模型

4.2 内曼-斯科特问题

4.3 斯坦因均值向量长度

5 可靠的不确定性量化 5.1 典型性原则再探

也就是说，频率主义者并不试图量化给定 x x 下假设 H H 真实性的不确定性——他们满足于一个控制错误概率的决策规则。而那些试图找到贝叶斯-频率主义“圣杯”的努力则走得更远，即寻求一个框架，该框架能提供依赖于数据的、对假设 H H 真实性的支持度量或信度度量，同时保持与梅奥的频率主义证据原则一致。这包括默认先验贝叶斯推断（例如，Jeffreys, 1946; Datta and Ghosh, 1995; Berger et al., 2024）、费希尔的信仰推断（例如，Fisher, 1933, 1935a; Zabell, 1992）及其推广形式（例如，Fraser, 1968; Hannig et al., 2016; Xie and Singh, 2013）、登普斯特-谢弗理论（例如，Dempster, 1966, 2008; Shafer, 1976, 1982）以及推断模型（例如，Martin and Liu, 2013, 2015; Martin, 2025b）。这些方法的一个共同点是，至少从表面上看，它们未能认识到典型性是唯一的基本工作概念，这导致了混淆并阻碍了进展。通过将典型性置于核心和中心位置，我们可以澄清这种混淆。特别是，我们展示了哪些类型的性质与典型性度量是一致的，并进而说明了要实现可靠且有原则的不确定性量化这个“圣杯”需要什么条件。

实施所提出的框架需要能够评估 (5.4) 中定义的轮廓。我们没有足够的篇幅来讨论计算问题，但我们将感兴趣的读者指引到 Jiang et al. (2023) 和 Martin (2025a) 了解细节；另见 Martin (2025b)。

5.3 与其他统计原理的关系

为了将前面的讨论置于背景中，回顾一下似然原理（例如，Birnbaum, 1962; Basu, 1975; Berger and Wolpert, 1984）是有帮助的，该原理指出，数据中用于推断 Θ Θ的所有相关信息都由似然函数的形状所捕捉。这似乎是直观且无害的，因为常用的最大似然估计量和似然比统计量只依赖于似然函数的形状。然而，仔细观察，我们通常用这些汇总统计量所做的事情，例如 p p-值计算，依赖于所设定模型下的抽样分布，并且由于抽样分布不是由观测到的似然决定的，基于这些的推断违反了似然原理。这种违反本身并不值得关注，但鉴于伯恩鲍姆定理指出似然原理等价于更常识性的充分性和条件性原理的结合，这就变得潜在有问题了；因此，违反似然原理意味着至少违反了一个常识性原则，从而引发了争议。对伯恩鲍姆定理适用范围（最初见于 Durbin (1970)，最近见于 Evans (2013) 和 Mayo (2014)）的质疑，更是火上浇油。

5.4 再论斯坦因均值向量长度

6 结论

受费希尔、波普尔和图基科学视角的启发，我们在此提出了一条新的典型性原则，该原则对数据科学具有诸多方法论和基础性意义。首先，在方法论方面，典型性原则直接暗示了一种在参数估计背景下新颖的正则化策略。事实上，我们的基于典型性的焦点并非将估计量向假定的结构（例如“稀疏性”）收缩，而是鼓励拟合优度，确保观测数据在拟合模型下看起来是“典型的”。本文呈现了三个非平凡的例子，在这些例子中，最大似然方法彻底失效，而我们提出的以典型性为中心的正则化策略则表现得相当令人满意。其次，在基础理论方面，典型性原则的一个更正式版本可以很容易地被通用推断模型框架所容纳，该框架用于提供超越点估计、假设检验等的可证明可靠的不确定性量化。这种更广泛形式的不确定性量化可以轻松容纳冯·诺依曼和摩根斯坦风格的决策制定以及其他形式的正式推断，类似于贝叶斯方法，但无需先验分布，也不牺牲错误率控制保证。更广泛地说，我们相信，所提出的典型性原则的各种实现将对数据科学有益，因为自动化应用有望在人工智能的进步中发挥关键作用。尽管本文的重点是基于模型的推断，但典型性的概念与拟合优度的考量紧密相连，因此我们完全期望典型性原则及其衍生出的方法论能够对建模和推断都产生影响。

典型性原则及其衍生的各种方法论进展有待进一步研究。首先，现代应用涉及复杂模型，如果没有这种或那种正则化策略的指导，很容易出现过拟合；正是这种过拟合的倾向导致了第4节例子中最大似然估计的糟糕表现。因此，本文的一个自然后续工作是研究我们所提出的基于典型性的正则化策略在一类现代数据科学相关问题中的表现，这些问题涉及深度神经网络和变换器（Vaswani et al., 2017）等复杂且过参数化的模型。将我们的提议与其他先进技术（如知识蒸馏，例如 Hinton et al., 2015; Jiang and Liu, 2025）进行比较也将很有意义。其次，还有一个重要的实践问题，即如何设置 (3.1) 中的调节参数 λ。虽然现在有许多标准的调节参数选择策略可用，但一个相关的问题是，我们基于典型性的惩罚中固有的数据依赖性是否值得引入新的调节参数选择考量。毕竟，与通常鼓励稀疏性的惩罚相比，p-值具有有意义的尺度，因此可能需要新的考量来平衡后一种惩罚与似然的贡献。第三，所提出的基于典型性的正则化最大似然估计量，以及第5节中发展的更广泛的不确定性量化的有限样本和大样本效率性质，完全有待研究。

所提出的框架依赖于选择拟合优度统计量来确保校准，而这种选择会影响统计效率和功效。在正则的、正确设定的模型中，这种影响通常是轻微的，因为如前一段所述，广泛类别的拟合优度统计量在真实参数邻域内产生的 p p-值都远离零，使得典型性惩罚不活跃。相比之下，在模型误设或非正则设定下，不同的拟合优度选择会强调拟合不足的不同方面，导致在对特定备择假设的敏感性和统计效率之间进行权衡。从可信推断的角度来看，这种行为是刻意的：该框架并非旨在优化针对特定备择假设的功效，而是允许实践者选择与科学或决策背景最相关的模型充分性方面相匹配的诊断。探索用于平衡校准和效率的拟合优度统计量的最优或自适应选择，是未来工作的重要方向。

与我们提出的统计原理相一致，并受其他哲学思考的启发，最近在增强人工智能的创造力和可信度方面取得了进展（例如，Eschker and Liu, 2024）。一个主要挑战在于理解这些及其他哲学进展如何帮助改进当今的前沿方法，并激发推动现代边界的新发展。同样重要的是，这些哲学贡献应当具有图基那种亲自动手、面向应用的“自下而上”的风格，而非象牙塔内规定的那种束缚手脚、“自上而下”的教条式协议。

原文链接：https://www.researchgate.net/publication/400209222_The_Typicality_Principle_and_Its_Implications_for_Statistics_and_Data_Science

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.