网易首页 > 网易号 > 正文 申请入驻

关于将P值解释为似然值的说明

0
分享至

A NOTE ON P-VALUES INTERPRETED AS PLAUSIBILITIES

关于将P值解释为似然值的说明

https://www3.stat.sinica.edu.tw/sstest/oldpdf/A24n411.pdf

摘要

P值是统计学中的主要工具,但常常被误解。我们提出了一种新的解释,将P值视为一种有意义的似然值,并在推断模型框架内正式解释这一概念。我们证明,对于大多数实际的假设检验问题,存在一个推断模型,使得相应的似然函数在原假设下的取值恰好是P值。这种表示的优势在于,似然的概念与从业者使用和解释P值的方式一致,并且似然计算避免了在原假设为真的条件下进行麻烦的条件化。这种与似然值的联系还揭示了标准P值在具有非平凡参数约束问题中的不足。

关键词:假设检验,推断模型,嵌套,似然函数,预测随机集。

1. 引言

P值在应用统计学中无处不在,但常常被误解为某种贝叶斯后验概率(即原假设为真的概率)或频率主义错误概率。事实上,2012年,媒体报道了难以捉摸的希格斯玻色子粒子的发现(Overbye (2012)),而统计学博客则指出一些记者和物理学家如何误解了由此产生的P值。我们的目标是提供一种新的、更简单的方式来理解P值,从而避免这些误解。

P值经常被误解的一个主要原因是标准的教科书定义与人们的常识不一致。本文的目标是提供一种更用户友好的解释。我们证明,P值可以解释为原假设为真的似然值。这种“似然值”在Martin和Liu(2013a)提出的推断模型(IM)框架中被精确定义,该框架建立在Martin和Liu(2014a)提出的有效且高效统计推断的两个基本原则之上。考虑检验原假设与全局备择假设的问题。我们证明,在温和条件下,对于任何P值(取决于

和检验统计量的选择),存在一个有效的IM,使得的似然值就是P值。从这个意义上说,P值可以理解为在给定观测数据的情况下,为真的似然值。在希格斯玻色子的报告中,由于P值极小,可以得出结论:假设:“希格斯玻色子不存在”是高度不可信的,因此是一项发现。这种基于小P值的推理与Cournot原理(Shafer和Vovk (2006))一致。

“似然值”一词符合从业者使用和解释P值的方式:小的P值意味着在给定观测数据的情况下,是不可信的。计算似然值涉及一个概率计算,该计算不需要假设为真,因此避免了通过假设为真的计算来证明为假的逻辑问题。使用IM为经典非概率性总结提供概率解释已被证明是有益的;例如,参见Martin(2014)。

本文的其余部分组织如下。第2节设置了我们的符号并给出了P值的正式定义,并简要讨论了其常见的正确和错误解释。第3节介绍了IM的基础知识,特别是预测随机集和似然函数。在第4节中,我们证明,给定任何假设检验问题,存在一个有效的IM,使得在原假设下评估的相应似然函数就是P值。我们在那里强调了IM似然值与客观贝叶斯后验概率之间的类似联系,以及P值在具有非平凡参数约束问题中的一个未被认识到的缺陷。第4.3-4.4节展示了涉及二项分布和正态分布数据的两个示例,并在第5节中给出了一些结论性意见。


2. P值
2.1 设置与正式定义

2.2 标准解释

3. 推断模型回顾

3.1 总体概述

推断模型(IM)框架为关于未知参数的任何断言生成精确的无先验概率证据度量;参见Martin和Liu(2013a)、Martin、Zhang和Liu(2010)以及Zhang和Liu(2011)。这是通过首先在可观测数据X、未知参数\(\theta\)和不可观测的辅助变量U之间建立显式关联来实现的。引入随机集来预测不可观测的U,并通过关于该随机集分布的概率计算获得对\(\theta\)的推断。IM框架与现有方法有一些联系,例如置信推断(Hannig(2009, 2013);Hannig和Lee(2009))、置信分布(Xie、Singh和Strawderman(2011);Xie和Singh(2013))、Dempster-Shafer理论(Dempster(2008);Shafer(1976, 2011))、广义P值和置信区间(Tsui和Weerahandi(1989);Weerahandi(1993);Chiang(2001)),以及使用默认、参考和/或数据依赖先验的贝叶斯推断(Berger(2006);Berger、Bernardo和Sun(2009);Fraser等人(2010);Fraser(2011);Ghosh(2011))。

IM、置信推断和Dempster-Shafer理论都将辅助变量引入推断问题中。置信推断和Dempster-Shafer理论都以观测到的(X = x)为条件,然后通过反转数据-参数-辅助变量关系并假设在(X = x)被观测后(U)保留其先验分布,在参数空间上开发一种分布。IM方法的目标是(无法实现的)对应于(U)被观测到的最佳推断。在(X = x)被观测后,关于的不确定性通过随机集击中真实(U)的不确定性传播。除了实现Fisher的无先验概率推断目标外,IM生成的推断输出对任何感兴趣的断言都是有效的(第3.3节);置信概率仅对特殊类型的断言有效(Martin和Liu(2013a,第4.3.1节))。此外,关于推断效率的IM最优性的一般理论可能并非遥不可及。

3.2 构建

根据Martin和Liu(2013a),IM的构建分为三个步骤。

3.3 IM的有效性

IM的置信函数和似然函数在类似研究中具有意义是非常重要的。这种意义在Martin和Liu(2013a)中被称为有效性。这里,如果满足以下条件,则称IM是有效的:

Martin和Liu(2013a)表明,存在多种预测随机集可以满足P1–P2条件,因此IM的有效性相对容易实现。然而,效率是一个问题,为此,他们提出了最优IM的理论。

4. 作为IM似然值的P值

4.1 主要结果

这些集合是闭的、嵌套的,并且根据A2,可测性成立。因此,定理1中的P1成立。定义一个预测随机集S,其支持集为,分布满足:

4.2 备注

Dempster(2008,第375页)指出了似然值与P值之间的类似联系;具体来说,他通过数值展示了Fisher的P值如何分解为两部分——一部分对应于对的置信,另一部分对应于“不知道”——这两部分的总和就是我们的似然值。他的例子是基于单边备择假设的泊松均值标准检验,并且他声称这种对应关系在一般情况下并不成立。

在贝叶斯框架中,寻找“客观”先验通常集中在概率匹配上(例如,Ghosh(2011)),即选择先验,使得相应的后验尾概率与P值渐近等价。鉴于P值与IM似然值之间的联系,这些客观贝叶斯后验概率也可以解释为似然值。考虑到客观贝叶斯后验分布可以被视为近似频率主义P值的一种简单而有吸引力的方式(Fraser(2011)),这或许并不令人惊讶。

4.3 二项分布示例

4.4 正态方差示例

5. 讨论

我们为熟悉但经常被误解的P值开发了一种新的用户友好解释。具体来说,我们已经证明,对于几乎任何假设检验问题,在温和条件下,存在一个有效的IM,使得其在原假设下评估的似然函数恰好是通常的P值。这种用IM似然值表示P值的方式揭示了P值在具有非平凡参数约束问题中可能存在的潜在缺陷。在这种情况下,如何修改P值尚不明确,而IM似然值的修改可以通过Ermini Leaf和Liu(2012)中描述的方法轻松实现。

在假设检验文献中,有许多替代P值的方法,至少部分原因是由于解释P值的困难。例如,Jim Berger(及其合著者)建议将P值转换为贝叶斯因子或后验概率进行解释;例如,Sellke、Bayarri和Berger(2001)强烈推荐他们提出的“(-ep log p)”调整。然而,P值不太可能从教科书和应用工作中消失,因此与提供一种替代P值的方法相比,提供一种更用户友好的解释可能更有价值。借用Larry Wasserman在其博客中使用的类比:许多人驾驶技术不佳,但消除汽车并不是解决这个问题的方法。

似然值与P值之间的联系揭示了IM输出的本质。IM的置信函数和似然函数在Martin和Liu(2013a)中被理解为给定数据的证据度量。在某些情况下,似然值与P值匹配的事实是有用的,这表明人们可以像使用P值一样使用IM似然值进行推理。似然值、P值和一些客观贝叶斯后验概率之间的对应关系表明,IM框架实际上可能为稳健、客观、概率推断提供了一个统一的视角。

https://www3.stat.sinica.edu.tw/sstest/oldpdf/A24n411.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热搜爆了,王菲耳环再出圈,同款售价3000元,窦靖童发文

热搜爆了,王菲耳环再出圈,同款售价3000元,窦靖童发文

21世纪经济报道
2026-02-16 23:14:43
今日看点|谷爱凌大跳台再冲金,隋文静/韩聪力拼自由滑

今日看点|谷爱凌大跳台再冲金,隋文静/韩聪力拼自由滑

北青网-北京青年报
2026-02-16 07:54:06
为啥不许大陆收台?特朗普说了实话:中国一旦统一,将颠覆全世界

为啥不许大陆收台?特朗普说了实话:中国一旦统一,将颠覆全世界

董董历史烩
2026-02-16 22:09:22
CBA进步最大的5名本土球员!3将闯进国家队,1人场均22+6成得分王

CBA进步最大的5名本土球员!3将闯进国家队,1人场均22+6成得分王

老叶评球
2026-02-16 16:16:56
基翁:阿森纳需要埃泽,看看厄德高的伤病情况就知道了

基翁:阿森纳需要埃泽,看看厄德高的伤病情况就知道了

懂球帝
2026-02-16 23:21:06
1224万人次!南京,挤爆了!

1224万人次!南京,挤爆了!

宝哥精彩赛事
2026-02-16 14:04:31
新华社消息|应急管理部紧急召开调度会督促加强烟花爆竹各环节安全监管

新华社消息|应急管理部紧急召开调度会督促加强烟花爆竹各环节安全监管

新华社
2026-02-16 10:33:33
打委内瑞拉容易,收委内瑞拉难

打委内瑞拉容易,收委内瑞拉难

云石
2026-01-03 22:57:12
刚刚,DeepSeek V4基准测试泄露!疑似明天发布,全场惊呼新王归来

刚刚,DeepSeek V4基准测试泄露!疑似明天发布,全场惊呼新王归来

呼呼历史论
2026-02-16 20:10:28
美国一封密信直接送到对岸,马英九站出来了:历史的时刻已经到来

美国一封密信直接送到对岸,马英九站出来了:历史的时刻已经到来

吃货的分享
2026-02-16 07:55:23
王毅和1米98的德国总理默茨比身高

王毅和1米98的德国总理默茨比身高

大象新闻
2026-02-15 23:47:09
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
近代日本为什么能反超中国?是日本人更优秀?不,重点在这2项

近代日本为什么能反超中国?是日本人更优秀?不,重点在这2项

老范谈史
2026-01-21 21:24:58
我从油车换到电车后,终于明白:还有那么多人不换车,不是傻,而是聪明

我从油车换到电车后,终于明白:还有那么多人不换车,不是傻,而是聪明

刘哥谈体育
2026-02-16 20:29:51
詹姆斯:在洛杉矶举行的全明星赛对我来说毫无意义

詹姆斯:在洛杉矶举行的全明星赛对我来说毫无意义

本泽体育
2026-02-16 09:17:05
金银,又跳水

金银,又跳水

第一财经资讯
2026-02-16 12:39:06
下一个库尼亚!曼联疯抢 5000 万神童!利物浦截胡悬了

下一个库尼亚!曼联疯抢 5000 万神童!利物浦截胡悬了

奶盖熊本熊
2026-02-16 06:07:15
听说闫学晶炫富导致中央戏剧学院的管理层都被团灭了!

听说闫学晶炫富导致中央戏剧学院的管理层都被团灭了!

达文西看世界
2026-02-15 20:25:40
突然暴跌!北京降了!价格再下跌!

突然暴跌!北京降了!价格再下跌!

美丽大北京
2026-02-13 16:41:07
马斯克:编程或将在今年消亡

马斯克:编程或将在今年消亡

界面新闻
2026-02-15 14:15:44
2026-02-17 00:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1225文章数 18关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

亲子
旅游
时尚
健康
手机

亲子要闻

笑了半天!妈妈不会带娃,于是去找她妈妈!网友:再往上数没人了

旅游要闻

巨型“彩马”驰骋上海夜空 上千架无人机浪漫烟花交相辉映

记录最近收获很大的一次深度链接

转头就晕的耳石症,能开车上班吗?

手机要闻

华为Mate 80系列首登春晚竖屏直播,独家机位捕捉舞台侧精彩互动

无障碍浏览 进入关怀版