模型权重和多模型推理的基础
MODEL WEIGHTS AND THE FOUNDATIONS OF MULTIMODEL INFERENCE
https://qerm514.github.io/website/references/Link_Barber_2006_model_weights.pdf
概述:
本文从贝叶斯视角出发,深入探讨多模型推理(multimodel inference)的理论基础,特别聚焦于模型权重(model weights)的本质与解释。作者强调:
模型权重应被理解为后验模型概率:在“真实模型位于所考虑模型集合中”的条件下,模型权重代表该模型为真的概率。这一解释不仅最简洁,而且是唯一在数学上严格成立的解释,从而自然地将模型选择与模型平均统一于贝叶斯框架之下。
AIC权重隐含了不合理的先验假设:尽管AIC及其权重在生态学和野生动物研究中被广泛应用,但其隐含的先验模型权重(即“K-L先验”)极度偏向复杂模型——常常将几乎所有先验概率分配给参数最多的模型。这揭示了AIC倾向于选择复杂模型的根本原因。
提倡显式设定先验,推荐加权BIC作为替代:作者建议研究者放弃AIC所隐含的默认先验,转而采用加权BIC(Bayesian Information Criterion)方法,通过显式指定更合理、更符合研究者信念的先验模型概率(如奥卡姆先验、均匀先验等)来进行模型平均。
贝叶斯因子是核心,但需谨慎处理:精确的多模型推断应基于贝叶斯因子,而AIC和BIC仅为其近似。贝叶斯因子对参数先验敏感,尤其在使用模糊先验比较不同复杂度模型时。作者建议通过合理设定参数先验(如基于线性预测变量总先验方差的分配)来缓解此问题。
- 强调科学推理的严谨性
:多模型推断是强大的工具,但不应成为数据质量差或研究设计粗糙的借口。模型分析的结果主要用于 生成假设 ,科学进步依赖于 假设生成与后续验证的迭代过程 。最终,模型的价值应由其 预测未来数据的能力 而非仅拟合当前数据的优劣来评判。
总之,本文主张将多模型推断牢固地建立在透明、明确且可检验的贝叶斯基础之上,以克服AIC等频率学派近似方法的隐含缺陷,推动生态与野生动物研究中统计实践的深化与完善。
![]()
摘要
野生动物生物学和生态学中的统计思维深受AIC(赤池信息准则)引入的影响,AIC被用作模型选择的工具,也是模型平均的基础。本文主张采用贝叶斯范式作为多模型推断的更广泛框架,在该框架中,模型平均与模型选择自然地联系在一起,并且AIC相关工具的性能可在此框架下得到自然评估。使用AIC时隐含的先验模型权重被发现高度倾向于复杂模型:在某些情况下,模型集合中除参数最多(最复杂)的模型外,其他所有模型在先验上几乎被完全忽略。我们建议采用加权BIC(贝叶斯信息准则)作为AIC的一种计算上更简便的替代方法,该方法基于显式设定的先验模型概率,而非接受AIC所隐含的默认先验。然而,我们指出,这两种方法都只是对精确贝叶斯因子(Bayes factors)使用的近似。我们讨论并举例说明了贝叶斯因子所涉及的技术困难,并提出了在逻辑回归模型选择背景下规避这些困难的方法。我们的实例突显了AIC加权对复杂模型的偏好倾向,并提示在使用BIC计算近似后验模型权重时需谨慎行事。
关键词:AIC;赤池信息准则;贝叶斯推断;贝叶斯信息准则;贝叶斯因子;BIC;模型平均;模型选择;褐鳟(Salmo trutta)。
引言
倘若模型不存在不确定性,那该多好。在这样一个理想世界中,只会存在一个模型;数据分析人员将处于令人羡慕的境地——只需根据已有数据选择最佳的模型参数拟合方法即可。这种选择将完全由统计学家的理论所决定,而该理论将模型视为生成数据过程的精确描述。在这一理想世界中发展统计方法是完全恰当且标准的做法;我们随后将再次回到这一主题。然而,在野生动物和生态学应用中,许多数据集都是观测性质的。可用的协变量众多,模型选择因此成为推断过程中的重要组成部分。
显然,若先用数据选择模型,然后又在后续推断中表现得好像该模型是事先选定的一样,这是错误的做法:这样做未能承认模型选择过程中存在的不确定性,并且“乱伦式”地将同一组数据用于两个目的(Chatfield 1995;Draper 1995)。
赤池信息准则(AIC)定义为:AIC = –2 log(最大似然值) + 2k,其中 k 为模型中的参数个数。基于拟合优度与简约性原则,AIC 值较小的模型更受青睐。对于一组模型,其 AIC 权重与 exp(–½ AIC) 成正比。详情参见 Burnham 和 Anderson(2002)。
将 AIC 用于模型选择,以及将 AIC 权重用于模型平均,对野生动物生物学和生态学领域做出了积极贡献,为模型选择和多模型推断提供了客观基础。Burnham 和 Anderson(1998, 2002)在这方面的工作极具影响力,促使研究范式发生了重大转变,即不再将假设检验作为模型选择的工具。
然而,在生态学和野生动物研究文献中,对这些观点似乎正出现越来越多的抵制(例如 Guthery 等,2005;Richards,2005;Stephens 等,2005)。本文将从贝叶斯视角出发,对模型选择与模型平均提出一些思考。
我们同意 Burnham 和 Anderson 的观点,即必须区分(在给定模型条件下的)假设检验与模型选择过程,并且认同推动他们开展模型选择研究的哲学理念。尽管如此,我们质疑多模型推断是否最好通过 AIC 来实现。我们的立场是:贝叶斯方法为多模型推断提供了一个更广阔的框架,在该框架内,可以且应当对基于 AIC 的方法进行评估,并考虑其他替代方案。
本文结构如下:首先,我们概述贝叶斯多模型推断,引入本文后续将使用的符号和基本公式。接着,我们回应常被用来反对贝叶斯多模型推断的一项质疑,即“模型集合中包含真实模型”这一假设既不现实,也在哲学上站不住脚。我们认为,在预测中使用模型权重时,必须将其解释为后验模型概率。这一观察引出了一个问题:当使用 AIC 权重时,实际上隐含选择了哪一组先验模型权重?对该问题的回答,有助于深入理解 AIC 在多模型推断中的运行特性,从而解释其众所周知的倾向于选择高参数化模型的倾向(参见 Kass 和 Raftery,1995)。
我们建议分析人员采用加权 BIC(贝叶斯信息准则)作为 AIC 的一种计算上更简便的替代方法,该方法基于显式设定的先验模型概率,而非接受 AIC 所隐含的默认先验选择。加权 BIC(以及作为特例的 AIC)使用的是近似的而非精确的贝叶斯因子(Bayes factors),而贝叶斯因子才是将先验模型概率更新为后验模型概率的基本量度。
我们通过实例说明贝叶斯因子所面临的技术困难,并提出在逻辑回归模型选择背景下规避这些困难的方法。我们的例子突显了 AIC 加权对复杂模型的偏好倾向,并提示在使用 BIC 计算近似后验模型权重时需保持谨慎。
贝叶斯多模型推断概述
![]()
![]()
这是在模型 Mi 下,对参数先验分布取平均后的概率分布。若将其视为模型的函数,在数据固定的情况下,它可作为该模型的似然函数。用于比较模型 i 和 j 的贝叶斯因子,即为这两个模型似然值之比,即:
![]()
![]()
![]()
因此可以看出,贝叶斯因子提供了一种将先验模型概率转化为后验模型概率的机制。后验模型概率既用于模型选择,也用于模型平均:如果我们希望识别模型集合 M 中得到最强支持的模型,自然应依据这些后验概率进行选择;如果我们希望生成一个模型平均的预测,概率法则将导出
![]()
因此,在贝叶斯多模型推断(BMI)框架下,模型选择与模型平均自然地联系在一起。关于贝叶斯多模型推断的全面介绍,可参见 Draper(1995)、Hoeting 等(1999)以及 Wintle 等(2003)。
Hjort 和 Claeskens(2003)以及 Claeskens 和 Hjort(2003)探讨了频率学派的替代方法;在随后的讨论中,Raftery 和 Zheng(2003)令人信服地论证了贝叶斯方法的优越性,即使从频率学派的视角进行评估亦是如此。
最后一项背景知识对我们的讨论将有所帮助。贝叶斯信息准则(BIC)定义为:
![]()
![]()
![]()
![]()
初步反对意见的回应
有时人们声称贝叶斯多模型推断(BMI)在哲学上是不满意的,因为它要求“真实”在模型集中。我们认为这种反对意见被夸大了。
有些人可能会反对甚至存在“真实”这样的东西;其他人可能会愿意承认这样的东西可能存在,但我们永远无法识别它,如果我们遇到它。大多数人会认为真实不太可能在我们的模型集中。但在这种讨论中,虽然在哲学上引人入胜,但它对于贝叶斯模型平均的效用来说是一个红鲱鱼。将“真实在模型集中”作为条件,与为了在参数分析中开发估计量而对单个模型进行条件化一样无辜。用于计算AIC值的最大似然估计器是在假设单个模型为真的情况下得出的,无论一个人是否相信模型是数据生成机制的完美描述;估计值在这种假设的背景下被条件化解释。同样,贝叶斯模型选择和模型平均是在模型集的条件下进行和解释的,而不需要智力上的确定性认为模型集中的任何一个是真实的。
让我们暂时承认这样的东西存在,并且是一些庞大潜在模型集合 M 的一部分,其中 M 如前所述,只是一小部分。我们可以将自然的选择视为一个多项实验,从 M 中抽取单个值。它可能是真实在 M 中;也可能是其他情况。换句话说,我们可以使用贝叶斯演算来条件化自然从 M 中抽取的事件,即真实在我们的模型集中。随后更新先验概率到后验概率的过程是不变的。
但这并不意味着我们基于一个我们假定为假的假设进行分析。当然,我们在科学事业中一直在做类似的事情。Box(1976)说得很好:
统计学家知道,在自然界中从未有过正态分布,从未有过直线,然而在正常和线性假设下,他经常可以得出与有用近似相匹配的结果,这些结果在现实世界中被发现。
基于模型的统计推断所使用的方法,是在假定所考虑的模型为“真实”的前提下发展起来的。这些方法在推断上的有效应用,并不要求现实世界与模型完全吻合,而只要求模型是一个良好的近似。数学家在发展这些方法时,并不会质疑 X 是否真的是一个正态随机变量,甚至不会质疑这种东西在现实世界中是否存在。方法的应用是以该假设为条件的,这并不等同于我们相信该假设就是“真理”,而只是认为它“足够接近真理”,不至于误导我们的决策。
因此,与其说贝叶斯多模型推断“要求真实模型包含在模型集合中”,不如说贝叶斯多模型推断的运作方式是“仿佛真实模型就在模型集合中”。Berger 和 Pericchi(1996)将“真实模型在模型集合中”称为“标准的贝叶斯语言”,并指出“人们并不严格需要假设这些模型中有一个是真的”。他们建议,贝叶斯因子“应仅从数据对各个模型的相对支持程度角度来解释”。贝叶斯多模型推断将“真实模型在模型集合中”本身视为一种模型,而非对现实的陈述。
我们认为,AIC 模型平均隐式地采用了与贝叶斯多模型推断(BMI)相同的结构,即以“真实模型在模型集合中”为条件。一旦我们将模型权重视为模型概率,这一点就变得清晰起来。
模型权重即模型概率
模型权重具有非负性,且总和为 1。对于一个模型集合(例如,所有包含某个特定关注参数的模型),其权重通过将该集合中各个模型的权重相加得到。在有限结果空间中,这些正是概率测度的定义特征。因此,模型权重就是概率。但它们究竟是什么的概率?
Burnham 和 Anderson(2004:272)将使用 AIC 计算出的模型权重 wi描述为事件“模型 i 实际上是该数据的 K-L 最优模型”的概率。此处 K-L 指 Kullback-Leibler 距离;“K-L 最优模型”是指模型集合中距离“真实”最近的那个模型。鉴于 AIC 是 K-L 距离的一个估计量,Burnham 和 Anderson 所提出的这种解释是站不住脚的。假设在某种情形下,AIC 对 K-L 距离的近似达到了极高的精度,以至于模型排序毫无不确定性,并且模型集合中存在唯一的 K-L 最优模型。那么,具有最小 AIC 值的模型必然就是该 K-L 最优模型,尽管其 AIC 权重未必是 100%。因此,AIC 权重不能被解释为“模型 i 实际上是该数据的 K-L 最优模型”的概率。
![]()
![]()
请注意,这与公式(6)具有相同的形式,尽管此处没有使用表示参数为估计值的“帽号”(circumflexes)。如果参数 hi是无误差(或近乎无误差)已知的,那么公式(6)中的冒号也可以省略;在 AIC 权重的定义中,并未对参数估计的不确定性进行正式的考量。
在仅满足温和假设的条件下,可以证明:公式(7)成立当且仅当
![]()
![]()
为何这很重要
我们在本节及前一节中的观点是:在比较不同模型加权方法时,应将“真实模型是否在模型集合中”这一问题视为无关紧要而搁置一旁。关注的重点应放在模型中所作的假设以及先验模型权重所带来的后果上——无论这些权重是显式选定的还是隐式设定的;我们随后将探讨后一种可能性。
我们再次强调,贝叶斯多模型推断将“真实模型在模型集合中”本身视为一种模型,而非对现实的陈述。在此语境下,“模型的概率”始终是以某个模型集合为条件的,并可解释为该集合内各模型所获得的相对支持程度。此外,将模型权重视为模型概率,自然地建立了模型选择与模型平均之间的联系:模型的选择与加权均基于其较高的概率。
一旦我们愿意将模型权重视为概率,概率演算的全部优势便可应用于推断对象。特别是,公式(2)和(3)可用于将模型权重与先验概率联系起来。
贝叶斯推断通常始于先验概率的设定,再结合观测数据的概率,通过贝叶斯定理得到后验概率。另一方面,我们也可以利用公式(2)和(3)从后验概率反推出先验概率。这样,我们便能通过隐含的先验权重来评估一组模型权重,即探究:什么样的先验加权方案会导致这组权重成为后验模型权重。
Burnham 和 Anderson(2004)本质上已经做了这项工作,尽管他们使用的是近似式(公式5),而非精确公式(公式3)。将
![]()
![]()
这种先验在贝叶斯分析中是不传统的。贝叶斯分析的一个吸引人的特点是,在所有但病理情况下,后验推断随着样本量的增加而越来越多地受到数据的影响,而不是先验的影响。据说数据“压倒”了先验。然而,如果允许先验随着样本量的增加而变化,数据可能不会压倒先验。附录中给出了允许先验依赖于样本大小的病理效应的说明:后验均值可能是不一致的估计量,即随着样本量的增加而收敛到错误值的概率。
人们必须问,“精明”的先验是否不会产生在多模型分析中同样不理想的结果。我们的观点不是要否定AIC权重,而是要强调了解自己方法的重要性。
AIC的部分吸引力在于其计算的简单性。广义BIC权重(方程5)同样容易计算,但允许指定先验模型权重,而不是被动接受默认先验。如果使用默认先验,重要的是要充分理解这种选择的影响;如果默认先验不能合理总结先验信念,那么必须考虑其他先验。正如其他地方强调的(Anderson等人,2001),报告贝叶斯分析的一个关键组成部分是报告所使用的先验;也就是说,我们认为不加质疑地使用K-L先验是一个错误。
使用方程5计算近似后验模型权重很容易。不幸的是,在贝叶斯多模型推断中存在严重问题。在地毯下扫除这些问题是诱人的,特别是对于可能被看似数学细节所困扰的从业者。然而,未能认识到多模型推断中后验和先验之间的微妙关系可能产生深远影响。模型选择和模型平均是深奥的数学问题,没有在大量文献中就单一方法达成共识。事实上,我们不仅批评在野生动物和生态统计学中广泛使用AIC权重,还批评它们的不加批判的接受以及认为这个具有挑战性的问题已经解决的观点。
与贝叶斯多模型推断相关的困难源于参数的先验选择及其对贝叶斯因子的影响。我们在下一节中说明这些问题,然后在后续部分的示例中提出解决方案。
贝叶斯因子的问题
![]()
![]()
![]()
![]()
![]()
![]()
这一观察结果为客观贝叶斯分析提出了困难,在这种情况下,即使是模糊的、甚至不合适的先验也会被放置在参数上。在估计正态分布的均值时,一个常见的期望是将均值视为从具有无限大方差的(共轭)正态先验中抽取的样本。这种期望对于估计目的足够无害,但在多模型推断和模型选择中会引起严重问题:在存在不合适的、非信息性先验的情况下,贝叶斯因子不稳定,特别是在考虑不同模型时参数数量不同时。Berger 和 Pericchi(1998)指出,这些问题延伸到使用模糊适当先验的情况。粗略地说,我们可以将问题识别为模型具有更多参数时允许更大的先验不确定性,这反映在数据的边际分布函数中通常具有较低的值,因此在比较简单模型与更复杂模型时,贝叶斯因子倾向于较大。先验集合中的不确定性越大,问题就越严重。
所举的例子可能显得人为刻意,因为它基于一个容量为1的样本。然而,选择如此小的样本量仅仅是为了便于展示,并非造成困难的根源。对于容量为 n的样本,即对同一正态随机变量的 n个独立观测值,并采用与之前相同的模型,可以证明贝叶斯因子为:
![]()
![]()
已经进行了相当多的理论工作来解决定义稳定贝叶斯因子的问题,主要是通过为模型参数指定合理的默认先验(Berger 和 Pericchi 1996, 1998, Kadane 和 Lazar 2004)。这些问题在技术上非常复杂和困难。然而,多模型推断的贝叶斯范式相当简单,有两个组成部分。首先,先验模型权重独立于数据选择。然后,为每个模型选择参数的先验;给定数据,这些允许计算贝叶斯因子。贝叶斯因子然后与先验模型权重结合以计算后验模型权重。虽然存在技术困难,但我们认为它们并非不可克服,贝叶斯多模型推断是一种在哲学上令人满意和自洽的方法来处理模型不确定性;事实上,我们相信在贝叶斯范式之外没有有效的认识论基础来进行模型加权。在为参数选择合理的先验时,贝叶斯因子可以计算并用作从先验到后验模型权重的基础。评估所选模型权重的合理性不可避免地是一个主观过程,主观但诚实,如果选择过程透明地呈现结果。我们认为,最好将主观选择放在桌面上,并呈现一个数学上精确的分析,而不是在近似分析中忽略自动选择,并将任意性误认为客观性。
示例
我们的示例来自一项关于褐鳟(Salmo trutta)在新西兰南岛西海岸地区布鲁纳湖(Lake Brunner)一条支流中产卵的研究。
采用逻辑回归分析来建模鳟鱼在1987年6月产卵洄游期间被捕获并标记后,一年内的回捕率。研究关注的是回捕率在雄性和雌性之间是否存在差异,以及是否随鱼的初始体长不同而有所差异。
为参数选择的先验
![]()
![]()
给定参数的先验,任务是计算贝叶斯因子。我们使用马尔可夫链蒙特卡洛(MCMC)执行此计算。我们报告的结果使用可逆跳跃MCMC(RJMCMC;Green 1995)获得,该算法在程序GAUSS(Aptech Systems, Black Diamond, Washington, USA)中实现。这些计算也可以使用程序WinBUGS(Spiegelhalter等人2000)执行,代码可在线获取(见补充),尽管计算时间成本更高。获得贝叶斯因子后,可以通过方程3将模型先验转换为后验模型权重。我们还计算了最大似然估计量和BIC,以通过方程5中的加权BIC近似后验模型概率。
模型先验
我们考虑了四组模型先验。为便于比较,我们选取了 Burnham 和 Anderson 提出的 K-L 先验。此外,我们还考虑了均匀先验模型权重(即对所考察的五个模型每个赋予权重 1/5);奥卡姆权重(偏好简约模型,其先验权重与 exp[−参数个数] 成正比);以及复杂性权重(适度偏好更复杂的模型,以反映“真实情况是复杂的”这一观念,其先验权重与 exp(参数个数) 成正比)。需要注意的是,对于每一种模型参数先验设定,先验模型权重向后验模型权重的转换都涉及同一组贝叶斯因子。
贝叶斯因子的计算
在使用 MCMC 实现贝叶斯多模型推断时,将“模型”视为一个潜在的分类变量。针对每组参数先验,我们首先在模型上采用均匀先验概率进行分析,并利用马尔可夫链的输出计算近似的后验模型概率;然后利用这些均匀先验和近似的后验模型概率,对贝叶斯因子进行初步近似。为了确保五个模型都能被充分抽样且马尔可夫链充分混合,我们利用这些近似的贝叶斯因子选择一组模型先验,使其诱导出近似相等的后验模型概率,随后重新运行分析,在 100,000 次预烧期(burn-in)之后生成长度为 5,000,000 的马尔可夫链。接着,利用这些设定的先验及由此得到的近似后验模型权重,重新计算贝叶斯因子(这种调整 MCMC 算法的方法由 Carlin 和 Chib [1995] 提出)。当使用 GAUSS 软件中的 RJMCMC 实现时,这些计算耗时约 6.5 小时。模拟链足够长,通过检查链内自相关性和并行链之间的比较,表明链已良好混合;我们估计所得贝叶斯因子的误差在 ±2% 以内。我们注意到,使用 WinBUGS 编写的代码在相同链长下的运行时间约为 GAUSS 的六倍。我们所呈现的结果与使用 WinBUGS、链长为 1,000,000 时得到的结果几乎完全一致。
结果
贝叶斯因子和 BIC 近似值见表1。首先需要注意的是,对于所有考虑的先验,模型1均优于其他模型;Kass 和 Raftery(1995)将支持一个模型优于另一个模型的证据权重描述为:正向(3 < BF ≤ 20)、强(20 < BF ≤ 150)和极强(BF > 150)。模糊先验 πᵥ 因在更复杂模型中具有更大的先验不确定性,从而极大地高估了支持模型1相对于其他模型的证据;若我们使用先验方差为100,000而非1,000,则这种高估会更加严重。基于线性预测变量总先验方差划分而设定的先验 πᵥ 和 πᴰ,可避免基于 πᵥ 分析所显现的问题,并得出相似的推断。
![]()
贝叶斯因子由模型集合、参数所选的先验以及数据共同决定,但并不依赖于先验模型权重的设定。表2列出了五个模型对应的四组先验及其产生的后验分布。我们认为前三种先验(奥卡姆、常数、复杂性)反映了合理的先验不确定性水平,其中奥卡姆和复杂性先验分别代表对简约性和复杂性的适度倾向。然而,K-L 先验却将超过99%的先验权重赋予两个最复杂的模型,且其与最简单模型相比的赔率高达4621:1。使用BIC和K-L先验所得的后验权重即为AIC权重。
![]()
与K-L先验相反,前三种先验(奥卡姆、常数、复杂性)均导致大多数(>72%)后验模型权重落在常数模型上。值得注意的是,尽管K-L先验对最简单模型表现出压倒性的偏见,AIC权重仍对最简单模型(25.5%)和最复杂模型(29.6%)赋予了相当的权重,且没有任何模型在后验概率基础上显得不合理;数据似乎已成功对抗高度偏颇的先验。然而,我们更倾向于信任基于完全贝叶斯分析并采用先验 πᵤ 和 πᴰ 的结果;这些参数先验不会不恰当地影响模型间的贝叶斯因子比较(如 πᵥ 所致),也不依赖于可疑的近似方法(如BIC)。即便如此,K-L先验仍导致后验模型权重保留了其自身的偏见:最复杂模型与最简单模型之间的后验赔率分别为46.4和63.5(对应 πᵤ 和 πᴰ)。
最后,我们注意到,信息性先验 πᵤ 和扩散常数变异性先验 πᴰ 所导出的参数后验分布,本质上等同于使用模糊先验 πᵥ 所获得的结果(见表3)。许多贝叶斯实践者自然更愿意以 πᵥ 为基础进行客观贝叶斯分析;通过使用 πᵤ 或 πᴰ 可避免模糊先验对贝叶斯因子造成的不良影响,同时对模型参数估计值没有实质性影响。
![]()
总结与结论
AIC权重在野生动物与生态学应用领域的引入,是多模型推断方面一项重要且积极的发展。然而,仍有很大的改进空间:具体而言,需要更深入地理解其中隐含的假设,需要在实施过程中具备更大的灵活性,还需要在确定模型权重时更好地考虑参数不确定性。
模型平均在贝叶斯推断中具有坚实的逻辑基础;在此框架下,人们可以审视AIC权重倾向于偏好复杂模型的特性,可以选择反映其他理论倾向的替代先验权重,并可对参数不确定性进行正式的考量。
贝叶斯多模型推断要求显式设定参数先验和模型先验。贝叶斯因子集合刻画了模型和参数先验对数据所能表达的全部信息;贝叶斯因子对模型先验的选择具有不变性。
贝叶斯因子对参数先验的选择可能非常敏感,这种敏感性远高于贝叶斯估计本身。当对具有不同参数数量的模型使用模糊(vague)先验时,这种敏感性尤为明显。在备选模型涉及线性预测变量的情形下,将回归系数的总先验方差进行合理分配,似乎是应对这种敏感性的一个可行策略。
所有贝叶斯多模型推断的实现方式都涉及对参数先验和模型先验的设定;无论采用何种模型拟合方法(例如,使用可逆跳跃马尔可夫链蒙特卡洛方法[Green 1995],还是如我们WinBUGS代码中所展示的实现方式),我们所指出的关于贝叶斯因子的问题都会存在。
贝叶斯演算之美在于其透明性与精确性:后验分布完全由数据模型、参数先验和模型先验权重所决定;无需依赖精度未知的近似方法,无需依赖可疑的渐近理论,也无需隐藏假设。分析人员有责任清晰阐明选择先验的理由,并评估推断结果对这些假设的敏感性。分析人员或许希望选择偏好更复杂模型的先验,也可能持相反立场;无论哪种选择,都应明确表述。
用于支持AIC加权的K-L先验,可能比人们期望的更强烈地偏向复杂模型。在此情况下,一种计算上简便且本质上等效的方法是使用BIC权重,并配合替代的模型先验权重。
贝叶斯模型加权始于一个模型集合,以及在“真实模型位于该集合中”的前提下,每个模型为“真实”的先验概率。这一表述并不要求真实模型必须包含在模型集合中;相反,它提供了一个框架,用于在特定情境下评估各模型所获得的相对支持程度。
正如Burnham和Anderson所强调的,模型集合的选择应经过深思熟虑;如果所考虑的模型中没有一个是合理的,那么模型选择和模型平均就毫无意义。但我们如何判断模型是否合理呢?标准做法(例如拟合优度检验)是将数据与模型下数据应有的表现进行比较。归根结底,我们对一个模型的信任应取决于它对未来事件的预测能力,而非其对当前数据的拟合优度。毕竟,让我们相信牛顿万有引力理论提供了一个有用近似的,并非其背后的优美数学,而是其预测可以在全球各地的高中物理实验室中得到验证,而且确实如此。
我们的印象是,正式的模型选择与模型平均技术,已使一些生态学和野生动物研究人员倾向于认为,单个数据集的分析就足以得出确定性结论。科学家不应仅凭单一数据集的模型权重就对世界运行方式形成定论。我们认为,此类分析的主要作用在于生成假设,而多模型推断正是这一过程中的重要工具。然而,我们也认为,必须更加重视后续研究中证据的精心设计与评估;正是假设生成与模型评估的迭代过程,推动了科学思想的进步。贝叶斯范式为此提供了一种正式的信息累积与模型优化机制。
我们认为,生态学家和野生动物生物学家应当优先采用精心设计的实验,并在条件允许时尽可能开展此类实验。然而,所有分析在某种程度上都是基于模型的;设计实验的目的在于增强科学家对其所考虑模型集合的信心。多模型推断技术绝不应被视为粗略规划或草率数据收集的借口。
原文链接:https://qerm514.github.io/website/references/Link_Barber_2006_model_weights.pdf
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.