贝叶斯推断与频率学派推断在生物模型中的比较:准确性、不确定性与可识别性的对比分析
https://arxiv.org/pdf/2511.15839
Comparing Bayesian and Frequentist Inference in Biological Models: A Comparative Analysis of Accuracy, Uncertainty, and Identifiability
![]()
![]()
摘 要
数学模型在生态学和流行病学中的推断与预测中发挥着重要作用,但结果依赖于所采用的估计框架。本文在三个生物模型和四个数据集上比较了贝叶斯方法与频率学派方法:洛特卡–沃尔泰拉(Lotka–Volterra)捕食者–猎物动力学模型(哈德逊湾数据)、广义逻辑模型(肺损伤数据和2022年美国猴痘疫情数据),以及SEIUR流行病模型(西班牙的COVID-19疫情数据)。为确保公平比较,两种方法均采用正态误差结构。我们首先评估了结构可识别性(structural identifiability),以确定哪些参数理论上可从数据中恢复。随后,我们使用四个指标评估了实际可识别性(practical identifiability)和预测性能:平均绝对误差(MAE)、均方误差(MSE)、95%预测区间(PI)覆盖率,以及加权区间评分(WIS)。对于同时拥有猎物和捕食者数据的Lotka–Volterra模型,我们分析了三种观测情景:仅观测猎物、仅观测捕食者,以及两者同时观测。频率学派工作流通过MATLAB中的QuantDiffForecast(QDF)实现,该方法利用非线性最小二乘法拟合常微分方程(ODE)模型,并通过参数化自助法(parametric bootstrap)量化不确定性。贝叶斯工作流则通过BayesianFitForecast(BFF)实现,该方法利用Stan平台进行哈密顿蒙特卡洛(Hamiltonian Monte Carlo)采样,生成后验分布,并提供诸如Gelman–Rubin ˆR统计量等诊断指标。结果表明,在数据丰富、观测充分的情境下(例如肺损伤和猴痘的广义逻辑模型,或Lotka–Volterra模型中同时观测到两个物种时),频率学派推断表现最佳;相比之下,当潜变量不确定性高、数据稀疏或部分观测时(如西班牙COVID-19的SEIUR模型),贝叶斯推断更具优势。结构可识别性分析进一步阐明了这些模式:完全可观测性可提升两种框架的性能,而观测受限则无论采用何种方法都会限制参数的可恢复性。本比较分析为根据数据丰富度、可观测性以及不确定性量化需求选择合适的推断框架提供了实用指导。
1 引言
基于常微分方程(ODE)的数学模型是理解和预测生态学与流行病学动态的重要工具[1, 2, 3]。在过去十年中,基于模型的预测在应对重大公共卫生危机中发挥了关键作用。在COVID-19大流行期间,预测结果指导了资源分配和社会隔离政策的制定[4, 5, 6, 7, 8, 9, 3]。美国疾控中心(CDC)的FluSight挑战赛利用模型优化流感疫苗分发和公共卫生信息传播[10, 11, 12]。在西非和刚果民主共和国(DRC)的埃博拉疫情中,模型用于预测传播模式并评估干预措施的有效性[13, 14, 15, 16, 17, 18]。最近,针对猴痘(mpox)的预测模型被用于预测其传播趋势并评估防控措施[19, 20, 21, 22]。在生态学领域,捕食者–猎物模型有助于预测种群动态并为保护策略提供依据[23]。这些应用表明,可靠的预测依赖于准确的参数估计[24, 25, 26]。
然而,从数据中恢复有意义参数的能力关键取决于可识别性(identifiability)——即模型参数是否能从现有观测数据中唯一确定[27, 28, 29]。当数据稀疏、模型过度参数化或参数间存在强相关性时,可识别性可能失效,从而导致误导性的推断和不可靠的预测。近期研究表明,诸如疫苗接种行为、免疫持续时间以及数据完整性等因素,既塑造了疫情的发展轨迹,也影响了参数估计的可靠性[30]。理解可识别性如何与估计框架相互作用,对于确保基于模型的预测具有可解释性和可重复性至关重要。结构可识别性(structural identifiability)或实际可识别性(practical identifiability)的限制,即使在模型和数据完全相同的情况下,也可能导致两种推断框架产生不同的结果。
目前,该领域主要采用两种估计范式:贝叶斯方法与频率学派方法。频率学派方法通常通过优化似然函数或最小化目标函数(如观测值与预测值之间平方差之和)来校准ODE模型[31, 32, 33, 34]。这些方法使用梯度下降或Levenberg-Marquardt等算法,假设测量误差服从特定分布(如高斯分布或泊松分布),并通过自助法(bootstrapping)技术量化不确定性[35, 36, 37, 38, 39, 40, 41, 42]。当数据丰富且质量较高时,频率学派方法计算效率高,通常表现良好[43, 25]。QuantDiffForecast(QDF)工具箱实现了这一工作流,用于拟合模型并生成带有不确定性量化的预测[44]。
相比之下,贝叶斯方法应用贝叶斯定理,将参数的先验分布与观测数据的似然函数相结合,生成后验分布,从而显式地纳入不确定性[45, 46, 47, 48, 49, 50, 51, 52]。这类方法通常使用马尔可夫链蒙特卡洛(MCMC)算法近似后验分布,提供全面的参数不确定性度量和可信区间[53, 54, 55, 56, 57, 58]。贝叶斯方法能更好地探索复杂的参数空间,避免陷入局部最优,并有效处理不完整或噪声较大的数据[59, 60, 61]。Stan等工具促进了贝叶斯估计与预测,支持严格的不确定性量化和模型验证[62, 63, 64, 26, 65, 66]。BayesianFitForecast(BFF)工具箱实现了该工作流,并包含Gelman–Rubin ˆR统计量等诊断指标。
尽管两种范式已被广泛使用,但以往的比较研究常常在模型、似然函数或预处理步骤上存在差异,使得难以将观察到的性能差异归因于估计框架本身[67]。为填补这一空白,我们在标准化条件下对贝叶斯与频率学派推断进行受控比较:使用相同的模型、相同的正态误差结构,以及统一的数据预处理流程。我们分析了三个系统和四个数据集,代表了不同复杂度和可观测性水平:洛特卡–沃尔泰拉(Lotka–Volterra, LV)捕食者–猎物模型(哈德逊湾猞猁–野兔数据)、用于肺损伤和2022年美国猴痘暴发的广义逻辑模型(GLM),以及用于西班牙第一波COVID-19疫情的SEIUR流行病模型[23, 68, 69, 70]。对于LV模型,我们分析了三种观测情景(仅猎物、仅捕食者、两者同时观测),以评估部分可观测性对参数恢复的影响。
我们整合了结构可识别性分析,以确定哪些参数理论上可从数据中恢复,从而将数据本身的固有限制与算法限制区分开来[71, 72, 73]。随后,我们使用四个指标评估实际可识别性与预测性能:平均绝对误差(MAE)、均方误差(MSE)、95%预测区间(PI)覆盖率,以及加权区间评分(WIS)[74, 75, 76, 25, 26, 77]。
本研究的目标是:(i) 比较贝叶斯与频率学派推断在预测精度上的差异;(ii) 评估不确定性校准效果与诊断性能;(iii) 将观测到的性能差异与结构可识别性及实际可识别性在完全观测与部分观测条件下的表现联系起来。这为根据数据丰富度、可观测性以及不确定性量化需求选择合适范式提供了实用指导[26, 25]。
本文其余部分组织如下:第2节描述本研究分析的四个数据集,包括哈德逊湾猞猁–野兔数据、肺损伤暴发数据、猴痘疫情数据以及西班牙的COVID-19数据。第3节介绍所采用的三个数学模型:Lotka–Volterra捕食者–猎物模型、广义逻辑模型和SEIUR流行病模型。第4节详述贝叶斯与频率学派的推断方法,包括似然设定、先验分布、不确定性量化流程和性能评估指标。第5节对所有模型在不同观测情景下进行结构可识别性分析,确立参数恢复的理论边界。第6节报告实证结果,包括参数估计、性能指标以及所有模型和数据集的收敛诊断。第7节讨论部分综合研究发现,阐释结构可识别性在解释性能差异中的作用,并为方法选择提供实践建议。第8节结论部分总结主要贡献及其对生物建模实践的意义。
2 数 据
![]()
![]()
2.1 哈德逊湾猞猁–野兔数据
哈德逊湾猞猁–野兔数据集包含1900年至1920年间加拿大猞猁(Lynx canadensis)和雪鞋兔(Lepus americanus)的年度种群数量记录,这些数据源自哈德逊湾公司(Hudson’s Bay Company)的毛皮回收记录[78, 79]。这些记录被用作种群丰度的代理指标,毛皮数量反映了相对种群规模。该数据集包含N = 21个年度观测值,分别对应猎物(野兔)和捕食者(猞猁)的种群数量。由于该数据集在多个种群周期内同时提供了两个相互作用物种的观测数据,因此特别适用于评估捕食者–猎物动态中的参数可识别性。该数据集已被广泛用作生态模型和参数估计方法的基准测试数据。原始数据未进行任何平滑、插值或填补处理。
2.2 肺损伤数据(EVALI)
该数据集包含2019年美国报告的电子烟或 vaping 产品使用相关肺损伤(EVALI)的周新增病例数[80, 81, 82]。此次疫情于2019年6月中旬首次被发现,病例数在夏季和秋季迅速上升,并于2019年11月前开始下降。我们分析了从2019年6月中旬至11月初约N ≈ 21周的数据,这些数据来自美国疾病控制与预防中心(CDC)《发病率与死亡率周报》(MMWR)监测系统。病例定义遵循CDC对确诊和疑似EVALI病例的标准。数据按流行病学周(MMWR周)汇总,除官方CDC报告中已包含的回填修正外,未进行额外的回填校正。该数据集代表了一次持续时间较短、具有明确峰值的疫情暴发,适合用于在清晰界定的流行病动态下测试现象学增长模型。
2.3 猴痘数据(美国,2022年)
我们分析了2022–2023年猴痘疫情暴发期间美国每周报告的新增确诊或疑似猴痘病例数,数据来源见[83, 84]。此次疫情始于2022年5月,于2022年8月达到高峰,随后在2023年初逐步下降。数据由CDC国家监测报告按MMWR周汇总而成。病例定义遵循CDC指南:确诊病例指经实验室确认为正痘病毒且样本分型为猴痘病毒的病例;疑似病例指与确诊病例有流行病学关联但未经实验室确认的病例。所分析的时间窗口对应于CDC监测仪表板中公开报告的时期(具体访问日期参见参考文献)。该数据集代表了一种在强化监测和公共卫生响应下出现的新发传染病疫情,可用于评估模型在快速演变的流行病情境中的表现。
2.4 COVID-19数据(西班牙,第一波疫情)
该数据集包含2020年2月至5月西班牙第一波疫情暴发期间每日报告的实验室确诊COVID-19新增病例数[85, 86]。数据由西班牙卫生部(Ministerio de Sanidad)官方报告汇编而成,由于疫情早期响应阶段数据可得性的限制,病例日期基于报告日期而非症状 onset 日期。西班牙第一波疫情呈现快速指数增长,于2020年3月底达到峰值,随后因实施严格的非药物干预措施(包括全国封锁)而下降。为避免后期疫情中因监测方案变更、干预政策调整及新变异株出现所带来的复杂性,我们将分析限定在第一波疫情期内。官方数据发布中明确标注的已知报告异常(reporting artifacts)已被排除。该数据集代表了一次大规模疫情,存在显著的漏报问题以及潜伏状态(暴露者和未报告的感染者),因此非常适合用于在部分可观测性和模型复杂性条件下评估不同推断方法的性能。
2.5 预处理总结
所有数据集均采用标准化流程进行处理,以确保不同推断方法之间的可比性。预处理步骤如下:
时间聚合:哈德逊湾猞猁–野兔数据按原始发表形式使用,未进行任何聚合。肺损伤和猴痘数据按周(CDC MMWR流行病学周)进行聚合,与官方监测报告一致。西班牙的COVID-19数据则按西班牙卫生部发布的每日数据进行分析。
数据类型:哈德逊湾数据集代表种群丰度(毛皮数量),而所有流行病数据集(肺损伤、猴痘、COVID-19)均表示每个报告周期内的新增病例数。对于广义逻辑模型(GLM),通过累加新增病例数得到累计病例数;模型预测通过累计病例对时间的导数与新增病例数据进行比较。
缺失值:用于模型拟合的最终时间窗口内不存在缺失值,未进行任何插补处理。
平滑处理:在参数估计或预测中未对数据应用任何平滑处理。图示中可能出于可视化目的叠加了平滑曲线,但这些平滑曲线未用于模型拟合。
时间窗口:校准与预测所用的时间窗口根据疫情阶段和数据可得性选定。各数据集的具体时间窗口在结果部分予以说明。
数据质量控制:对于COVID-19数据,明确在西班牙卫生部官方发布中标注的已知报告异常(如数据修正或延迟上报)已被排除。其他所有数据集均直接采用官方监测报告中的原始发布数据,未进行额外修正。
3 模 型
本研究采用了三种隔室型生物与流行病学模型,以全面评估两种推断方法(贝叶斯与频率学派)在参数可识别性方面的表现:(i) LV模型,用于描述捕食者–猎物相互作用及种群反馈机制;(ii) 广义逻辑模型(Generalized Logistic Model, GLM),通过非线性病例动态刻画灵活的疫情增长模式;(iii) SEIUR模型,显式追踪易感者(Susceptible)、潜伏者(Exposed)、感染者(包括已报告和未报告的 Infectious)以及康复者(Recovered)人群,以同时考虑观测到的和隐藏的传播过程。这些模型的选择旨在体现模型复杂度与数据可观测性的递进关系:从完全可观测的生态系统(LV),到结构简洁的单方程疫情模型(GLM),再到具有部分可观测性的多隔室潜变量模型(SEIUR)。这一递进结构使得我们能够系统地比较贝叶斯与频率学派推断方法在模型结构复杂性和潜变量不确定性逐步增加条件下的性能表现。
LV模型:LV方程(Lotka, 1925;Volterra, 1926, 1927)由一对一阶常微分方程(ODE)组成,用于描述两个相互作用物种的种群动态:一个捕食者和一个猎物。令 x 表示时刻 t 的猎物种群数量, y 表示捕食者种群数量。Volterra 将这两个种群的时间动态建模如下:
![]()
![]()
![]()
![]()
该模型代表了一种更为真实的流行病过程,同时包含可观测状态和隐藏状态,因此非常适合用于检验贝叶斯方法与频率学派方法在处理潜变量、参数耦合以及部分可识别性问题时的表现。
![]()
4 方法
![]()
4.1 贝叶斯推断
贝叶斯推断将先验知识与观测数据相结合,以获得模型参数的后验分布[89]。当存在先验信息,或数据稀疏、含噪或部分可观测时,这一概率框架尤为有效,因为它通过后验分布提供全面的不确定性量化[51, 49]。
4.1.1 贝叶斯定理
根据贝叶斯定理,给定数据的参数后验分布正比于先验分布与似然函数的乘积:
![]()
其中, p ( θ )
是先验分布,用于编码在观测数据之前关于参数的已有知识; p ( Y ∣ θ ) 是似然函数,表示在给定参数值下观测到数据的概率; p ( θ ∣ Y )
是在结合观测数据后得到的参数后验分布。
4.1.2 似然函数
我们假设观测误差独立同分布(i.i.d.),服从方差恒定的正态分布。对于同时观测到猎物和捕食者种群数量的LV模型,其似然函数为:
![]()
![]()
后验摘要以中位数及95%可信区间(CrIs)报告,这些区间代表后验分布的中心95%部分。在预测时,我们从后验分布中抽取参数值,针对每个样本求解常微分方程(ODE),并汇总所得预测分布,最终以中位数和95%预测区间(PIs)呈现结果。
4.1.5 计算实现
贝叶斯推断通过 BayesianFitForecast(BFF)工具箱[26]进行,该工具箱是一个专为拟合和预测基于常微分方程(ODE)的流行病模型而设计的R语言软件包。BFF工具箱提供了一套自动化工作流:根据用户指定的模型结构、先验分布和数据输入自动生成Stan代码,无需用户直接编写Stan程序。工具箱输出包括参数的后验分布、收敛诊断指标(如 R ^ R^、有效样本量ESS)、轨迹图、后验密度图,以及带有不确定性量化的预测结果。模型拟合与预测精度的性能指标(包括平均绝对误差(MAE)、均方误差(MSE)、加权区间评分(WIS)和95%预测区间覆盖率)均自动计算。
4.2 频率学派推断
频率学派估计将模型参数视为固定但未知的量,仅基于观测数据、不引入先验信息,通过优化目标函数来估计参数[92, 93]。其不确定性量化通过自助法(bootstrap)重采样程序实现。
4.2.1 参数估计
在假设观测误差服从方差恒定的正态分布(与贝叶斯方法保持一致)的前提下,参数估计通过最小化观测数据与模型预测值之间的残差平方和获得。这对应于非线性最小二乘(Nonlinear Least Squares, NLS)估计:
![]()
4.2.2 通过参数化自助法进行不确定性量化
为量化参数不确定性并构建置信区间,我们采用参数化自助法(parametric bootstrap)[92, 94]。该方法通过从拟合模型中生成合成数据集,并对每个合成数据集重新估计参数。自助法所得参数估计值的分布用于刻画抽样变异性。具体步骤如下:
![]()
![]()
4.2.3 计算实现
频率学派推断通过 QuantDiffForecast(QDF)MATLAB 工具箱实现[25],该工具箱为常微分方程(ODE)模型提供了完整的参数估计、不确定性量化和预测框架。QDF 工具箱支持多种优化算法、灵活的误差结构(正态、泊松、负二项分布)、用户自定义的 ODE 系统,以及基于自助法的自动化不确定性量化。工具箱输出包括带置信区间的参数估计值、拟合的模型轨迹、预测分布以及性能指标(MAE、MSE、WIS、95% PI 覆盖率)。
4.3 性能评估指标
![]()
4.3.1 平均绝对误差(MAE)
MAE 衡量模型预测值与观测数据之间的平均绝对偏差:
![]()
MAE 在原始数据尺度上直接衡量预测准确性。MAE 值越低,表示点预测性能越好。与 MSE 相比,MAE 对异常值的敏感性较低。
4.3.2 均方误差(MSE)
MSE 衡量模型预测值与观测数据之间的平均平方偏差:
![]()
由于平方运算,MSE 对较大误差的惩罚比 MAE 更重,因此对异常值更为敏感。MSE 值越低,表示拟合效果越好。有时会报告 MSE 的平方根(即均方根误差,RMSE),以将该指标恢复到原始数据的尺度。
4.3.3 95% 预测区间的覆盖率
95% 预测区间(PI)覆盖率用于量化落在 95% 预测区间内的观测数据点所占的比例,从而衡量不确定性校准的程度:
![]()
![]()
4.3.4 加权区间评分(WIS)
WIS 是一种合适的评分规则,通过结合“锐度”(即区间宽度)和“校准性”(对落在区间外观测值的惩罚)来评估整个预测分布的质量[77, 96]。在置信水平 α α 下,单个预测区间的区间评分(IS)定义为:
![]()
4.3.5 指标解释
MAE、MSE 和 WIS 的值越低,表明模型性能越好。对于 95% 预测区间覆盖率,其值越接近 95%,说明不确定性估计的校准效果越好。综合来看,这些指标全面评估了点预测的准确性(MAE、MSE)、分布预测的质量(WIS)以及不确定性校准程度(95% PI 覆盖率)。我们分别报告校准期(样本内拟合)和预测期(样本外预测)的这些指标,以区分模型拟合能力与预测性能。
5 结构可识别性
结构可识别性(Structural Identifiability, SI)分析用于判断在给定模型结构和观测方案的前提下,模型参数原则上是否能从理想、无噪声的系统输出观测中被唯一恢复[97, 27, 72]。若一个参数的值可通过模型方程所定义的输入–输出关系及可观测变量集合被唯一确定,则该参数是结构可识别的;反之,若多个不同的参数值产生完全相同的模型输出,则该参数是结构不可识别的——无论数据质量或数量如何,都无法唯一恢复其真实值。
结构可识别性是有意义参数估计的前提:如果一个参数在结构上不可识别,那么无论拥有多少数据或采用多么复杂的推断方法,都无法恢复其真实值[28, 98]。在隔室模型中,当仅有部分状态变量被观测时,SI 分析尤为重要,因为部分可观测性常常导致可识别性缺陷[73]。理解在不同观测情景下哪些参数是可识别的,有助于指导实验设计、为贝叶斯推断中的先验设定提供依据,并帮助解释参数估计结果。
5.1 方法
我们使用 StructuralIdentifiability.jl [72] 进行符号化的结构可识别性分析。这是一个基于 Julia 语言的软件包,采用微分代数方法来判定 ODE 模型中参数的可识别性。针对每个模型,我们分析了两种情景:(1) 初始条件(ICs)已知,即假设所有状态变量的初始值精确已知;(2) 初始条件未知,即将初始条件视为需额外估计的未知参数。区分初始条件是否已知至关重要,因为可识别性结论会因是否需要从数据中推断初始条件而显著不同[71]。
对于 Lotka–Volterra(LV)模型,我们考察了三种观测方案,以评估部分可观测性对可识别性的影响:
- LV-1(猎物和捕食者均被观测):同时观测猎物种群 x ( t ) 和捕食者种群 y ( t ) 。
![]()
5.2 结果
表2 总结了所有模型在不同观测方案和初始条件假设下的结构可识别性结果。
![]()
5.3 解释
Lotka–Volterra 模型:当捕食者与猎物的时间序列均被观测(LV-1)时,所有模型参数(α, β, γ, δ)在结构上均可识别,无论初始条件是否已知。两个物种的耦合动力学提供了足够的信息,可唯一确定所有相互作用参数。
在部分观测情况下,若初始条件未知,则会出现可识别性损失。当仅观测捕食者(LV-2)时,猎物由消耗产生的增长参数 δ 以及猎物种群轨迹 x(t) 变得不可识别。这是因为观测到的捕食者动力学仅能约束乘积项 δx(t),而无法单独区分 δ 和 x(t),从而导致结构性非唯一性。类似地,当仅观测猎物(LV-3)时,捕食率 β 和捕食者种群 y(t) 不可识别,因为猎物动力学仅能约束乘积项 βy(t)。
重要的是,当初始条件已知时,即使在部分观测情景下(LV-2 和 LV-3),所有参数均可识别。对初始猎物和捕食者种群数量的了解打破了系统对称性,使所有参数得以唯一恢复。这凸显了在生态野外研究中准确估计初始条件的价值。
广义逻辑模型:对于 GLM,观测累计病例数 C(t) 和新增病例数 dC/dt 可在初始条件已知或未知的情况下,确保所有参数(r, p, K)完全结构可识别。GLM 的单方程结构结合对状态变量及其导数的直接观测,保证了所有增长参数均可被唯一确定。这种稳健的可识别性使得 GLM 在完整病例轨迹可观测时,成为现象学疫情建模的可靠选择。
SEIUR 模型:SEIUR 模型因其多隔室结构和部分可观测性而面临显著的可识别性挑战。即使所有隔室(S, E, I, U, R, C)理论上均可观测,当初始条件未知时,仅有累计报告病例数 C、潜伏期速率 κ 和康复率 γ₁ 在结构上可识别。其余状态变量(S, E, I, U, R)及关键参数——包括总人口规模 N 和报告比例 ρ——在结构上均不可识别。
这种可识别性缺陷源于观测到的发病率数据(每日新增报告病例数)依赖于乘积项 κρE(t),而非 κ、ρ 和 E(t) 各自独立影响。多个不同的报告比例 ρ、暴露人群 E(t) 和总人口 N 的组合可能产生相同的观测病例数。未观测的未报告感染隔室 U(t) 进一步加剧了可识别性问题,因为报告与未报告感染之间的划分并未被数据直接约束。
当初始条件已知时,所有 SEIUR 参数均可识别。这强调了在存在漏报现象的流行病模型中,准确估计初始易感人群和暴露人群(例如,通过血清流行病学调查或接触者追踪数据)对于实现可靠的参数推断至关重要。
5.4 对推断的启示结构可识别性分析为解读结果部分所呈现的经验参数估计和预测结果提供了关键背景。对于 LV 模型,我们预期当两个物种均被观测时(LV-1),贝叶斯和频率学派方法均能成功恢复所有参数;但在部分观测情景下(LV-2、LV-3),由于结构可识别性受损,参数估计可能不可靠或表现出高度不确定性。
对于应用于肺损伤和猴痘数据的广义逻辑模型(GLM),其稳健的结构可识别性表明,只要数据质量足够,两种推断方法都应能产生约束良好的参数估计和可靠的预测。
对于应用于西班牙 COVID-19 数据的 SEIUR 模型,有限的结构可识别性表明,仅凭病例发病率数据无法唯一确定多个模型参数。我们预期报告比例 ρ ρ、总人口规模 N N 以及潜伏隔室的参数估计将表现出显著的不确定性,甚至非唯一性。在此情境下,贝叶斯推断可能具有优势:通过引入先验信息对原本病态(ill-posed)的反问题进行正则化;而频率学派方法在缺乏额外约束或补充数据源的情况下可能难以有效应对。
这些预测将在结果部分通过实证进行检验,我们将系统比较不同模型和观测情景下的参数估计准确性、不确定性量化效果以及预测性能。
模型、应用领域、数据来源与观测情景汇总如表3所示,本研究中所使用的模型、应用领域、数据来源及观测情景汇总如下。
![]()
6 结果
本节呈现了本研究中所有模型与数据集的参数估计结果、性能指标及收敛诊断。我们按模型组织结果,每个子章节包含贝叶斯(BFF)和频率学派(QDF)推断方法下的参数估计、预测表现及不确定性量化。结构可识别性分析(第5节)为解读这些实证结果提供了理论背景。
6.1 Lotka–Volterra 模型
我们将LV模型拟合于哈德逊湾猞猁–野兔数据,共考察三种观测情景:(1) 同时观测猎物与捕食者(LV-1);(2) 仅观测捕食者(LV-2);(3) 仅观测猎物(LV-3)。这些情景使我们能够结合第5节所展示的结构可识别性结果,评估部分可观测性如何影响参数恢复与预测性能。为增强分析深度,我们分别考察这三个独立情景:首先呈现同时拟合猎物与捕食者数据的结果;其次聚焦仅用捕食者数据拟合模型的情形;最后提供仅使用猎物数据进行拟合的结果。
6.1.1 猎物与捕食者均被观测
本节重点展示同时拟合猎物与捕食者数据的结果。
图5显示,BFF方法在捕捉数据动态方面更为有效。特别是,在应用BFF时,猎物种群的不确定性范围更合理,覆盖了所有观测数据点。此外,该方法在捕捉捕食者种群峰值方面表现出色,尤其对捕食者种群的第一个峰值实现了近乎完美的拟合。
![]()
表4显示,尽管两种方法均同时使用了两组数据,但其参数估计值存在显著差异。特别是,参数 β 在BFF中的估计值远低于QDF,甚至趋近于零。此外,参数 δ 是唯一一个在两种方法中估计值大致相同的参数。
![]()
表5证实了BFF的表现明显优于QDF这一结论。
![]()
![]()
图5展示了在同时假设猎物与捕食者数据的前提下,将哈德逊湾数据集拟合至LV模型的结果。第一行显示使用BFF方法获得的结果,第二行显示QDF方法的结果。第一列代表捕食者种群,第二列对应猎物种群。
在接下来的章节中,我们将比较两种不同拟合方法(BFF 和 QDF)的性能。由于我们在仅拟合数据集中的单一成分(捕食者或猎物)时分别应用这两种方法,因此我们预期会生成两张图,每张图分别展示一种方法的拟合结果。
6.1.2 仅使用捕食者数据
下文将呈现仅考虑捕食者数据时,将哈德逊湾数据集拟合至LV模型的结果。
![]()
下图6展示了在仅假设捕食者数据的条件下,将哈德逊湾数据集拟合到Lotka–Volterra模型的结果。第一列显示使用BFF方法获得的结果,第二列显示QDF方法的结果。
![]()
结果表明,QDF 在仅使用捕食者数据时拟合效果更好,比 BFF 更有效地捕捉了种群的关键趋势。
6.1.3 仅使用猎物数据
下文将呈现仅考虑猎物种群时,将哈德逊湾数据集拟合至 LV 模型的结果。
![]()
下图7展示了在仅使用猎物数据的假设下,将哈德逊湾数据集拟合到Lotka–Volterra模型的结果。第一列显示仅使用猎物数据时BFF方法所得结果,第二列显示仅使用猎物数据时QDF方法所得结果。
![]()
这些结果表明,QDF 在猎物种群动态建模方面更为稳健和准确,在误差指标和参数估计方面均优于 BFF。
6.1.4 不同观测情景下(仅猎物、仅捕食者、猎物与捕食者)LV 捕食者–猎物模型参数估计(α, β, δ, γ)的比较分析
下图8展示了对 LV 捕食者–猎物模型参数(α, β, δ, γ)估计值的比较分析。估计结果涵盖三种观测情景:仅猎物、仅捕食者以及猎物与捕食者同时观测。图中每个点表示参数估计的均值,水平线段表示相应的不确定性区间。为更清晰地展示小量级参数范围内的变化,横轴采用对数尺度。该比较突显了数据可得性如何影响参数的可识别性,以及不同预测方法之间估计结果的一致性。
![]()
6.1.5 LV模型中仅捕食者数据与捕食者–猎物联合数据在MAE、MSE、WIS和95% PI等性能指标上的比较
下图9评估了BFF与QDF框架在两种数据可用情景下的预测性能:(1) 仅观测到捕食者数据;(2) 同时获得捕食者与猎物数据。预测准确性通过四个指标进行评估:平均绝对误差(MAE)、均方误差(MSE)、加权区间评分(WIS)和95%预测区间(95% PI)。在所有指标上,使用完整的捕食者–猎物联合数据相比仅依赖捕食者数据均显著提升了模型性能,凸显了在动态生态系统中联合观测的价值。
![]()
6.1.6 LV模型中仅猎物数据与捕食者–猎物联合数据在MAE、MSE、WIS和95% PI等性能指标上的比较
下图10评估了BFF与QDF框架在两种数据可用情景下的预测性能:(1) 仅观测到猎物数据;(2) 同时获得捕食者与猎物数据。预测准确性通过四个指标进行评估:平均绝对误差(MAE)、均方误差(MSE)、加权区间评分(WIS)和95%预测区间(95% PI)。在所有指标上,使用完整的捕食者–猎物联合数据相比仅依赖猎物数据均显著提升了模型性能,再次凸显了在动态生态系统中联合观测的重要性。
![]()
6.1.7 不同数据情景下LV模型参数(α, β, δ, γ)的后验直方图
LV模型参数(α, β, δ, γ)的后验直方图如图S1–S6所示。这些图比较了在BFF和QDF方法下,捕食者–猎物联合观测、仅捕食者观测以及仅猎物观测三种情景的结果。每幅直方图均以均值、中位数和95%置信区间(CI)概括参数不确定性,从而揭示不同数据情景下参数的可识别性与估计精度。
具体而言,图S1–S3展示BFF方法的结果,而图S4–S6呈现QDF方法的估计结果。综合来看,这些图突显了两种方法在参数估计上的差异,同时也验证了模型能够恢复具有生物学意义的参数值。窄而尖锐的直方图(例如图S1中 α ≈ 0.4 ± 0.04)表明参数具有强可识别性且后验不确定性较低;而宽或平坦的直方图(例如图S2中仅捕食者情景下的 β 或 γ)则反映出弱可识别性——这些参数可在较大范围内变化,同时仍能拟合观测数据。
对比BFF与QDF的对应图版可见,两种方法均能恢复生物学上合理的参数值,但在数据覆盖更充分的情景下,QDF倾向于产生略窄的不确定性区间。
6.1.8 使用正态分布作为误差结构时LV模型参数的比较(BFF方法)
![]()
6.1.9 使用正态分布作为误差结构时LV模型参数的比较(QDF方法)
![]()
6.2 肺损伤的广义逻辑模型(GLM)
本节总结了将广义逻辑模型(GLM)拟合到肺损伤时间序列的结果。我们比较了模型拟合效果、参数估计、预测精度(MAE、MSE、WIS)以及95%预测区间的覆盖率。图11显示,两种方法均能很好地捕捉受影响人群的上升与下降趋势,并在峰值和下降阶段与观测数据高度吻合。在拐点附近,预测区间较窄,且两种方法之间的差异很小。
![]()
![]()
6.2.1 使用肺损伤数据对GLM模型参数估计的比较
图12展示了两种方法在参数 r 、 p 和 K 上的估计结果对比,显示出相似的点估计值和略有差异的不确定性区间宽度。图中每个点代表后验均值,水平线表示95%预测区间(PI)。该比较突显了不同方法在参数估计上的一致性,同时也揭示了其在不确定性范围上的细微差别。
![]()
6.2.2 使用肺损伤数据对GLM模型的MAE、MSE、WIS和95% PI性能指标比较
图13展示了MAE、MSE、WIS和预测区间(PI)的对比结果。结果显示,QDF在各项误差指标上 consistently(始终)取得更低的误差值,同时保持与BFF相当的PI覆盖率,表明其预测更为准确且可靠。
![]()
6.2.3 不同数据情景下GLM参数(r, K, p)的后验直方图
GLM参数(r, K, p)的后验(或抽样)直方图如图S7–S8所示。每组图汇总了BFF和QDF方法下各参数的不确定性,并报告了每个参数的均值、中位数和95%置信区间(CI)。这些图版共同支持对两种估计框架在不同数据情景下如何探索参数空间(r, K, p)进行并排比较。BFF和QDF均得到了集中的后验分布,例如 p ≈ 1.0 ± 0.02,表明这些参数具有良好的可识别性。
6.2.4 使用正态误差结构时GLM参数设定的比较(BFF方法)
![]()
6.2.5 使用正态误差结构时GLM参数设定的比较(QDF方法)
![]()
6.3 美国猴痘疫情的广义逻辑模型(GLM)
本节展示将广义逻辑模型(GLM)拟合于2022年美国猴痘疫情的结果。
图14展示了GLM对美国猴痘发病率的拟合情况:频率学派方法(QDF)和贝叶斯方法(BFF)均能捕捉到疫情的快速上升与下降趋势。第一列显示使用QDF方法得到的结果,第二列显示BFF方法的结果。
![]()
表21比较了MAE、MSE、WIS和95% PI;QDF在误差指标上更低,同时保持了相当的覆盖率。
![]()
6.3.1 使用猴痘数据对GLM模型参数估计的比较
图15比较了两种方法在参数 r r、 p p 和 k k 上的估计结果,显示出高度一致的点估计值以及略有差异的不确定性区间宽度。图中每个点代表后验均值,水平线表示95%预测区间(PI)。该比较突显了不同方法在参数估计上的一致性,同时也揭示了其在不确定性范围上的细微差别。
![]()
6.3.2 使用猴痘数据对GLM模型的MAE、MSE、WIS和95% PI性能指标比较
图16展示了误差与覆盖率指标。两种方法在全部四项评估指标(MAE、MSE、WIS和95% PI)上表现相似。MAE值几乎完全相同,表明点预测精度相当;QDF的MSE略低,说明其对较大误差的处理略优;WIS值非常接近,反映出两者预测区间的质量相近。两种方法的95%预测区间覆盖率也几乎一致,表明其不确定性量化具有同等良好的校准性。总体而言,在GLM模型应用于猴痘数据时,两种方法表现相当。
![]()
6.3.3 猴痘数据下GLM参数(r, K, p)的后验直方图
针对猴痘发病率数据,GLM参数(r, K, p)的后验直方图(BFF)和抽样直方图(QDF)如图S9–S10所示。每个图版均以均值、中位数和95%置信区间(CI)概括参数不确定性,便于在同一数据集上对BFF与QDF进行并排比较。
![]()
![]()
6.4 西班牙第一波COVID-19疫情的SEIUR模型
本节展示了将西班牙第一波COVID-19疫情数据拟合至隔室型SEIUR模型(易感者–暴露者–感染者–康复者模型)所得到的参数估计、性能指标及收敛性分析结果。
图17展示了两种框架对西班牙第一波疫情的SEIUR拟合结果;两者均能较好地追踪发病率的上升与下降趋势。
![]()
![]()
![]()
![]()
6.4.3 SEIUR参数(β₀, β₁, q₁, ρ, κ, γ₁, N)的后验直方图
图S11–S12展示了在BFF和QDF方法下SEIUR参数的分布情况。每个图版均以均值、中位数和95%置信区间(CI)概括不确定性,便于进行方法间的对比。
图S11(BFF):多个参数的后验分布相对宽泛,表明仅凭观测数据无法完全识别这些参数,存在部分可识别性。图中标注的示例包括:β₀ 中位数为2.18(95% CI [1.60, 3.09]);β₁ 中位数为1.69([1.14, 2.48]);q 中位数为0.88([0.64, 1.41]);ρ 中位数为0.60([0.28, 0.92]);κ 中位数为2.39([1.23, 3.73]);γ 中位数为1.78([1.22, 2.59])。这些较宽的区间突显了参数之间的耦合关系以及观测输出所包含的信息有限。
图S12(QDF):多个参数的分布更为集中(x轴支持范围更窄,呈单峰形态),与QDF方法下更紧致的点估计结果一致。建议将本图与图S11结合使用,以对比BFF不确定性区间最宽的位置。BFF直方图在多个参数上相对较宽,反映出部分可识别性;而QDF直方图则显示出更尖锐的集中趋势,表明其估计更为稳定。这一对比凸显了补充数据或重新参数化可能改善模型可识别性的潜力。
![]()
7 讨论
本研究对贝叶斯与频率学派推断方法在生态、临床和流行病系统中的比较分析揭示了一个清晰的实践性区分:贝叶斯方法(BFF)在不确定性量化和诊断透明度方面表现更优,而频率学派方法(QDF)通常在点预测误差指标上更低,且计算效率更高。两种框架的相对性能高度依赖于数据的丰富程度、模型的复杂性以及结构可识别性的程度。我们的研究结果表明,没有任何一种方法在所有情况下都占绝对优势;相反,最优选择取决于具体建模问题的特性。
7.1 模型特异性表现
Lotka–Volterra 模型:在 LV 模型中,三种观测情景下的表现差异显著。当同时观测猎物与捕食者种群(LV-1)时,两种方法均成功恢复了参数值:QDF 在捕食者动态上的点误差略低(MAE 2.87 vs. 4.95)(表5),而 BFF 在猎物预测区间覆盖率上达到完美(100% vs. 90.48%)(表5)。在仅观测猎物的情景下(LV-3),QDF 给出了更锐利的点预测,将 MAE 从 4.60(BFF)降至 3.30,MSE 从 27.34 降至 15.83,WIS 从 2.80 降至 2.10(表11)。然而,BFF 仍保持更优的校准性能,其预测区间覆盖率为 100%,而 QDF 为 90.48%。收敛诊断确认 BFF 的 MCMC 采样稳定,所有 LV 参数的
(表6),表明即使在部分可观测条件下,后验推断依然可靠。
结构可识别性分析(第5节)解释了上述模式:当两个物种均被观测时,参数可被唯一恢复;而在部分观测下,若初始条件未知,则会出现可识别性缺陷,这是任何推断框架都无法克服的。实证结果与 SI 预测一致,表明无论采用何种统计方法,可观测性从根本上限制了推断质量。
广义逻辑模型(肺损伤与猴痘):在应用于肺损伤和猴痘疫情的 GLM 中,QDF 在点预测准确性上始终优于 BFF,同时保持相当甚至更优的不确定性校准。在猴痘疫情中,QDF 的 MAE 更低(9.45 vs. 11.74)、MSE 更小(150.47 vs. 399.43)、WIS 更优(5.8 vs. 7.18),且预测区间覆盖率达到完美(100% vs. 97.8%)(表21)。BFF 展现出优异的收敛性
(表17 和 表22),所有参数(r, p, K)的后验均被充分采样,尽管其性能指标略逊一筹。肺损伤的结果也呈现相同的定性模式:QDF 点误差更低,同时保持良好校准的预测区间。
GLM 的强结构可识别性(第5节)解释了为何两种方法都能成功恢复参数。其单方程结构结合对新增病例的直接观测,确保了所有参数(r, p, K)在初始条件已知或未知的情况下均可被唯一识别。在此类高度可识别的情境中,QDF 的计算效率和优化导向使其在点估计上具有优势,而 BFF 的概率框架虽带来额外计算成本,却未在预测准确性上带来显著提升。
SEIUR 模型(西班牙 COVID-19):与 GLM 结果相反,在 SEIUR 模型中,BFF 在所有指标上均优于 QDF:MAE(294.57 vs. 352.30)、MSE(210,754 vs. 311,054)、WIS(211.30 vs. 250.46)以及预测区间覆盖率(94% vs. 92%)(表26)。这种性能优势的逆转反映了该模型更高的复杂性、存在潜变量隔室,以及 SEIUR 框架有限的结构可识别性。SI 分析(第5节)表明,当仅观测到报告的新增病例时,若初始条件未知,大多数参数和状态变量(S, E, I, U, R, N, ρ)在结构上不可识别,仅有累计病例数 C、潜伏期速率 κ 和康复率 γ₁ 可被识别。
在此具有挑战性的设定下,贝叶斯推断得益于先验正则化,有效约束了原本病态(ill-posed)的反问题。后验分布融合了数据似然与先验信息,使得即使在根本性可识别性受限的情况下,也能实现更稳定的参数估计和预测生成。相比之下,频率学派的优化方法在高维且约束不足的参数空间中难以有效运作,导致点估计可靠性较低,预测区间更宽。
7.2 结构可识别性的作用结构可识别性(SI)分析为理解为何不同模型和观测情景下的推断性能存在差异提供了关键洞见。对于 LV 模型,全局可识别性要求同时观测猎物与捕食者;部分观测会导致参数非唯一性,这是 BFF 和 QDF 均无法解决的问题(表2)。对于 GLM,其在所有观测方案下均具有强可识别性,从而确保两种框架都能实现可靠的推断。而对于 SEIUR 模型,严重的可识别性缺陷限制了参数恢复能力,无论采用何种推断方法——尽管贝叶斯先验能在一定程度上提供正则化优势。
这些发现强调:结构可识别性设定了从数据中所能获知信息的根本极限。无论统计框架多么先进,都无法唯一恢复结构上不可识别的参数。因此,在开展实证建模之前,应首先进行 SI 分析,以明确数据能够回答哪些问题、不能回答哪些问题。
7.3 实践启示
我们的研究结果为在贝叶斯与频率学派推断框架之间做出选择提供了实用指导:
在以下情况下使用频率学派方法(QDF):(1) 数据丰富且质量高;(2) 模型在结构上可识别;(3) 计算速度至关重要;(4) 主要目标是最小化点预测误差;(5) 模型复杂度为低至中等。GLM 的应用(如肺损伤和猴痘)正是这些条件的典型体现。
在以下情况下使用贝叶斯方法(BFF):(1) 数据稀疏、含噪或部分观测;(2) 模型包含潜变量或未观测隔室;(3) 结构可识别性受限;(4) 全面的不确定性量化至关重要;(5) 可获得先验信息以约束推断;(6) 需要通过收敛诊断(如)确保推断可靠性。SEIUR 模型在西班牙 COVID-19 数据中的应用即为此类情境的代表。
可同时提升两种方法性能的策略包括:(1) 扩大观测覆盖范围(例如同时测量猎物与捕食者,而非仅一个物种);(2) 获取准确的初始条件估计;(3) 引入辅助数据源以打破参数非唯一性;(4) 采用基于 SI 分析的实验设计,确保所关注的参数是可识别的。
![]()
7.4 局限性与未来方向
本研究通过标准化模型结构、观测方案和误差分布,以隔离推断框架本身的影响。尽管这一设计有助于进行清晰的比较,但仍存在若干局限性需加以考虑。首先,我们为两种方法均假设了正态误差结构;若采用其他分布(例如针对计数数据的负二项分布),可能会改变方法间的相对性能。其次,我们对每个模型进行了独立分析;若采用分层或多层级结构,可能更有利于贝叶斯推断。第三,我们的结构可识别性(SI)分析基于理想、无噪声的数据;在真实噪声水平下的实际可识别性值得进一步研究。
未来研究可探索混合推断策略,将基于优化方法的计算效率与贝叶斯抽样的不确定性量化优势相结合。基于 SI 分析的实验设计可在数据收集前确定最优的测量策略。引入机器学习方法,如神经常微分方程(Neural ODEs)[99]或物理信息神经网络(physics-informed neural networks),可能带来互补优势。将本比较扩展至空间显式模型、基于智能体的模拟以及随机流行病模型,将进一步拓宽这些发现的适用范围。
8 结论
基于常微分方程(ODE)的数学模型是理解和预测生态与流行病系统动态的重要工具。模型推断的可靠性对于准确的参数估计和合理的可识别性评估至关重要。本研究系统比较了贝叶斯与频率学派推断框架在三个生物模型——LV 捕食者–猎物动力学、广义逻辑模型(GLM)和 SEIUR 流行病模型——上的表现,并应用于四个涵盖生态与流行病领域的实际数据集。
我们的分析表明,贝叶斯方法与频率学派方法并无绝对优劣之分;最优框架取决于数据特征、模型结构以及结构可识别性的程度。当数据丰富、模型可识别性良好且优先考虑计算效率时,频率学派方法(通过 QDF 实现)表现优异,这在肺损伤和猴痘疫情的 GLM 应用中体现为更优的点预测精度。而当数据稀疏或含噪、模型包含潜变量隔室、且全面的不确定性量化至关重要时,贝叶斯方法(通过 BFF 实现)更具优势,这在西班牙 COVID-19 疫情的 SEIUR 模型中得到了验证。
结构可识别性分析被证明是实现有意义推断的关键前提。我们利用 StructuralIdentifiability.jl 进行的符号化可识别性分析表明,可观测性从根本上限制了参数恢复能力:在 LV 模型中,同时观测捕食者与猎物种群可实现全部参数的识别;而部分观测则导致可识别性缺陷,即使借助统计方法也无法克服,除非初始条件已知。同样,SEIUR 模型在仅观测报告病例时的有限可识别性,解释了为何两种方法均面临参数不确定性问题,尽管贝叶斯先验提供了一定的正则化优势。
将结构可识别性分析与实证推断相结合,可形成一套有原则的生物建模工作流:第一,开展 SI 分析,确定在计划观测条件下哪些参数理论上可被恢复;第二,根据数据特征选择匹配的推断框架——当可识别性强且数据丰富时使用频率学派方法,当可识别性弱或数据有限时使用贝叶斯方法;第三,在 SI 约束的背景下解读实证结果,认识到没有任何统计方法能唯一恢复结构上不可识别的参数。
对于需要在推断框架间做出选择的实践者,我们建议:(1) 当最小化点预测误差和计算成本是首要目标、数据质量高且模型结构可识别时,使用频率学派方法;(2) 当不确定性量化至关重要、可获得先验信息、模型包含未观测状态或可识别性受限时,使用贝叶斯方法;(3) 通过提升观测覆盖度、获取准确的初始条件估计、以及采用基于 SI 的实验设计,来同时改进两种方法的性能。
本比较研究深化了我们对统计推断框架在生物建模情境中表现的理解,并为方法选择提供了实用指导。通过将推断方法与问题特性相匹配,并以可识别性理论为基础进行结果解读,建模者能够获得可靠、可复现且科学上可辩护的结果,从而有效支持生态管理与公共卫生决策。
原文链接: https://arxiv.org/pdf/2511.15839=28.78
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.