Bayesian design for sampling anomalous spatio-temporal data
采样异常时空数据的贝叶斯设计
https://link.springer.com/article/10.1007/s11222-025-10594-x
概要: 本文探讨了贝叶斯优化实验设计在复杂生态系统(如珊瑚礁监测)中的应用,提出了一种通过引入采样窗口来优化数据收集的策略。文章展示了如何利用贝叶斯方法提高时空数据采样的效率,特别适用于异常数据检测。
推荐理由: 对于研究生态监测和数据收集优化的研究者,这篇论文提供了贝叶斯方法在智能数据收集中的最新进展,具有实际操作指导意义。
摘要
从传感器阵列收集的数据对于各类系统中的决策至关重要。然而,异常值的存在可能损害从所收集数据或通过统计分析获得的信息的准确性和可靠性。本研究旨在开发一种结合异常检测方法的稳健贝叶斯最优实验设计框架,以实现高质量数据采集。我们提出一个通用框架,在寻找最优设计时包含异常生成、检测和误差评分。该方法通过两个全面的模拟案例研究进行演示:第一个研究使用空间数据集,第二个使用时空河流网络数据集。作为基准方法,我们采用了一种常用的基于预测效用函数的方法,以最小化误差为目标。结果展示了在不同设计方案下,预测准确性与异常检测性能之间的权衡。对异常稳健的最优设计可确保收集和分析更可信的数据,在理解环境等复杂系统动态方面发挥关键作用,从而支持监测、管理和响应中的决策。
关键词 异常检测 · 最优实验设计 · 稳健设计 · 传感器数据 · 时空模型 · 空间模型
1 引言
最优实验设计可被视为智能化的数据采集(Bon 等,2023)。尽管高质量数据支撑着现代社会的诸多功能,但在设计框架中考虑数据质量的方法仍显不足。原位传感器技术已彻底改变了空气、水和土壤质量等环境监测领域的数据采集方式。贝叶斯最优实验设计(BOED)作为一种基于模型的框架,通过最大化实验所获取的信息量,为优化和自动化数据采集过程提供了自然机制。本文提出一种稳健的BOED框架,将复杂的空间与时空建模与异常检测方法相结合,确保在设计点采集和分析的数据不仅提供有用信息(如准确预测),还能实现自动且可靠的异常检测。
最优设计的原则广泛应用于多个领域,包括经济学(Kuhfeld 等,1994)、生态学(Zhang 等,2018)、社会科学(Myung 等,2013;Watson,2017)、物理学(Huan 和 Marzouk,2013;Loredo,2004)以及医疗健康(Cheng 和 Shen,2005)等定量学科。最优实验设计旨在针对特定实验目标获取最大信息量,尤其在实验成本高昂(如设备和时间投入大)时尤为重要。贝叶斯最优设计具有显著优势:它通过设定效用函数明确体现实验目标,并通过对效用取期望值的方式纳入所有已知的不确定性来源。
针对时空场景,Mateu 和 Müller(2012)概述了此类情境下的数据收集方法。简要而言,Diggle 和 Lophaven(2006)提出一种基于模型的方法,用于评估多种设计类型(如“格点加邻近对”和“格点加填充”设计),以实现高效的空间预测,并在参数不确定性下比较预测性能。由于实际计算负担过重,当时未进行设计优化。Müller 等(2004)和 Fuentes 等(2007)也研究了空间预测问题,旨在在最小化监测成本的同时获得准确预测。这两项研究均指出,在计算期望效用和优化最优设计方面存在计算困难。为此,Müller 等(2004)提出采用非齐次马尔可夫链蒙特卡洛方法,同时评估并最大化期望效用;而 Fuentes 等(2007)则通过考虑最优子网络(而非全尺度最优设计)来规避这一“极为艰巨”的计算难题。Senarathne 等(2023)研究了贝叶斯设计在同时解决空间预测与参数估计中的应用,用于重新设计空气质量监测网络。值得注意的是,其通过采用近似推断方法及对预测熵进行近似,实现了计算效率的提升。然而,上述所有文献提出的实验设计方法在构建设计时均未考虑数据质量问题——在本文语境中,数据质量指数据中是否存在异常值或离群点。这表明这些方法在现实场景中的适用性可能有限。
通过最优设计方法提升数据质量仍是研究中一个鲜有探索的领域。在微阵列实验设计中,Bolstad 等(2004)在进行图像处理分析的同时考虑了基因表达数据的质量。Tsou(2010)的研究聚焦于生产系统中的最优设计,基于田口成本函数平衡了沉没成本与因工艺质量提升带来的收益增量。即使在广泛采用最优设计方法的临床试验领域,针对提升所收集数据(例如问卷数据)质量和数量的实验目标,相关研究仍十分有限(Edwards,2010)。尽管已有证据表明某些设计特征可改善数据完整性(Tourangeau 等,2004),但学界普遍认为仍需进一步研究以评估这些策略的有效性。本研究关注一个常被忽视的问题:最优设计所采集数据中潜在的异常情况。
环境监测设计带来了额外的挑战(Dobbie 等,2008)。这是由于采样高度复杂且动态变化的资源往往成本高昂且耗时,并可能随时间和空间发生变化。针对具有多重目标的复杂生态系统,已有多种统计方法和最优设计策略。特别是,Fuentes 等(2007)开发了一种空间统计方法,用于设计具有成本效益的空气污染监测网络,并考虑了大气过程的非平稳特性。针对珊瑚礁监测,也已提出自适应设计方法(Thilan 等,2023;2022)。在调查设计中,Scarpa 等(2007)采用贝叶斯方法对景观保护与改善的多属性环境措施进行估值。Buxton 等(1999)提出了一种设计最优溶剂混合物的方法,以最小化环境影响,同时平衡运行与环境约束。随后,Nikolopoulou 和 Ierapetritou(2012)综述了化学过程中供应链管理的最优设计,重点关注能效、废物管理和可持续水资源管理。这些研究共同强调了贝叶斯方法的重要性,以及在环境监测与管理中平衡准确性、成本和环境影响的必要性。尽管需求明显,但由于显著的计算挑战,尤其是在自适应场景或处理复杂模型时,贝叶斯最优实验设计(BOED)在复杂真实生态系统中的广泛应用仍相对有限(Rainforth 等,2023;Beck 等,2018)。
河流与溪流生态系统对生态栖息地和经济活动至关重要,正日益受到气候变化、污染和人类活动的威胁。传感器提供的高频数据为理解和管理溪流属性的时空动态提供了机会。与许多空间应用不同,河流网络采集的数据表现出高度复杂且多层次的空间依赖性,受气候梯度、生物迁移能力以及网络内部理化和生物过程等因素影响(Peterson 等,2013)。因此,河流网络系统建模必须考虑复杂的协方差关系,这还源于分支状网络拓扑结构和水流的单向性,导致物质、养分和生物体向下游被动移动。直到最近,BOED才被应用于河流网络系统(Buchhorn 等,2023a),但仅限于空间模型。为应对优化监测站点位置的空间设计挑战,一种常见方法是将潜在位置离散化,然后从中进行选择。本文探索将BOED扩展至时空河流网络模型。
传感器数据中的异常可能指示极端天气、污染或设备故障等关键事件。因此,快速自动识别此类异常并确定其可能来源的方法对于保障生命和重要资产至关重要。特别是,区分由传感器故障引起的异常(本文定义为技术性异常)与极端河流事件异常至关重要。在河流网络水质监测背景下,原位传感器数据可能表现出多种技术性异常类型(由多种原因导致),例如:大幅突增、低变异性(持续恒定值)、恒定偏移、突变、数据振荡、漂移以及小幅突增(Leigh 等,2019)。现有异常检测方法包括自回归模型,如自回归积分滑动平均模型(ARIMA)(Leigh 等,2019),以及涉及人工神经网络(ANN)、随机森林(Rodriguez-Perez 等,2020)和长短期记忆网络(LSTM)(Jones 等,2022)的机器学习方法。ARIMA仅捕捉时间依赖性,已被证明适用于理解水质参数的趋势和周期性模式。机器学习技术则考虑了单变量和多变量依赖性。然而,这些方法难以提供对水质动态的全面理解。Santos-Fernandez 等(2023)的后续工作同时考虑了空间和时间变化,展示了空间感知模型(后验预测分布、有限混合模型和隐马尔可夫模型)在捕捉跨多个地点发生的极端河流事件方面的有效性。此外,Buchhorn 等(2023b)使用图神经网络模型将传感器间关系建模为学习得到的图,进而预测未来传感器行为。然而,该方法难以准确追溯异常的源头传感器。Talagala 等(2020)提出了一种适用于非平稳流式时间序列数据的基于特征的新方法Oddstream,该方法利用核密度估计在二维投影上结合极值理论计算阈值边界,以检测时间序列数据中的离群值。
将贝叶斯设计原则与优化的异常检测性能相结合,代表了推动实验设计在现实世界中应用的一条新颖且前景广阔的途径。本文考虑了原位在线质量控制系统在系统监测中的常见应用场景。在河流网络等复杂系统中,战略性布置的传感器能更有效地识别异常数据,及时发现并处理偏差,从而确保所收集数据的可靠性。
本文其余部分结构如下:第2节(背景)介绍贝叶斯设计及本研究案例中所采用的统计模型类别;第3节(方法)提出结合异常检测的贝叶斯设计通用框架,并以一个具体实现示例结束该节;第4节(案例研究)在空间和时空背景下探讨所提出方法,并评估设计性能;最后,第5节进行讨论并提出未来研究方向的建议。
2 背景
本节首先介绍贝叶斯最优实验设计(BOED)的基本概念。随后描述了本文的动机案例研究,即优化在河流网络中布置原位传感器位置的设计方案。接着给出了用于河流网络的时空模型细节,并概述了本文优化过程中所采用的坐标交换算法。
2.1 贝叶斯设计
对于现实问题,寻找贝叶斯最优设计往往具有挑战性,因为期望效用通常难以处理,且设计空间可能是高维的。接下来,我们将介绍应对这些挑战的技术,以及本文所考虑的统计模型。
2.2 贝叶斯河流网络模型
通常,时空线性回归模型的表达形式为:
2.2.1 河流网络的空间协方差
为解决这一问题,提出了“尾向上”(tail-up,公式(6))和“尾向下”(tail-down,公式(7))模型(Ver Hoef 和 Peterson,2010)。指数型尾向上模型将自相关性限制在具有水流连接的站点之间,其空间权重基于水流体积和分支结构。而指数型尾向下模型则同时考虑了水流相连和不相连的站点,允许即使在无直接连接的位置之间也存在空间依赖性:
2.2.2 时空河流网络模型
在对河流网络进行时空分析时,我们考虑在固定空间位置 s=1,…,S上,于时间点 t=1,…,T处重复观测。Santos-Fernandez 等人(2022)研究了多种适用于河流网络系统的时空模型。在他们的工作中,比较了两种主要方法:(1)描述性模型,构建完整的时空协方差矩阵;(2)动态模型,涉及空间过程的演化。研究发现,第二种方法(也称为向量自回归空间方法)能够充分捕捉真实河流网络数据的自相关性,同时具有计算上的优势。因此,我们采用动态模型,并指出本文提出的实验设计方法也可通过其他协方差形式实现。
根据 Santos-Fernandez 等人(2022)的研究,对于连续响应变量,我们假设如下贝叶斯层次模型:
如前所述,另一种建模时空自相关的方法是构建完整的时空协方差函数。然而,上述动态模型通过使用空间协方差矩阵而非联合的时空协方差矩阵,在计算上更为高效,因为这类方法的计算瓶颈在于对大型协方差矩阵的求逆(Santos-Fernandez 等,2022)。值得注意的是,Santos-Fernandez 等(2022)的研究表明,这两种模型在数学上是等价的。
2.3 寻找最优设计
3 方法
本节介绍我们提出的新方法,该方法将异常检测融入贝叶斯最优设计框架中,以提升在整个网络中检测异常的能力。首先概述该方法的整体框架,随后结合环境监测的具体背景,详细描述其各个组成部分。最后,给出一个示例实现,该实现将在后续的案例研究中使用。
3.1 结合异常检测的贝叶斯设计
以下算法作为评估设计效用的通用框架。该方法整合了异常生成与检测技术,构成一个双目标效用函数,用于评估设计目标(例如准确预测或参数估计)以及异常检测的有效性。
3.1.1 通用框架
3.1.2 异常生成
在空间情况下,当 T=1时,我们设 l=1。异常根据指示矩阵生成,例如通过向正常数据添加噪声。
3.1.3 异常检测
本节介绍在后续案例研究中实现的两种异常检测方法。我们注意到,其他算法也可被考虑(Ahmed 等,2016;Nassif 等,2021;Pang 等,2021;Chandola 等,2009)。
空间异常检测:算法2中描述的方法通过计算每个点的k近邻均值,并基于训练数据中传感器的标准差设定阈值,有效识别空间数据中的异常,若某点超出这些设定范围,则标记为异常。超参数 k在计算前预先设定。
时空异常检测:Oddstream(Talagala 等,2019)是一种异常检测方法,利用极值理论和基于特征的时间序列分析,用于在非平稳流式时间序列数据中早期发现异常。附录中的算法4描述了Oddstream方法,其首先进行训练阶段,提取特征、对特征进行归一化、应用主成分分析(PCA)、估计子空间的概率密度,并确定其中的异常阈值。随后的在线异常检测阶段则利用该阈值识别测试数据“窗口”中的异常。
异常检测的性能指标:为评估异常检测方法的性能,我们基于混淆矩阵M建立以下指标:
其中,TN(真阴性)表示正确识别的正常样本数量,而FP(假阳性)表示将正常样本错误分类为异常的数量。对于我们的实验目标,高特异性是理想的,因为这意味着异常检测算法能够基于在设计位置 d收集的数据 y之间学习到的关系,有效识别并保留“良好”数据。如果特异性较低,则算法会错误地将大量正常数据点标记为异常,从而导致有价值信息的丢失。这种情况在假阳性成本较高的场景中尤为严重,例如检查远程原位传感器所涉及的交通和时间成本。
为完整性起见,我们在评估和比较优化设计时,还考虑以下性能指标:
其中,TP(真阳性)表示正确分类的异常数量,FN(假阴性)表示被错误分类为正常样本的异常数量。灵敏度与特异性之间存在权衡关系:提高特异性通常会导致灵敏度下降。
最终,我们采用马修斯相关系数(MCC, Matthews 1975)进行整体评估,因为它能提供一个具有信息量的分类器性能度量,尤其适用于类别不平衡的情况。MCC值越大,表明分类器在灵敏度和特异性两方面表现越好,其得分范围在-1到+1之间,定义如下:
3.1.4 双重目标效用函数
本文引入的效用函数在以下两方面之间进行权衡:在指定位置上后验预测均值的准确性(逆均方根误差,irmse),以及在 n 个采样数据位置 d 上异常检测的特异性(sp)。这种权衡可表示为两个组成部分的乘积:
3.2 示例实现
4 案例研究
在本节中,我们首先在空间示例上验证所提出的方法,然后在我们所关注的时空河流网络示例上进行研究,每个案例均配备相应的异常检测方法。
4.1 空间模拟
4.2 时空河流模拟
关于克里金方法推导的更多细节可参见 Santos-Fernandez 等(2022)。我们假设协方差矩阵采用式(6)所示的尾向上指数模型,并使用以下先验分布:
例如,当自动移除的异常百分比从89.9%上升至96.3%时,保留的良好数据百分比在所有情况下均保持较高水平,超过97%。研究结果表明,最优设计能够有效识别异常,同时保留大量优质数据,从而提升数据质量,并展现出对不同污染水平的鲁棒性。
5 讨论与结论
准确可靠的数据对于理解自然过程、预测环境变化以及做出科学决策至关重要(Kang等,2016;Armour等,2009)。政策制定者、研究人员以及环境机构通常依赖河流数据,以制定与水资源管理、环境保护和灾害应对相关的关键决策。例如,若无法区分由传感器故障引起的异常与极端河流事件所导致的异常,则可能导致应对措施偏离方向、资源浪费,并使解决环境问题的方案失效(Leigh等,2019)。
在河流网络的原位监测数据中,可能出现多种类型的异常,表现为数据中的异常模式或不规则现象。这些异常可能包括水温的突然升高或降低、流量的意外变化、污染物浓度的异常水平,或泥沙沉积的不规则情况。此外,异常也可能源于传感器故障、数据传输错误或人为干扰。检测这些异常对于维护河流网络传感器所采集数据的准确性和可靠性至关重要,有助于及时应对环境变化、污染事件或设备故障。因此,自动化的异常检测方法对于及时识别这些不规则现象、确保所收集数据的完整性具有重要意义。
在数据质量保障的异常检测背景下,高特异性意味着异常检测算法能够非常有效地将非异常数据点正确识别为正常。这一点很重要,因为它可以最小化在来自原位传感器的数据中,由于潜在异常来源多样而错误丢弃或修改正常数据的风险。然而,过度强调特异性可能导致模型忽略数据中的异常,从而在过程中遗漏关键异常。在极端天气事件等情况下,当异常的确定性至关重要时,准确性等指标可能更具相关性。在我们的研究背景下,关注特异性有助于过滤掉一些离群值,但根据具体场景,考虑其他异常检测指标同样至关重要。未来的工作也可以扩展该方法,以允许在设计中考虑数据缺失的可能性。
贝叶斯最优实验设计(BOED)通常计算成本较高,这主要源于期望效用函数的不可解性。因此,数值方法常被用来近似这一期望,其中最广泛使用的方法是蒙特卡洛积分。如公式(12)所示,采用这种方法需要模拟大量先验预测数据集,并为每个数据集计算后验分布。基于每个后验分布,评估效用函数,并形成对期望的近似。本文提出的方法在计算上效率较高,这得益于所采用的高效异常检测器,以及避免了为每次蒙特卡洛抽样计算后验分布。后者得益于引入了预测效用以及后验预测均值存在解析解的可用性。然而,这种解析解在一般情况下并不可得,因此其他效用函数或异常检测器也将成为研究重点。在这些情况下,可能需要考虑新的方法来寻找设计,特别是对于本文未涉及的复杂模型。例如,Prangle 等人(2023)提出了无需后验计算的贝叶斯设计方法,该方法基于期望费舍尔信息,并采用对抗性方法以避免使用此类信息带来的已知缺陷,例如某些参数的边际后验分布过于扩散。此外,机器学习方法已被证明可在贝叶斯设计中提供计算效率。例如,Foster 等人(2021)通过神经网络近似最优设计函数,以实现在顺序设计环境中的快速部署。这些或相关方法的发展可能有助于在不同场景下高效评估我们提出的双用途效用函数。值得注意的是,这些方法可整合到我们提出的框架中,用于实现具有异常检测功能的贝叶斯设计。
尽管我们的研究重点是针对河流网络传感器数据的预测和异常检测进行贝叶斯最优实验设计,但该新方法具有更广泛的含义和应用前景。空间和时空模型被广泛应用于从经济学到环境科学、城市规划、流行病学和气象学等多个研究领域。最优设计在数据采集和分析中至关重要,能揭示空间和时间上的复杂动态及相互作用。结合异常检测的智能设计是一个令人兴奋的新概念,可为研究人员和政策制定者提供宝贵的工具,广泛应用于追踪疾病传播、制定更有效的城市发展策略,以及更准确地预测极端天气模式。
在本研究中,提取了 m = 14 个特征:均值、方差、剩余部分的方差变化、使用滑动窗口的水平突变、方差变化、线性强度、曲率强度、尖峰强度、时间序列的突发性、最小值、最大值、四分位距均值与算术均值的比值、矩,以及数据中低于和高于全局均值部分的均值之比(Hyndman 等,2015;Fulcher,2012)。
原文链接:https://link.springer.com/article/10.1007/s11222-025-10594-x
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.