![]()
系列简介
这是我们一系列原创技术贴,从易到难,每天学习一点。所有内容均为疾控数据分析、科研论文相关,或者说很多和现在的热门监测预警相关,所以我们这个系列就叫“监测预警基础”。
今天是第22节,在前面两节Serfling回归的基础上,讲一讲更为常用实用的调整Serfling回归。
我们上一节讲完Serfling回归模型之后,
大家是不是觉得很简单,豁然开朗。
但最后我们又讲了传统Serfling回归模型的那么多缺陷,你是不是又有些垂头丧气呢?
![]()
好不容易学会了一种方法,居然有这么多缺点,到底还能不能用?
答案是,当然可以。
传统Serfling回归模型我们讲了这几节,不是白讲的,就是为今天打基础。
传统Serfling回归模型有那么多的缺陷,那就会出来高人将其完善,或者叫调整,这就是我们今天要讲的调整Serfling回归模型。
![]()
核心理念:从“主观剔除”到“客观筛选”
传统方法的矛盾在于:要建立一个纯净的“正常”基线,就得先知道哪些是“异常”的流行期数据;而判断“异常”的依据,又恰恰依赖于一个尚未建立的“正常”基线。这形成了一个循环,使得剔除过程非常主观,严重依赖分析者的经验。
调整模型的智慧在于,它不再要求我们“事先”知道答案,而是让数据通过迭代计算,自动告诉我们最优的基线在哪里。其核心思想是:“正常”的数据点,应该能被模型很好地拟合;而“异常”的流行点,本身就是模型的“噪声”或“离群值”。
![]()
整个过程就像是一个不断自我优化的算法,其流程图和步骤如下:
第一步:首次尝试,建立基准
不对数据做任何主观剔除,使用全部历史数据进行第一次Serfling回归拟合。这会得到一个初始模型(Model 1),计算其拟合优度R₁²,并得到每个时间点的预测值 Ŷ。
关键操作:比较每个点的实际值Y和预测值Ŷ。只保留那些 Y < Ŷ 的数据点。这些点可以理解为模型“预测得比较准、甚至高估了”的点,它们更可能代表“非流行”的基线状态。而Y > Ŷ的点,是模型低估的点,很可能就是流行期的异常高点。
第二步:模型竞赛,择优录用
用上一步筛选出的“较正常”数据,拟合第二个模型(Model 2),得到R₂²。
现在的核心判决就是比较R₁²和R₂²。
如果 R₁² > R₂²:这说明把那些“异常高点”留在数据集里,反而让模型整体的解释力更高。这可能意味着疾病的“正常”水平本身就包含了一定的波动,或者所谓的“异常”并不极端。此时,选择第一个模型(用全数据拟合的)作为最终模型,预警阈值就直接用其预测值Ŷ。当实际值Y超过预测值Ŷ时,发出预警。
如果 R₁² < R₂²:这说明剔除一批高值点后,模型对剩余数据的拟合更好了,验证了我们“存在异常点”的猜想。但剔除得是否足够“干净”呢?需要进入迭代优化循环。
第三步:迭代优化,逼近最优基线
进入一个循环,目标是找到R²最高的模型。从第二轮开始,筛选标准变得更严格:不再与预测值Ŷ比较,而是与预测值的95%置信区间上限Ŷₙ比较。这是一个更宽、更保守的边界。
循环操作:在上一轮模型的基础上,只保留 Y < 上一轮模型的95%置信上限Ŷₙ 的数据点,然后用这批“更加纯净”的数据拟合新模型。比较新旧模型的R²。
循环终止条件:当最新一次拟合的R²不再提高(即低于或等于前一次模型的R²)时,循环停止。选择R²达到最高的那个模型作为最终模型,并以该模型对应的95%置信上限Ŷₙ作为正式的预警阈值。
这个过程可以简单用下面的流程图理解。
![]()
![]()
1.客观自动化,可重复性强:整个过程中,哪些点被定义为“流行期”数据,是由模型根据R²比较的客观标准自动筛选的,避免了人为划定流行期的主观偏差。任何人用同一套数据、同一个程序,都会得到完全相同的结果。
2.动态确定阈值,逻辑更严谨:最终预警阈值(可能是预测值Ŷ,也可能是其95%置信上限Ŷₙ)是根据模型竞赛结果动态决定的,与所选定的最优基线模型严格匹配,逻辑上自洽。
3.提升预警性能:通过这种方法找到的基线,能更纯粹地反映疾病的“背景水平”,因此在此基础上设置的预警阈值通常能更早、更灵敏地捕捉到真正的流行起始,同时保持良好的特异性。
4.应对复杂情况:当疾病的流行季节发生偏移或病原体变异导致模式改变时,这种数据驱动的方法比“固定剔除每年第X-X周”的传统方法更具适应性。
总结来说,调整Serfling回归模型的核心贡献,是将基线构建从一个依赖先验知识的、主观的“预处理步骤”,转变为一个内生于模型拟合过程的、客观的“优化算法”。它代表着建模思想从“人告诉机器规律是什么”到“让机器从数据中发现最优规律”的重要进步。
![]()
![]()
编辑:普通疾控人 | 审核:诗酒趁年华
文章来源 | 原创
说明 | 转载只为分享,如有侵权联系删除
©版权声明 | 部分信息和图片来自公开网络
转载请注明
再次转载请注明出处
![]()
科普健康 | 宣传疾控
本号为多位疾控机构从业者运营
重点关注国内外健康事件
致力于疾控科普
在做好科普服务大众的同时
做好疾控机构的宣传
让更多的人了解疾控,拥抱健康
欢迎加「小编」微信(cdcjkr126com)
本文具体说明
本文为原创内容,文章为个人理解所学,不涉及疫情信息及内部保密数据,发表的目的为自我总结及给有需求的人士学习使用。如有不妥之处,欢迎联系小编修改、删除。
更多精彩视频,尽在“CDC疾控人”视频号
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.