![]()
在公共卫生监测的漫长时间轴上,我们追踪着疾病的发生与发展。一个核心问题始终萦绕:疾病的流行趋势是铁板一块,还是分阶段、有节奏地演变?一项重大干预措施的实施,是否真的在数据上留下了“印记”?
传统回归模型如同一个“一根筋”的画家,只能用一支画笔(一条直线或曲线)描绘整个趋势。
而Joinpoint回归则是一位“识时务”的大师,它能发现数据中的转折,用多支画笔(多条线段)更真实、更精细地还原出疾病流行的动态史诗。本文将从零开始,为你深度解读这位“大师”的工作原理。
J oinpoint回归,又名分段线性回归。其基本思想非常直观:通过引入一个或多个“连接点”,将整个时间序列分割成若干区间,并对每个区间分别进行线性回归拟合。
1998年Kim等首次提出Joinpoint回归模型,该模型的核心思想是根据疾病分布的时间特征建立分段回归,通过若干连接点将研究时间分割成不同区间,并对每个区间进行趋势拟合和优化,进而更详细地评价全局时间范围内不同区间特异性的疾病变化特征。
Joinpoint回归模型由美国国立癌症研究所肿瘤控制与人口科学部开发,在肿瘤发病率和死亡率趋势研究领域得到广泛地应用
![]()
如上图所示,相比于一条直线(全局模型),由Joinpoint生成的折线显然能更贴切地反映数据在不同时期的变化特征。
每一个拐点,都可能对应着一个重要的公共卫生事件或社会变迁。
![]()
Joinpoint回归最常用的模型是对数线性模型,因为它能直接输出具有明确公共卫生意义的指标——年度变化百分比。
对于一个包含 k个连接点的模型,其回归方程可表示为:
![]()
让我们来拆解这个看似复杂的方程:
y:因变量,通常是发病率、死亡率等指标。
x:自变量,即时间变量(如年份)。
β₀:截距项。
β₁:第一个时间区间的斜率(基础斜率)。
τ₁ … τₖ:模型需要估计的连接点(即拐点发生的具体时间)。
δ₁ … δₖ:斜率的变化量。在连接点 τᵢ之后,斜率将在 β₁的基础上增加 δᵢ。
(x - τᵢ)⁺:这是一个断点函数。当x > τᵢ时,其值为(x - τᵢ);当x ≤ τᵢ时,其值为 0。这个函数是实现分段拟合的关键。
通俗地讲,这个模型就是在说:在第一个连接点 τ₁之前,趋势由 β₁决定;过了 τ₁点,趋势就变成了 (β₁ + δ₁);过了 τ₂点,趋势进一步变为 (β₁ + δ₁ + δ₂),以此类推。
![]()
确定连接点的过程和数量,是Joinpoint回归的统计精髓,绝非主观臆断。
1. 网格搜索法:寻找最优拐点位置
对于可能成为连接点的每一个时间点,模型都会计算其拟合的误差平方和。网格搜索法就像一张精密的网格,系统性地遍历所有可能的分段方案,最终选择那个拟合误差最小的方案,从而确定连接点的最优位置。
2. 置换检验:确定“几个拐点”最合适——防止过度拟合
是不是连接点越多越好?绝非如此!过多的连接点会使模型过于复杂,甚至去拟合数据中的随机噪声(过度拟合)。那么,多少个连接点才是“恰到好处”的呢?
Joinpoint软件默认采用蒙特卡洛置换检验这一稳健的方法来解决这个问题。它的基本流程是:
原假设(H₀):模型有 k个连接点就足够了。
备择假设(H₁):模型需要 k+1个连接点。
检验过程:通过数千次(默认4500次)的数据随机置换(模拟),计算出一个P值。如果P值小于显著性水平(如0.05),则拒绝原假设,认为增加一个连接点能显著改善模型拟合效果,然后继续测试增加下一个连接点的必要性。
这个过程反复进行,直到找到那个“增加连接点也不再带来显著改善”的模型为止。这种方法有效避免了人为选择的主观性,保证了结果的客观性。
![]()
模型最终的输出结果中,最具解读价值的是两个指标:
1.第一是年度变化百分比(APC):用于描述每个独立时间段内的趋势快慢。其计算公式由对数线性模型的斜率 β₁推导而来:
如何判断趋势是否显著?看t检验及其P值或者看APC的95%置信区间。如果区间不包含0,则认为该时间段内的上升(APC>0)或下降(APC<0)趋势具有统计学意义。
2.第二是平均年度变化百分比(AAPC):当整个研究期间存在多个趋势段时,我们需要一个指标来概括全局的平均变化速度。
AAPC应运而生,它是以各时间段的长度(权重)对各个区间的APC进行加权平均计算得出的:
![]()
AAPC提供了一个简洁的“整体故事”,便于对不同人群、不同地区或不同时期的长期趋势进行比较。
![]()
1. 主要应用领域
肿瘤流行病学:评估癌症发病/死亡率的长期变化,分析筛查项目、新疗法引入的效果。
传染病监测:追踪疫苗普及后传染病发病率的变化趋势。
公共卫生政策评估:验证控烟、限酒等政策是否在数据上产生“拐点”效应。
2. 重要注意事项
数据要求:时间序列不宜过短,通常需要10年以上的数据,且每个趋势段内至少应有4-5个数据点,否则模型识别能力会减弱。
关联≠因果:Joinpoint回归能提示趋势变化的可能时间点,并将其与历史事件关联,但不能证明因果关系。合理解释必须结合流行病学背景知识。
模型假设:使用对数线性模型时,默认率的对数与时间呈线性关系,在实际分析中需留意这一假设是否合理。
3.总结
Joinpoint回归通过其独特的分段拟合思想和严谨的统计检验,将我们从对趋势的笼统认知,带入到对疾病动态演变的精细化解读阶段。它帮助我们回答的不再仅仅是“总体是升是降”,而是“在什么时候、以何种速度、发生了怎样的转变”。
掌握了这些原理,你就拿到了理解Joinpoint回归的钥匙。在下一篇文章中,我们将手把手带你实操美国国家癌症研究所(NCI)的Joinpoint软件,从数据准备、参数设置到结果解读,让你真正将这一强大工具应用于实际工作之中!敬请期待。
![]()
![]()
编辑:普通疾控人 | 审核:诗酒趁年华
文章来源 | 原创
说明 | 转载只为分享,如有侵权联系删除
©版权声明 | 部分信息和图片来自公开网络
转载请注明
再次转载请注明出处
![]()
科普健康 | 宣传疾控
本号为多位疾控机构从业者运营
重点关注国内外健康事件
致力于疾控科普
在做好科普服务大众的同时
做好疾控机构的宣传
让更多的人了解疾控,拥抱健康
欢迎加「小编」微信(cdcjkr126com)
本文具体说明
本文为原创内容,文章为个人理解所学,不涉及疫情信息及内部保密数据,发表的目的为自我总结及给有需求的人士学习使用。如有不妥之处,欢迎联系小编修改、删除。
更多精彩视频,尽在“CDC疾控人”视频号
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.