来源:丁香科研
在你阅读过的医学研究、临床回顾或观察性分析中,有没有发现这样的描述:
「我们使用了倾向性评分匹配(PSM)和逆概率加权(IPTW)方法,以平衡基线特征。」
听起来很高大上?其实,这些「术语」背后,藏着统计学界抵御「偏倚」的王牌武器。
今天我们就来一次真正「有干货」的深入剖析,讲清楚什么是 PSM 与 IPTW 、它们的原理、应用场景和常见误区,并结合最新文献实例,教你如何用好它们,让你的研究更「可信」!
什么是基线不平衡?为什么我们要在意?
在医学和流行病学研究中,我们常常需要评估某种治疗或暴露因素对结局的影响。然而,现实世界的数据往往存在混杂因素,直接比较治疗组和对照组可能会得出偏倚的结论。在非随机对照研究(Observational Study)中,比如我们研究某种治疗方法(如使用硫胺素)是否降低 ICU 死亡率,如果治疗组更重症、更年长,那就不公平了。
即便结果显示治疗组病死率更高,也可能是因为他们本身病得更重,而不是治疗无效!
这就是「基线特征不平衡」带来的偏倚。我们必须想办法「纠正」这种不公平。
工具一:倾向性评分匹配(PSM)
什么是 PSM?
简单来说,PSM 就是:
利用统计模型,先根据基线特征预测每个人「被治疗的可能性」(即倾向性评分),再让「治疗组」和「对照组」中这些可能性相近的人进行「一对一」配对,只分析这部分「相似人群」。
♀️举个例子:
现在有 100 个接受治疗的病人,200 个未接受治疗的病人。通过年龄、性别、血压等信息计算倾向性评分后,选出 200 人中与这 100 人评分最相似的 100 人,配对完成,再分析他们的结局。
好处:
配对后,两组「像极了随机分组」,干扰因素更少。
可用SMD(标准化差异)或 P 值评估配对效果(SMD < 0.1 被认为理想)
- 会丢掉样本!无法配对的病例会被剔除。
配对方法需精细设计(最近邻、卡钳值设定等)
1、计算倾向性评分:利用逻辑回归模型,基于患者的基线特征(如年龄、性别、血压等)预测其接受治疗的概率。
2、匹配治疗组与对照组:采用最近邻匹配、卡钳匹配(Caliper Matching)等方法,确保匹配后的两组倾向性评分分布相似。
3、评估匹配效果:通过 P 值或标准化均值差(SMD)检查匹配后基线特征是否平衡(SMD < 0.1 表示平衡良好)。
4、比较匹配后的结局:仅分析匹配成功的样本,计算治疗效果。
工具二:逆概率加权(IPTW)
IPTW 和 PSM 的区别:
如果说 PSM 是「找最像的人配对」,那么 IPTW 就是:
「给每个人赋予一个权重,让你说话的『声音』代表你那类人的集体。」
♀️举个例子:
现在有 100 名接受治疗的患者和 200 名未接受治疗的患者。我们对每个人计算倾向性评分。通过倾向性评分计算权重,我们能够使治疗组和对照组在基线特征上尽可能相似,然后再比较心脏病发作风险。
好处:
- 保留所有样本,不丢数据!
适合样本量不均衡的情况
构建更接近「伪随机」的研究环境
⚠️注意:
极端倾向性评分可能导致权重过大,影响结果稳定性:IPTW 的权重公式看似简单,但隐藏玄机。倾向评分接近 0 或 1 时,权重可能变得极大,需使用截断权重或稳定权重(Stabilized IPTW)来提高稳定性。
IPTW 的实现步骤:
1、计算倾向性评分:同样基于逻辑回归模型预测治疗概率。
2、计算权重:治疗组的权重 = 1 / 倾向性评分;对照组的权重 = 1 / (1 - 倾向性评分)
3、评估加权效果:检查加权后的基线特征是否平衡(P > 0.05或SMD < 0.1)。
4、分析加权数据:使用加权回归或生存分析估计治疗效果。
为什么说加权后,治疗组和对照组的患者的基线特征更加平衡
假设有 6 名患者,其中 3 名接受治疗,3 名未接受治疗。我们根据每个患者的特征计算了倾向性评分
倾向性评分↑ ,权重↓
倾向性评分 ↑ ,权重↑
治疗组中有很多高倾向性评分的患者(普遍存在),也有较少部分低倾向评分的患者(稀疏)
对照组中有很多低倾向性评分的患者(普遍存在),也有较少部分高倾向评分的患者(稀疏)
那么通过给治疗组高倾向性评分的患者较低的权重,给对照组低倾向性评分的患者较低的权重,从而可以在分析中更加平衡这两个组的基线特征。
为什么加权后结果是小数
基本思想:通过加权调整自变量的分布,使得不同组之间的自变量分布相似,从而消除其对因变量的影响。计算公式如下:
Wi=(Zi/Pi)+(1−Zi)/(1−Pi)
其中 Wi 是第 i 个个体的权重,Zi 是该个体是否接受了治疗,Pi 表示该个体接受治疗的概率。
在计算 IPTW 时,需要将个体的概率 Pi 作为分母,而在实际应用中,Pi 通常是一个小于 1 的小数。因此,根据数学知识,分子除以一个小于 1 的分母会得到一个大于分子的商,也就是加权结果会是小数。基线表中显示的「N」是加权后总和的结果,而不是原始样本的整数计数,因此可能会出现小数。
举个例子:如果一个人接受治疗的概率为 0.7,那么他的权重将会是:Wi= (1 / 0.7) + (0 / 0.3) ≈ 1.43
总结:IPTW 的核心是重建人群结构,加权后的「样本人群」并不是整数,而是「加权后的估算值」,比如某个亚组的「人数」可能是 12.6 人。
结果如何展示:P值还是SMD?
✅倾向性方法评价指标:
- P值法
:P < 0.05 表示有差异,P > 0.05 表示平衡。
- SMD法
:SMD < 0.1 通常认为差异可以接受,更稳健!
真实研究案例演示
案例一:硫胺素与 ICU 死亡率(PMID: 35814219)
研究使用PSM和IPTW同时进行稳健性分析。
原始人群中,硫胺素显著降低 ICU 死亡(HR = 0.57)
PSM 后结果仍显著(HR = 0.62),IPTW 后也是(HR = 0.65)
说明:不同方法得出相似结果 → 研究结论稳健可信
案例二:早期使用昂丹司琼降低住院死亡率(PMID: 35568908)
匹配后 SMD 从 0.2 降至 0.05
配对前变量差异显著,配对后全部趋近于平衡
使用SMD 图示辅助展示匹配质量,令人信服
⚔️IPTW vs PSM:如何选择?
特点
PSM
IPTW
是否丢数据
适合样本不平衡
一般
更好
分析对象
匹配后子集
原始全体样本
实施复杂度
较高(需匹配方法)
较低(仅权重计算)
是否易解释
相对抽象
稳健性验证
可配合敏感性分析使用
同上
建议:两者并非替代关系,而是互补关系!
最理想的是:同时使用两种方法,验证结果一致性。
写论文时,如何表达清楚?
PSM 方法描述模板:
使用 Logistic 回归模型建立倾向性评分模型,基于年龄、性别、BMI 等协变量,采用最近邻匹配法,卡钳值设为 0.01,按 1:1 比例匹配。通过 SMD 和 P 值评估匹配效果。
IPTW 方法描述模板:
根据倾向性评分构建 IPTW 权重,治疗组权重 = 1/PS,对照组权重 = 1/(1-PS)。使用加权后数据进行 Logistic 回归 /COX 回归分析,评估处理效果。
结语:你现在还敢忽略偏倚控制吗?
在这个「证据为王」的时代,一项研究是否可信,往往不是看结果有多「震撼」,而是看它的设计是否合理、是否控制了混杂因素。
而 PSM 与 IPTW,正是你研究中的护城河。
我们长期为科研用户提供前沿资讯、实验方法、选品推荐等服务,并且组建了 70 多个不同领域的专业交流群,覆盖PCR、细胞实验、蛋白研究、神经科学、肿瘤免疫、基因编辑、外泌体、类器官等领域,定期分享实验干货、文献解读等活动。
添加实验菌企微,回复【】中的序号,即可领取对应的资料包哦~
【2401】论文写作干货资料(100 页)
【2402】国内重点实验室分子生物学实验方法汇总(60 页)
【2403】2024 最新最全影响因子(20000+ 期刊目录)
【2404】免疫学信号通路手册
【2405】PCR 实验 protocol 汇总
【2406】免疫荧光实验 protocol 合集
【2407】细胞培养手册
【2408】蛋白纯化实验手册
【2501】染色体分析方法汇总
【2502】国自然中标标书模板
【2503】WB 实验详解及常见问题解答
【2504】DeepSeek 论文写作常用口令
【2505】中国科学院期刊分区表(2025 年最新版)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.