临床研究需要处理「基线不平」问题时：PSM 和 IPTW 怎么选|样本|对照组|治疗组|iptw

临床研究需要处理「基线不平」问题时：PSM 和 IPTW 怎么选

2025-04-22 17:53:07　来源: 生物学霸

浙江举报

分享至

来源：丁香科研

在你阅读过的医学研究、临床回顾或观察性分析中，有没有发现这样的描述：

「我们使用了倾向性评分匹配（PSM）和逆概率加权（IPTW）方法，以平衡基线特征。」

听起来很高大上？其实，这些「术语」背后，藏着统计学界抵御「偏倚」的王牌武器。

今天我们就来一次真正「有干货」的深入剖析，讲清楚什么是 PSM 与 IPTW 、它们的原理、应用场景和常见误区，并结合最新文献实例，教你如何用好它们，让你的研究更「可信」！

什么是基线不平衡？为什么我们要在意？

在医学和流行病学研究中，我们常常需要评估某种治疗或暴露因素对结局的影响。然而，现实世界的数据往往存在混杂因素，直接比较治疗组和对照组可能会得出偏倚的结论。在非随机对照研究（Observational Study）中，比如我们研究某种治疗方法（如使用硫胺素）是否降低 ICU 死亡率，如果治疗组更重症、更年长，那就不公平了。

即便结果显示治疗组病死率更高，也可能是因为他们本身病得更重，而不是治疗无效！

这就是「基线特征不平衡」带来的偏倚。我们必须想办法「纠正」这种不公平。

工具一：倾向性评分匹配（PSM）
什么是 PSM？

简单来说，PSM 就是：

利用统计模型，先根据基线特征预测每个人「被治疗的可能性」（即倾向性评分），再让「治疗组」和「对照组」中这些可能性相近的人进行「一对一」配对，只分析这部分「相似人群」。

‍♀️举个例子：

现在有 100 个接受治疗的病人，200 个未接受治疗的病人。通过年龄、性别、血压等信息计算倾向性评分后，选出 200 人中与这 100 人评分最相似的 100 人，配对完成，再分析他们的结局。

好处：

配对后，两组「像极了随机分组」，干扰因素更少。
可用SMD（标准化差异）或 P 值评估配对效果（SMD < 0.1 被认为理想）

⚠️注意：

会丢掉样本！无法配对的病例会被剔除。
配对方法需精细设计（最近邻、卡钳值设定等）

⚠️PSM 的实现步骤

1、计算倾向性评分：利用逻辑回归模型，基于患者的基线特征（如年龄、性别、血压等）预测其接受治疗的概率。

2、匹配治疗组与对照组：采用最近邻匹配、卡钳匹配（Caliper Matching）等方法，确保匹配后的两组倾向性评分分布相似。

3、评估匹配效果：通过 P 值或标准化均值差（SMD）检查匹配后基线特征是否平衡（SMD < 0.1 表示平衡良好）。

4、比较匹配后的结局：仅分析匹配成功的样本，计算治疗效果。

工具二：逆概率加权（IPTW）
IPTW 和 PSM 的区别：

如果说 PSM 是「找最像的人配对」，那么 IPTW 就是：

「给每个人赋予一个权重，让你说话的『声音』代表你那类人的集体。」

‍♀️举个例子：

现在有 100 名接受治疗的患者和 200 名未接受治疗的患者。我们对每个人计算倾向性评分。通过倾向性评分计算权重，我们能够使治疗组和对照组在基线特征上尽可能相似，然后再比较心脏病发作风险。

好处：

保留所有样本，不丢数据！
适合样本量不均衡的情况
构建更接近「伪随机」的研究环境

⚠️注意：

极端倾向性评分可能导致权重过大，影响结果稳定性：IPTW 的权重公式看似简单，但隐藏玄机。倾向评分接近 0 或 1 时，权重可能变得极大，需使用截断权重或稳定权重（Stabilized IPTW）来提高稳定性。

IPTW 的实现步骤：

1、计算倾向性评分：同样基于逻辑回归模型预测治疗概率。

2、计算权重：治疗组的权重 = 1 / 倾向性评分；对照组的权重 = 1 / (1 - 倾向性评分)

3、评估加权效果：检查加权后的基线特征是否平衡（P > 0.05或SMD < 0.1）。

4、分析加权数据：使用加权回归或生存分析估计治疗效果。

为什么说加权后，治疗组和对照组的患者的基线特征更加平衡

假设有 6 名患者，其中 3 名接受治疗，3 名未接受治疗。我们根据每个患者的特征计算了倾向性评分

倾向性评分↑ ，权重↓

倾向性评分 ↑ ，权重↑

治疗组中有很多高倾向性评分的患者（普遍存在），也有较少部分低倾向评分的患者（稀疏）

对照组中有很多低倾向性评分的患者（普遍存在），也有较少部分高倾向评分的患者（稀疏）

那么通过给治疗组高倾向性评分的患者较低的权重，给对照组低倾向性评分的患者较低的权重，从而可以在分析中更加平衡这两个组的基线特征。

为什么加权后结果是小数

基本思想：通过加权调整自变量的分布，使得不同组之间的自变量分布相似，从而消除其对因变量的影响。计算公式如下：

Wi=(Zi/Pi)+(1−Zi)/(1−Pi)

其中 Wi 是第 i 个个体的权重，Zi 是该个体是否接受了治疗，Pi 表示该个体接受治疗的概率。

在计算 IPTW 时，需要将个体的概率 Pi 作为分母，而在实际应用中，Pi 通常是一个小于 1 的小数。因此，根据数学知识，分子除以一个小于 1 的分母会得到一个大于分子的商，也就是加权结果会是小数。基线表中显示的「N」是加权后总和的结果，而不是原始样本的整数计数，因此可能会出现小数。

举个例子：如果一个人接受治疗的概率为 0.7，那么他的权重将会是：Wi= (1 / 0.7) + (0 / 0.3) ≈ 1.43

总结：IPTW 的核心是重建人群结构，加权后的「样本人群」并不是整数，而是「加权后的估算值」，比如某个亚组的「人数」可能是 12.6 人。

结果如何展示：P值还是SMD？
✅倾向性方法评价指标：

P值法
：P < 0.05 表示有差异，P > 0.05 表示平衡。
SMD法
：SMD < 0.1 通常认为差异可以接受，更稳健！

真实研究案例演示
案例一：硫胺素与 ICU 死亡率（PMID: 35814219）

研究使用PSM和IPTW同时进行稳健性分析。
原始人群中，硫胺素显著降低 ICU 死亡（HR = 0.57）
PSM 后结果仍显著（HR = 0.62），IPTW 后也是（HR = 0.65）

说明：不同方法得出相似结果 → 研究结论稳健可信

案例二：早期使用昂丹司琼降低住院死亡率（PMID: 35568908）

匹配后 SMD 从 0.2 降至 0.05
配对前变量差异显著，配对后全部趋近于平衡
使用SMD 图示辅助展示匹配质量，令人信服

⚔️IPTW vs PSM：如何选择？

特点

PSM

IPTW

是否丢数据

适合样本不平衡

一般

更好

分析对象

匹配后子集

原始全体样本

实施复杂度

较高（需匹配方法）

较低（仅权重计算）

是否易解释

相对抽象

稳健性验证

可配合敏感性分析使用

同上

建议：两者并非替代关系，而是互补关系！

最理想的是：同时使用两种方法，验证结果一致性。

写论文时，如何表达清楚？
PSM 方法描述模板：

使用 Logistic 回归模型建立倾向性评分模型，基于年龄、性别、BMI 等协变量，采用最近邻匹配法，卡钳值设为 0.01，按 1:1 比例匹配。通过 SMD 和 P 值评估匹配效果。

IPTW 方法描述模板：

根据倾向性评分构建 IPTW 权重，治疗组权重 = 1/PS，对照组权重 = 1/(1-PS)。使用加权后数据进行 Logistic 回归 /COX 回归分析，评估处理效果。

结语：你现在还敢忽略偏倚控制吗？

在这个「证据为王」的时代，一项研究是否可信，往往不是看结果有多「震撼」，而是看它的设计是否合理、是否控制了混杂因素。

而 PSM 与 IPTW，正是你研究中的护城河。

我们长期为科研用户提供前沿资讯、实验方法、选品推荐等服务，并且组建了 70 多个不同领域的专业交流群，覆盖PCR、细胞实验、蛋白研究、神经科学、肿瘤免疫、基因编辑、外泌体、类器官等领域，定期分享实验干货、文献解读等活动。

添加实验菌企微，回复【】中的序号，即可领取对应的资料包哦～

【2401】论文写作干货资料（100 页）

【2402】国内重点实验室分子生物学实验方法汇总（60 页）

【2403】2024 最新最全影响因子（20000+ 期刊目录）

【2404】免疫学信号通路手册

【2405】PCR 实验 protocol 汇总

【2406】免疫荧光实验 protocol 合集

【2407】细胞培养手册

【2408】蛋白纯化实验手册

【2501】染色体分析方法汇总

【2502】国自然中标标书模板

【2503】WB 实验详解及常见问题解答

【2504】DeepSeek 论文写作常用口令

【2505】中国科学院期刊分区表（2025 年最新版）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.