本文内容整理自医咖会《缺失值的处理和常见研究类型的统计分析》专栏,小咖针对缺失数据处理的核心方法进行了整理,可点击左下角“阅读原文”查看完整视频。
缺失数据的处理方法主要分为三大类:基于完整观测单位的方法、基于填补的方法、基于人工智能的方法。结合临床实践和临床科研的多年经验,常用的6种处理方法为:直接删除法、单一填补法、虚拟变量法、均值填补法、回归填补法、多重填补法。前5种方法具体情况如下:
问
直接删除法
直接删除缺失数据。如RCT中忽略未完成治疗的患者,进行符合研究方案分析(per protocol),这种PP分析容易导致高估疗效。若缺失数据所占的比例特别低,对结果的影响可以忽略时,也可以直接删除。直接删除法简单易行,好操作,但损失了部分信息,甚至可能得出错误结果,所以使用前必须评估可行性。
问
单一填补法
使用单一的原则进行填补。与PP分析相对应的是意向性(ITT)分析,将未完成治疗的两组设定为未发生阳性结局,即无疗效。这种方法易缩小两组的差距,低估试验结果。
有些研究中会使用末次填补法,即使用前一次的数据填补后面的缺失数据。该方法更适合脱落或失访后较为稳定的情况,当随访指标随时间变化较快时,则不适合使用该方法。此外,常用的单一填补法还有基线填补法、最差填补法、最优填补法等。推荐在正文中根据研究对象或研究变量的发展趋势选择最适宜的方法,并在敏感性分析中选择不同填补方法比较二者结果趋势的一致性。
问
虚拟变量法
针对分类变量,可以将缺失值分为单独的一类。如性别存在缺失数据时,可以在原有分类0、1的基础上增加分类2。这种方法简单、易理解,且保留了变量和样本的信息,但自变量取值增加,可能对估计精度存在影响。
问
均值填补法
文献中常见均值填补法处理连续变量,比如体重。如果变量分布不满足正态分布,可以使用中位数填补。这种方法简单、便于操作理解,且保留了变量和样本的信息,但没有考虑不同样本间的差异,容易减少样本间的变异。所以可以通过其他协变量进行一定的改进,比如缺失值为男性的体重,就可以选择男性体重的均值。
问
回归填补法
随着统计学发展,更推荐使用回归填补法对连续变量进行填补,比如身高和体重相关性较强,可以据此构建回归方程,通过身高预测缺失的体重值。即在某一列变量存在缺失时,根据临床经验建立从其他变量到该变量的回归方程,根据其他变量计算缺失变量的预测值。该方法同样比较简单,且计算出来的数值接近真实值,优于均值填补,但仍旧可能低估标准误。
上文内容摘自医咖会专栏课程《缺失值的处理和常见研究类型的统计分析》,请点击左下方的“阅读原文”,观看完整视频内容。
研究设计、统计分析、论文投稿难题,快联系小咖(微信:xys2019ykh)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.