本文内容整理自医咖会《在开始统计分析前,如何对数据进行清洗或转换?》专栏,小咖针对其中异常值处理相关内容进行了整理,可点击左下角“阅读原文”查看完整视频。
异常值是什么?
在科研中,数据清洗首先要做的就是处理异常值。样本中存在的一些数值明显偏离的观测值,就叫做异常值,这时候需要识别异常值是因为数据录入错误、测量误差、还是客观存在的真实数值?如何在保留数据信息的基础上,识别异常值,并对异常值进行有效处理,是数据清洗中一个非常重要的环节。
在X范围内,但不在Y范围内的异常值为Y的异常值,称为离群值(图A);反之则为X的异常值,称为高杠杆点(图B)。无论是哪种异常值,只要对相关性或回归分析造成很大影响,就可以称之为强影响点。图C的点既是离群值又是高杠杆点,但因其未改变分析结果,并不能称为高影响点,该数值很有可能是真实存在的。研究中,最需关注的是高影响点。
![]()
怎样识别异常值?
比较直观的一个识别异常值的方法是箱图。箱图中超出上下限的点均为异常值,并且标注了异常值编号,可以直接观察相应的患者寻找异常值来源。箱图中距离箱体边缘超过1.5倍箱体长度的数据点定义为异常值,超过3倍的数据点称为极端值。
![]()
如何处理异常值?
有些异常值的影响非常大。如图,在将异常值删除后,相关系数和回归系数均发生了较大的变化。所以需要进行异常值的处理。
![]()
异常值通常有以下四种处理方法:
第一,需要核查数据是否存在收集或录入错误,及时进行重新收集或者更正;
第二,如果异常值客观存在,符合变化趋势,可以考虑保留异常值。但可能会导致数值呈现偏态分布,这时可以使用非参数分析方法、用非最极端的值来代替极端异常值,对变量进行转化(如将数值分类转化为等级变量),进而缩小异常值带来的影响。
第三,如果异常值不属于上述情况,且占比很小,可以考虑直接剔除数据。剔除数据分为剔除该患者所有数据,和仅剔除患者该单元数据,选择后者需将剔除数据视为缺失值,进行插补,并且报告该数值的详细情况。
第四,如果异常值极大可能是真实存在的,可以考虑将其纳入分析。这种数据通常极具研究性,单独对该类人群进行挖掘分析可能会得到一些比较意外的结果。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.