本文内容整理自医咖会《SPSS聚类分析及临床研究应用》专栏,小咖针对其中关于聚类分析的类型与计算原理相关内容进行了整理,可点击左下角“阅读原文”查看完整视频。
聚类分析根据原理可以分为两种类型,系统聚类/层次聚类和动态样本聚类,前者为Q型和R型聚类,后者为常说的K-means聚类。
![]()
聚类分析根本上是对相似性/距离的度量,需计算样本/变量之间的相似系数/距离。对于连续型变量的距离,计算公式如下,最常用的是欧氏距离,这个公式其实在中学时向量计算中就有所接触。
![]()
连续型变量的相似度计算公式如下:
![]()
对于离散型变量的相似度,可以使用卡方和Phi方统计量。
![]()
聚类过程中可能会产生中间类别,逐级聚类至几个大类。这些小类之间的相似度计算公式如下:
![]()
最短距离法即寻找两个类别中距离最近的两个变量,将这两个变量之间的距离定义为两个类别的距离;最长距离法则相反。类间平均锁链法考虑每个变量与另一类别中每个变量的距离,最后取平均距离;类内平均锁链法则考虑每个变量与自身所属类别和另一个类别中的所有变量的距离。重心法在每个类别中寻找“重心”,将两个重心之间距离定义为两类别的距离。
以上计算公式均以Q型聚类为例,R型与其相似,只是前者计算样本间的距离,一般使用距离公式,后者为变量之间的距离,一般使用相似系数。K-means聚类本质上属于基于距离的样本聚类,但计算更为简便,聚类更为快速。Q型聚类案例如下,当样本量过大时,树形图过于复杂不利于展示,通常使用K-means聚类。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.