网易首页 > 网易号 > 正文 申请入驻

数据科学家必须了解的6大聚类算法

0
分享至

聚类分析是一种无监督的机器学习任务。与监督学习不同,聚类算法仅依赖输入数据,并致力于在特征空间中找到自然的组或群集。无论是客户分群、异常检测,还是图像分割,都离不开它的身影。

今天就为大家拆解数据科学家必须掌握的六大聚类算法,从核心原理到适用场景,干货满满,建议收藏!



一、K-Means聚类

经典的基于距离的聚类算法,通过迭代计算将数据点划分为K个簇,使得每个数据点到其所在簇中心的距离之和最小。

算法步骤

  • 步骤1:随机选择 K 个数据点作为初始聚类中心
  • 步骤2:计算每个数据点与各中心的距离,常用欧氏距离,将其分配到最近的簇
  • 步骤3:重新计算每个簇的均值,即新的聚类中心
  • 步骤4:重复步骤 2-3,直到聚类中心不再显著变化或达到最大迭代次数

局限性

需预先指定 K 值,对非凸形状簇、异常值敏感。

使用场景

  • 数据量较大且维度适中的场景,如客户分群、用户行为聚类
  • 簇的形状接近球形、大小相对均匀的数据集
  • 需快速得到聚类结果的场景



二、层次聚类

层次聚类是一种自下而上的聚类方法,逐步将相似的小规模对象合并为较大的簇,进而形成最终的聚类结果。

通过构建树状图实现聚类,分为两种策略:

  • 凝聚式:从每个数据点作为单独簇开始,逐步合并最相似的簇,直到形成一个簇
  • 分裂式:从所有数据点作为一个簇开始,逐步分裂为更小的簇,直到每个数据点为单独簇
  • 相似度度量:常用欧氏距离、曼哈顿距离,簇间距离(如最短距离、最长距离、平均距离)

使用场景

  • 需探索数据层次结构的场景,如生物学中物种分类、文本主题层级划分
  • 数据量较小的场景,算法时间复杂度较高,不适合大规模数据
  • 对簇形状无严格限制,可处理非凸形状



三、DBSCAN

DBSCAN 是一种基于密度的聚类算法,簇是由高密度区域组成的连通组件,能自动识别异常值。

核心概念:

  • DBSCAN算法主要有两个参数:ε --- 邻域半径;MinPts --- 形成高密度区域所需的最小样本数
  • 核心点:邻域内样本数 ≥ MinPts 的点
  • 边界点:邻域内样本数 < MinPts,但可被核心点的邻域包含
  • 噪声点:既非核心点也非边界点的点

流程:

从核心点出发,递归合并所有密度可达的点,通过核心点连接,形成簇。

使用场景:

  • 需识别任意形状簇的场景,如环形、月牙形等非凸形状
  • 需自动检测异常值的场景,如欺诈检测、异常行为识别
  • 数据密度不均匀但存在明显密度差异的场景,如不同密度的簇



四、BIRCH

相对于K-means和DBSCAN,Birch的应用并没有那么广泛,不过它也有一些独特的优势。BIRCH是一种基于层次的聚类算法,适用于大规模数据集,能够高效处理具有高维度、海量样本的数据,同时保持较低的时间和空间复杂度,主要是通过构建聚类特征树来压缩数据。

  • 聚类特征:即CF,用三元组(N, LS, SS)表示一个簇,其中 N 为样本数,LS 为样本坐标总和,SS 为样本坐标平方和,可快速计算簇的均值、半径等
  • 聚类特征树:即CF Tree,一种层次数据结构,叶子节点为紧密相连的簇,即CF 簇,非叶子节点为子节点的 CF 聚合,通过限制树的高度和叶子节点容量控制内存占用

流程

先构建聚类特征树压缩数据,再对叶子节点的 CF 簇进行二次聚类得到最终结果。

使用场景

  • 大规模数据集或内存有限的场景,高效压缩数据,减少内存占用
  • 数据维度较低,如二维、三维,且簇密度较均匀的场景
  • 需快速预处理数据以减少规模的场景

五、高斯混合模型

高斯混合模型(GMM)是一种概率密度模型,通俗来讲高斯混合模型指多个高斯分布函数的线性组合,理论上可以拟合出任意类型的分布。

核心思想:

  • 复杂的数据分布可以拆分为若干个简单的高斯分布的加权组合
  • 每个高斯分布称为一个 “成分”,模型通过学习每个成分的参数(均值、协方差)和权重,来拟合数据的整体分布
  • 通过EM 算法 估计参数,最终每个样本被分配到多个簇的概率,可通过最大概率确定所属簇

使用场景:

  • 需得到样本属于各簇的概率的场景,如用户兴趣偏好的模糊划分
  • 数据符合或近似高斯分布的场景,如身高、成绩等自然数据
  • 簇之间存在重叠的场景



六、谱聚类

谱聚类是从图论角度出发的聚类方法,利用图的谱特性,即特征值和特征向量,实现聚类:

  • 将数据集中的每个样本看作图的顶点,样本间的相似度看作顶点间边的权重,构建一个加权无向图
  • 通过对图的拉普拉斯矩阵进行特征分解,提取低维特征向量
  • 使用 K-means 等传统聚类算法对低维特征向量进行聚类,得到最终结果

谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,核心是通过特征向量将高维数据映射到低维空间,使原本复杂的聚类问题简化。

使用场景:

  • 高维数据或非线性可分数据,如图像分割、社交网络社区检测
  • 簇形状复杂,如非凸、流形结构的场景,相比 K-Means 更灵活
  • 数据量中等的场景,特征值分解复杂度较高,不适合超大规模数据



总结

不同聚类算法各有侧重,选择时需结合数据规模、维度、簇形状、是否需要层次结构等因素。通过今天的分享,希望可以帮助大家梳理各算法知识框架,理解不同算法的区别与应用方向。

对于复杂数据的计算、大数据量的数据计算,如果excel已经带不动了该怎么办?推荐大家使用在线数据分析工具「九数云」,零代码快捷处理数据、可视化数据,并在线分享给其他人员。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豪取16胜!!快船又逆转!保罗终要买断!

豪取16胜!!快船又逆转!保罗终要买断!

柚子说球
2026-01-28 14:36:45
阿尔沙文:没想到皇马只落后巴萨1分,希望阿韦洛亚遭遇失败

阿尔沙文:没想到皇马只落后巴萨1分,希望阿韦洛亚遭遇失败

懂球帝
2026-01-27 21:08:06
全明星新秀赛分队名单出炉!弗拉格再成状元 联手谢泼德卡斯尔

全明星新秀赛分队名单出炉!弗拉格再成状元 联手谢泼德卡斯尔

罗说NBA
2026-01-28 08:39:49
普京时代即将落幕?俄罗斯总统候选人浮出水面,谁会是接班人?

普京时代即将落幕?俄罗斯总统候选人浮出水面,谁会是接班人?

随梦而飞起
2026-01-27 16:38:27
张兰不听劝,继续晒孙子孙女,给孩子们夹菜很温馨,马筱梅不出镜

张兰不听劝,继续晒孙子孙女,给孩子们夹菜很温馨,马筱梅不出镜

好贤观史记
2026-01-26 16:41:09
快船115-103击败爵士 球员评价:3人满分,4人及格,2人低迷

快船115-103击败爵士 球员评价:3人满分,4人及格,2人低迷

篮球资讯达人
2026-01-28 13:43:20
天呢!一个德国人非议中国教育是对人性的摧残…

天呢!一个德国人非议中国教育是对人性的摧残…

慧翔百科
2026-01-26 11:45:53
最新!超480亿元,“跑了”

最新!超480亿元,“跑了”

中国基金报
2026-01-28 14:15:16
特斯拉新款Model Y换装HW4.5:升级三芯片架构,为AI 5做准备

特斯拉新款Model Y换装HW4.5:升级三芯片架构,为AI 5做准备

车东西
2026-01-27 18:51:30
美国“催债”台当局,两天后,金门突发对峙,大陆海警遭危险逼近

美国“催债”台当局,两天后,金门突发对峙,大陆海警遭危险逼近

贺文萍
2026-01-28 13:50:07
出身浙江豪门,前夫是上海顶级富豪,现仍在前夫集团担任高层领导

出身浙江豪门,前夫是上海顶级富豪,现仍在前夫集团担任高层领导

素衣读史
2026-01-19 15:12:16
中方禁止入常后,日本威胁退出联合国,特朗普一句话戳中高市痛处

中方禁止入常后,日本威胁退出联合国,特朗普一句话戳中高市痛处

流史岁月
2026-01-28 15:05:03
北大教授人口学家声称中国大学连印度孟加拉都不如!因为不用英语

北大教授人口学家声称中国大学连印度孟加拉都不如!因为不用英语

火山诗话
2026-01-27 14:40:23
表妹给大款当情妇,5年里领回4个孩子,原配带人砸上门我才看懂她

表妹给大款当情妇,5年里领回4个孩子,原配带人砸上门我才看懂她

星宇共鸣
2026-01-28 09:11:09
2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

人閒情事
2026-01-16 16:18:36
中超16队球衣出炉!大连流线山东复古 NK大玩三原色 多队奇丑无比

中超16队球衣出炉!大连流线山东复古 NK大玩三原色 多队奇丑无比

刀锋体育
2026-01-28 12:29:23
43岁周渝民现身王心凌演唱会!一身深色外套,手搭妻子喻虹渊肩头

43岁周渝民现身王心凌演唱会!一身深色外套,手搭妻子喻虹渊肩头

一盅情怀
2026-01-28 15:19:25
越南少将大实话:当年中国撤军为啥不追?不是不想,是一份绝密命令让人不得不服

越南少将大实话:当年中国撤军为啥不追?不是不想,是一份绝密命令让人不得不服

老杉说历史
2026-01-14 20:31:37
两天快速降脂!临床研究实锤:仅连续两天吃燕麦片,就能显著降低胆固醇

两天快速降脂!临床研究实锤:仅连续两天吃燕麦片,就能显著降低胆固醇

医诺维
2026-01-27 17:12:40
白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

谈史论天地
2026-01-26 16:55:03
2026-01-28 15:52:49
九数云BI(cancel)ht
九数云BI(cancel)ht
一个高成长型企业首选的SAAS BI工具,可完成各类复杂指标计算,也可创建数据看板。
31文章数 0关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

运动员退役后到山区支教:卖掉36块奖牌 与女友分手

头条要闻

运动员退役后到山区支教:卖掉36块奖牌 与女友分手

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

本地
亲子
房产
艺术
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

亲子要闻

液体钙哪个牌子好?十款权威认证儿童液体钙品牌,归一食口碑推荐

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版