网易首页 > 网易号 > 正文 申请入驻

九道门|K-Means 聚类:R 用于数据分析的概念和实现

0
分享至

机器学习中的聚类算法是无监督技术(即输入数据没有标记响应)。他们的目标是根据数据的相似性绘制数据模式并将数据观察聚类到不同的组中。K-Means 聚类是实现聚类算法成功汇总高维数据的一种方法。

K-means 聚类将一组观测值划分为固定数量的聚类,这些聚类最初是根据它们的相似特征指定的。

然而,在小组观察中出现的问题是:

1)事物彼此相似是什么意思?

2)我们如何确定事物足够接近以组合在一起?

回答这两个问题,决定最佳的K,理解K-means概念,并在R数据集上实现它是这篇文章的范围。

一旦我们定义了 a,我们需要的集群数量,b,定位集群的初始猜测和 c距离度量,我们就可以应用 K-means 来获得集群质心的最终估计和分配每个质心的观察。

理解算法:

为了便于理解,我们假设有一个总共有 10 个观测值的数据集。查看数据,我们可以得出结论,数据可以很容易地分为 3 个不同的集群,因此我们对此进行了处理。

首先,我们选择要对数据进行分类的聚类数量(即 K-means 中的 K)。在这里,让我们决定 K = 3,因为这在视觉上是可推论的;稍后我们将介绍确定 K 的技术方法。

示例数据集

下一步是随机决定三个不同的初始数据点,它们在我们的图中充当我们的集群或“质心”,如下图中的彩色三角形所示。然后我们测量“1”数据点与三个质心之间的距离,并为其分配最接近质心的颜色。这将重复进行,直到所有数据点都已分配给任何一个质心。

选择随机 K 个质心

接下来,我们计算每个聚类的平均值w.r.t每个质心的数据点,这个平均值现在是每个质心的新位置,我们将它们重新放置在图表上,如下所示。我们计算每个点与所有质心的距离并相应上色的部分将再次重复,直到质心的位置不再改变。下图是我们期望在没有更多变化的情况下得到的结果。

将质心重新定位到它们的聚类点

这就是 K-means 如何根据距离度量将我们的数据集拆分为指定数量的集群。我们在二维图中使用的距离度量是欧几里得距离((x² + y²) 的平方根)。

在 R 中实现 K-means:

第 1 步:安装相关包并调用它们的库

第 2 步:加载和理解数据集

Iris 是一个内置的 R 数据集,包含来自 3 种不同类型的鸢尾花(Iris setosa、versicolor和virginica)的150 个花卉观察结果。我们将在我们的算法测试中使用它。

第 3 步:消除目标变量

由于在这个数据集中已经完成了观察的分类,我们需要从我们的代码中删除目标变量,因为我们希望我们的算法能够做到这一点。为此,我将 iris 的前四列加载到我的数据框“data”中。

如何确定 K 使用什么值?

第4步:肘方法

虽然有很多方法可以决定要选择的集群数量,但Elbow point(虽然不是很准确,我们看到原因)被广泛使用。这个想法是通过将每个集群内的变化相加来评估聚类的质量(跟踪这个并从不同的起点重新开始),具有最小方差的参数获胜。肘方法绘制了变异减少与簇数 (K) 的关系,肘点是 K 的一个数字,在此之后变异不是很陡峭,是我们最好的 K。

我们没有内置函数来测量我们观察中的方差程度。但是,有一个 Rpubs 文档为我们创建了 wssplot(组内平方和图)函数来实现我们的肘方法。

该图显示 K = 2 处的锐边,表明我们数据集的最佳聚类数为 2。

第 5 步:实现k - means

就像看起来一样简单,kmeans() 只需要我们输入我们的数据帧并指定 K函数。

kmean <- kmeans(data, 2)
kmean$centers

kmean$clusters 将返回一个范围从 1 到 2 的数字向量,描述哪些观测属于集群 1 和集群 2。kmean$centers 返回每个质心的位置。例如,簇 1 的平均值为 Sepal.Length = 5.00、Sepal.width = 3.36、Petal.Length = 1.56 和 Petal.width = 0.29。

第 6 步:在集群中绘制我们的数据点

尽管这个图看起来很不错,并且清楚地将我们的观察分为 2 个集群,但我们已经知道我们的数据集总共有 3 个组。我们的肘方法在为我们提供正确的 K 方面并不完全准确。因此,根据经验,最好在肘点周围的 K 值之间进行迭代并自己决定最佳行动方案。

autoplot(kmean, data, frame = TRUE)

聚类后的数据图,K = 2

第 7 步:Kmeans,K = 3

既然我们已经决定改变 K 并查看数据模式,那么让我们看看结果如何变化。

kmean <- kmeans(data, 3)
kmean$centers

第 8 步:绘制新的聚类图

我们看到 kmean$clusters 现在如何将观测值分成三个集群,并且 kmean$centers 也更新了质心值。下图显示了基于 3 个集群的分组。同样,K 规格由我们决定;K 确定技术可以为我们提供一个很好的估计。

聚类后的数据图,K = 3

K-means 是一种高效的机器学习技术

  • 易于实施和应用

  • 具有很好的可解释性

  • 产生比分层聚类更紧密的聚类

  • 计算速度快

然而,通过迭代方法手动选择K,依赖于初始集群和由于异常值导致的质心位置不准确是 kmeans 的一些缺点。这篇文章重点解释了 kmeans 的主要概念,讨论了一种决定 K 值的技术,在 R 中实现了 kmeans,并强调了它的一些优缺点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼达洛人电影最安静的15分钟,藏着星战该有的样子

曼达洛人电影最安静的15分钟,藏着星战该有的样子

队友祭天法力无边
2026-05-27 03:40:08
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
曼联解雇阿莫林浪费1670万!欲卖滕哈格三旧部套现,两人却不愿走

曼联解雇阿莫林浪费1670万!欲卖滕哈格三旧部套现,两人却不愿走

罗米的曼联博客
2026-05-28 11:10:56
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
郑中基离婚官司持续一年,豪门资产拉扯不断,富爸爸郑东汉成关键

郑中基离婚官司持续一年,豪门资产拉扯不断,富爸爸郑东汉成关键

梅亭谈
2026-05-27 19:25:53
44岁LV太子妃官宣怀六胎!俄罗斯超模捧孕肚出镜,胳膊腿仍纤细

44岁LV太子妃官宣怀六胎!俄罗斯超模捧孕肚出镜,胳膊腿仍纤细

译言
2026-05-27 07:10:38
舒淇早期拍摄写真时的留影,慵懒风情,自成风月

舒淇早期拍摄写真时的留影,慵懒风情,自成风月

娱你同欢
2026-05-01 21:31:11
重磅!曝特斯拉将被合并!

重磅!曝特斯拉将被合并!

品牌头版
2026-05-28 17:49:49
被米兰解雇后,阿莱格里闪电接手那不勒斯

被米兰解雇后,阿莱格里闪电接手那不勒斯

赛场速报局
2026-05-29 01:27:19
“91大神”唐哥:拍摄22部视频,非法获利400万,内容不堪入目

“91大神”唐哥:拍摄22部视频,非法获利400万,内容不堪入目

就一点
2025-08-13 17:18:43
朱婷广东度假,和姚迪一起摘荔枝,种树动作娴熟,回国心情大好

朱婷广东度假,和姚迪一起摘荔枝,种树动作娴熟,回国心情大好

跑者排球视角
2026-05-28 13:13:37
阿斯:马斯坦托诺恐无缘阿根廷世界杯名单,蒙铁尔也将落选

阿斯:马斯坦托诺恐无缘阿根廷世界杯名单,蒙铁尔也将落选

懂球帝
2026-05-28 16:41:48
韩网友一直疑惑:铁证如山!中国人为何还不承认汉字起源于韩国?

韩网友一直疑惑:铁证如山!中国人为何还不承认汉字起源于韩国?

非虚构人间
2026-05-25 01:12:59
划清界限?李显龙访华后公开表态:中国和新加坡不是“共同族群”

划清界限?李显龙访华后公开表态:中国和新加坡不是“共同族群”

天气观察站
2026-05-28 16:50:59
南方电网电力负荷三天三创历史新高,晚间用电需求激增

南方电网电力负荷三天三创历史新高,晚间用电需求激增

每日经济新闻
2026-05-28 21:39:17
孙颖莎王曼昱从上海交大毕业了!去清华读研!深大感谢孙颖莎9年贡献

孙颖莎王曼昱从上海交大毕业了!去清华读研!深大感谢孙颖莎9年贡献

好乒乓
2026-05-28 18:33:18
立陶宛总理喊话中国,已做好调整涉台机构名称的准备!

立陶宛总理喊话中国,已做好调整涉台机构名称的准备!

爱意随风起呀
2026-05-28 14:13:25
王博:我觉得今天的发挥没什么太大问题,主要是多考虑小细节

王博:我觉得今天的发挥没什么太大问题,主要是多考虑小细节

懂球帝
2026-05-28 23:13:24
PCB钻针独角兽,打破垄断!

PCB钻针独角兽,打破垄断!

新浪财经
2026-05-28 18:06:42
U23国足新一期集训名单公布!向余望、吾米提江领衔

U23国足新一期集训名单公布!向余望、吾米提江领衔

体坛周报
2026-05-28 18:16:17
2026-05-29 01:36:49
九道门聊数据
九道门聊数据
用数据为企业解决问题
432文章数 30关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

旅游
健康
时尚
房产
公开课

旅游要闻

游客在九寨沟被索要"照镜费" 景区:店家随口说的

专家教你辨认“正规外泌体”!

光脚、背“外卖盒”、羽毛头饰...早春秀谁赢了?

房产要闻

突发重磅!三亚新机场公司正式成立!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版