网易首页 > 网易号 > 正文 申请入驻

【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享

0
分享至

原文链接:http://tecdat.cn/?p=22492

降维技术之一是主成分分析 (PCA) 算法,该算法将可能相关变量的一组观察值转换为一组线性不相关变量。在本文中,我们将讨论如何通过使用 R编程语言使用主成分分析来减少数据维度分析葡萄酒数据查看文末了解数据获取方式

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

高维数据集的处理可能是一个复杂的问题,因为我们需要更高的计算资源,或者难以控制机器学习模型的过度拟合等。为避免此类问题,您可以降低数据集的维数。降维将数据从高维空间转移到低维空间,使数据的低维表示只保留原始数据的重要方面。

这是将三维数据集转换为三个二维数据集的可视化:该图说明了一个三维特征空间被分成三个二维特征空间,之后,如果发现相关,特征的数量可以进一步减少。

主成分分析(PCA)

主成分分析(PCA)是最流行的线性降维算法之一。它是一种基于投影的方法,通过将数据投影到一组正交(垂直)轴上来转换数据。

“PCA 的工作条件是,当高维空间中的数据映射到低维空间中的数据时,低维空间中数据的方差或散布应该最大。”

假设我们必须将数据点的二维表示转换为一维表示。因此,我们将尝试在它们上找到一条直线并投影数据点。(直线是一维的)。选择直线的可能性有很多。

假设蓝色线将是我们的新维度。如果你看到蓝线(连接红点在蓝线上的投影),即每个数据点与直线的垂直距离就是投影误差。所有数据点的误差之和将是总投影误差。

我们的新数据点将是那些原始蓝色数据点的投影(红色点)。正如我们所看到的,我们通过将二维数据点投影到一维空间(即直线)上,将它们转换为一维数据点。

您从本质上将数据的维度从二维减少到一维。一维空间(也就是直线)是二维坐标系的子空间。

蓝线是使用数学优化构建的,以尽可能地沿该线最大化数据点之间的方差,数据在二维空间中沿蓝线具有最大方差。

我们称这条线为我们的第一个主成分。自然,线上的点仍然比原始 2D 空间中的点更接近,因为您正在失去区分它们的维度。但在很多情况下,通过降维实现的简化超过了信息的损失,损失可以部分或全部重构。

在我们之前的示例中,我们只有一个主成分。一旦进入更高维空间,您可能会使用多个主成分,因为由一个主成分解释的方差通常不足。主成分是相互正交的向量。这意味着它们形成 90 度角。在数学上,正交向量是独立的,这意味着由第二个主成分解释的方差与第一个主成分的方差不重叠。因此,它们尽可能有效地表示信息。第一个主成分将捕获大部分方差;第二个主成分将捕获第一个未解释的方差的第二大部分,依此类推。

实际上,主成分是通过确保特征之间没有信息重叠来尽可能有效地表示数据及其差异的特征组合。原始特征通常显示出显着的冗余,这也是主成分分析在降维方面如此有效的主要原因。

R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

我们将使用葡萄酒数据集进行主成分分析。

数据

数据包含177个样本和13个变量的数据框;vintages包含类标签。这些数据是对生长在意大利同一地区但来自三个不同栽培品种的葡萄酒进行化学分析的结果:内比奥罗、巴贝拉和格里格诺葡萄。来自内比奥罗葡萄的葡萄酒被称为巴罗洛。

这些数据包含在三种类型的葡萄酒中各自发现的几种成分的数量。

# 看一下数据
head(no)

输出

转换和标准化数据

对数转换和标准化,将所有变量设置在同一尺度上。

# 对数转换
no_log <- log(no)

# 标准化
log\_scale <- scale(no\_log)
head(log_scale)

主成分分析(PCA)

使用奇异值分解算法进行主成分分析

prcomp(log_scale, center=FALSE)
summary(PCA)

基本图形(默认设置)

带有基础图形的主成分得分和载荷图

plot(scores\[,1:2\], # x和y数据
pch=21, # 点形状
cex=1.5, # 点的大小

legend("topright", # legend的位置
legend=levels(vint), # 图例显示

plot(loadings\[,1:2\], # x和y数据
pch=21, # 点的形状

text(loadings\[,1:2\], # 设置标签的位置

此外,我们还可以在分数图中的组别上添加95%的置信度椭圆。

点击标题查阅往期内容

01

02

03

04


置信度椭圆图函数## 椭圆曲线图
elev=0.95, # 椭圆概率水平
pcol=NULL, # 手工添加颜色,必须满足长度的因素
cexsize=1, # 点大小
ppch=21, # 点类型,必须满足因素的长度
legcexsize=2, # 图例字体大小
legptsize=2, # 图例点尺寸

## 设定因子水平
if(is.factor(factr) {
f <- factr
} else {
f <- factor(factr, levels=unique(as.character(factr)))
}
intfactr <- as.integer(f) # 设置与因子水平相匹配的整数向量

## 获取椭圆的数据
edf <- data.frame(LV1 = x, LV2=y, factr = f) # 用数据和因子创建数据框
ellipses <- dlply(edf, .(factr), function(x) {

Ellipse(LV1, LV2, levels=elev, robust=TRUE, draw=FALSE) #从dataEllipse()函数中按因子水平获取置信度椭圆点
})
## 获取X和Y数据的范围
xrange <- plotat(range(c(as.vector(sapply(ellipses, function(x) x\[,1\])), min(x), max(x))))
## 为图块设置颜色
if(is.null(pcol) != TRUE) { # 如果颜色是由用户提供的
pgcol <- paste(pcol, "7e", sep="") # 增加不透明度

# 绘图图形
plot(x,y, type="n", xlab="", ylab="", main=""
abline(h=0, v=0, col="gray", lty=2) #在0添加线条
legpch <- c() # 收集图例数据的矢量
legcol <- c() # 收集图例col数据的向量
## 添加点、椭圆,并确定图例的颜色
## 图例
legend(x=legpos, legend=levels(f), pch=legpch,
## 使用prcomp()函数的PCA输出的轴图示
pcavar <- round((sdev^2)/sum((sdev^2))
基础图形

绘制主成分得分图,使用基本默认值绘制载荷图

plot(scores\[,1\], # X轴的数据
scores\[,2\], # Y轴的数据
vint, # 有类的因素
pcol=c(), # 用于绘图的颜色(必须与因素的数量相匹配)
pbgcol=FALSE, #点的边框是黑色的?
cexsize=1.5, # 点的大小
ppch=c(21:23), # 点的形状(必须与因子的数量相匹配)
legpos="bottom right", # 图例的位置
legcexsize=1.5, # 图例文字大小
legptsize=1.5, # 图例点的大小
axissize=1.5, # 设置轴的文字大小
linewidth=1.5 # 设置轴线尺寸
title(xlab=explain\[\["PC1"\]\], # PC1上解释的方差百分比
ylab=explain\[\["PC2"\]\], # PC2解释的方差百分比
main="Scores", # 标题
cex.lab=1.5, # 标签文字的大小
cex.main=1.5 # 标题文字的大小

plot(loadings\[,1:2\], # x和y数据
pch=21, # 点的形状
cex=1.5, # 点的大小
# type="n", # 不绘制点数
axes=FALSE, # 不打印坐标轴
xlab="", # 删除x标签
ylab="" # 删除y标签
)
pointLabel(loadings\[,1:2\], #设置标签的位置
labels=rownames(PCAloadings), # 输出标签
cex=1.5 # 设置标签的大小
) # pointLabel将尝试将文本放在点的周围
axis(1, # 显示x轴
cex.axis=1.5, # 设置文本的大小
lwd=1.5 # 设置轴线的大小
)
axis(2, # 显示y轴
las=2, # 参数设置文本的方向,2是垂直的
cex.axis=1.5, # 设置文本的大小
lwd=1.5 # 设置轴线的大小
)
title(xlab=explain\[\["PC1"\]\], # PC1所解释的方差百分比
ylab=explain\[\["PC2"\]\], # PC2解释的方差百分比

cex.lab=1.5, # 标签文字的大小
cex.main=1.5 # 标题文字的大小
)

数据获取

获取全文完整资料。

本文选自《R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图》。

点击标题查阅往期内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国一声令下,23国枪口对向中国,不到24小时,中方宣布双反调查

美国一声令下,23国枪口对向中国,不到24小时,中方宣布双反调查

影孖看世界
2024-06-15 05:25:34
网传女子与黑人恋爱怀孕,被要求堕胎,当街崩溃:CTM吃我穿我用我

网传女子与黑人恋爱怀孕,被要求堕胎,当街崩溃:CTM吃我穿我用我

小萝卜丝
2024-06-15 10:27:42
普京:如果乌克兰放弃加入北约,俄罗斯将立即停火

普京:如果乌克兰放弃加入北约,俄罗斯将立即停火

花非花008
2024-06-14 21:54:14
A股:“迟到的”金融数据,明天(6月17日)大盘走势分析预判

A股:“迟到的”金融数据,明天(6月17日)大盘走势分析预判

凸教授
2024-06-16 09:51:06
国服不愁练级!前夕练级经验砍了一半,光速练级!

国服不愁练级!前夕练级经验砍了一半,光速练级!

苹果牛看游戏
2024-06-16 10:49:47
稳健!卡拉菲奥里争顶、过人、抢断成功率100%,传球成功率93%

稳健!卡拉菲奥里争顶、过人、抢断成功率100%,传球成功率93%

直播吧
2024-06-16 07:38:08
欧倩怡首回应离婚,每天买菜送娃惨过佣人,单身后和6名男士约会

欧倩怡首回应离婚,每天买菜送娃惨过佣人,单身后和6名男士约会

开开森森
2024-06-15 07:58:01
半场-开场3分钟就丢球&半场仅1射正 迈阿密国际0-1费城联合

半场-开场3分钟就丢球&半场仅1射正 迈阿密国际0-1费城联合

直播吧
2024-06-16 08:32:31
那个天天加班的同事被纪委约谈了,原因有些意外

那个天天加班的同事被纪委约谈了,原因有些意外

时尚的弄潮
2024-06-16 07:55:06
热搜上毁三观的“和男朋友天天做饭”:新型羞耻,害惨中国年轻人

热搜上毁三观的“和男朋友天天做饭”:新型羞耻,害惨中国年轻人

小椰子专栏
2024-06-14 13:02:51
周鸿祎辟谣:小鸟壁纸不是360产品

周鸿祎辟谣:小鸟壁纸不是360产品

快科技
2024-06-15 18:18:15
伊万:孙兴慜身价是我们全队的50倍,但我们在很多方面限制了他

伊万:孙兴慜身价是我们全队的50倍,但我们在很多方面限制了他

直播吧
2024-06-15 19:33:36
外媒:以色列面对真主党左右为难

外媒:以色列面对真主党左右为难

参考消息
2024-06-16 09:57:07
英媒奉劝美国:与其把精力放在压制中国科学上,不如放在推动自己进步上

英媒奉劝美国:与其把精力放在压制中国科学上,不如放在推动自己进步上

参考消息
2024-06-15 14:03:26
心服口服!泰国媒体:中国男足确实比我们强,应该晋级18强赛

心服口服!泰国媒体:中国男足确实比我们强,应该晋级18强赛

国足风云
2024-06-15 16:57:21
台青李东宪呼吁年轻人都应来大陆看看,了解身为中国人是多么光荣

台青李东宪呼吁年轻人都应来大陆看看,了解身为中国人是多么光荣

海峡导报社
2024-06-15 12:06:05
张路谈欧洲杯:德国、法国、英格兰、葡萄牙、西班牙实力差不多

张路谈欧洲杯:德国、法国、英格兰、葡萄牙、西班牙实力差不多

直播吧
2024-06-15 14:24:13
问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

映射生活的身影
2024-06-13 18:26:51
将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

将近40岁满脸褶,却尬演18岁少女,是谁给了她“强行装嫩”的勇气

娱乐圈十三太保
2024-05-28 13:56:53
三星电子越南工厂今年一季度盈利12亿美元

三星电子越南工厂今年一季度盈利12亿美元

芯智讯
2024-06-15 22:48:38
2024-06-16 13:38:44
拓端数据科技
拓端数据科技
数据.咨询.价值
488文章数 106关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

上海一家三口出动去香港过周末 在高铁动卧睡一晚就到

头条要闻

上海一家三口出动去香港过周末 在高铁动卧睡一晚就到

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

教育
房产
数码
家居
公开课

教育要闻

视频 | 山东夏季高考试卷总数404.2万份,记者带您探访评卷现场

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

数码要闻

华为新款MatePad平板来了:支持北斗卫星消息

家居要闻

空谷来音 朴素留白的侘寂之美

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版