网易首页 > 网易号 > 正文 申请入驻

使用Seaborn和Pandas进行相关性分析和可视化

0
分享至

您如何衡量相关性?使用Python查找相关性使用Seaborn进行可视化我们的发现结论

数据集可以讲述很多故事。要想了解这些故事的展开,最好的方法就是从检查变量之间的相关性开始。在研究数据集时,我首先执行的任务之一是查看哪些变量具有相关性。这让我更好地理解我正在使用的数据。这也是培养对数据的兴趣和建立一些初始问题来尝试回答的好方法。简单地说,相关性是非常重要的。

Python的最大好处就库多,有很多库已经为我们提供了快速有效地查看相关性所需的工具。让我们简要地看看什么是相关性,以及如何使用热图在数据集中找到强相关性。

什么是相关性?

相关性是一种确定数据集中的两个变量是否以任何方式关联的方法。 关联具有许多实际应用。 我们可以查看使用某些搜索词是否与youtube上的观看次数相关。 或者查看广告是否与销售相关。 建立机器学习模型时,相关性是确定特征的重要因素。 这不仅可以帮助我们查看哪些要素是线性相关的,而且如果要素之间的相关性很强,我们可以将其删除以防止信息重复。

您如何衡量相关性?

在数据科学中,我们可以使用r值,也称为Pearson的相关系数。 这可测量两个数字序列(即列,列表,序列等)之间的相关程度。

r值是介于-1和1之间的数字。它告诉我们两列是正相关,不相关还是负相关。 越接近1,则正相关越强。 接近-1时,负相关性越强(即,列越“相反”)。 越接近0,相关性越弱。

r值公式

让我们通过一个简单的数据集进行相关性的可视化

它具有以下列,重量,年龄(以月为单位),乳牙数量和眼睛颜色。眼睛颜色列已分类为1 =蓝色,2 =绿色和3 = 棕色。

让我们使用以上数据绘制3个散点图。 我们将研究以下3种关系:年龄和体重,年龄和乳牙以及年龄和眼睛的颜色。

年龄和体重

当我们观察年龄和体重之间的相关性时,图上的点开始形成一个正斜率。当我们计算r值时,得到0.954491。随着r值如此接近1,我们可以得出年龄和体重有很强的正相关关系的结论。一般情况下,这应该是正确的。在成长中的孩子中,随着年龄的增长,他们的体重开始增加。

年龄和乳牙

相反,年龄和乳牙散点图上的点开始形成一个负斜率。该相关性的r值为-0.958188。这表明了很强的负相关关系。直观上,这也是有道理的。随着孩子年龄的增长,他们乳牙会被替换掉。

年龄和眼睛颜色

在上一个散点图中,我们看到一些点没有明显的斜率。该相关性的r值为-0.126163。年龄和眼睛颜色之间没有显著的相关性。这也应该说得通,因为眼睛的颜色不应该随着孩子长大而改变。如果这种关系显示出很强的相关性,我们会想要检查数据来找出原因。

使用Python查找相关性

让我们看看一个更大的数据集,并且使用Python的库查找相关性。

我们将使用来自于一个Kaggle上关于流媒体平台上的电影数据集。这个数据集包含哪些电影来自于哪个平台,它还包括关于每部电影的一些不同的列,如名称、IMDB分数等。

导入数据和简单的清洗

我们将首先导入数据集,然后使用PANDAS将其转换为DataFrame。

import pandas as pd
movies = pd.read_csv("MoviesOnStreamingPlatforms_updated.csv")Rotten Tomatoes列(烂番茄,国外著名的电影评分网站)是一个字符串,让我们将数据类型改为浮点数。

movies['Rotten Tomatoes'] = movies['Rotten Tomatoes'].str.replace("%" , "").astype(float)

Type列似乎没有正确输入,让我们删除它。

movies.drop("Type", inplace=True, axis=1)

好了,现在可以进行我们的工作了!

使用core()方法

使用Pandas correlation方法,我们可以看到DataFrame中所有数字列的相关性。因为这是一个方法,我们所要做的就是在DataFrame上调用它。返回值将是一个新的DataFrame,显示每个相关性。

corr()方法有一个参数,允许您选择查找相关系数的方法。默认方法是Pearson方法,但您也可以选择Kendall或Spearman方法。

correlations = movies.corr()
print(correlations)\\ID Year IMDb Rotten Tomatoes Netflix \
ID 1.000000 -0.254391 -0.399953 -0.201452 -0.708680
Year -0.254391 1.000000 -0.021181 -0.057137 0.258533
IMDb -0.399953 -0.021181 1.000000 0.616320 0.135105
Rotten Tomatoes -0.201452 -0.057137 0.616320 1.000000 0.017842
Netflix -0.708680 0.258533 0.135105 0.017842 1.000000
Hulu -0.219737 0.098009 0.042191 0.020373 -0.107911
Prime Video 0.554120 -0.253377 -0.163447 -0.049916 -0.757215
Disney+ 0.287011 -0.046819 0.075895 -0.011805 -0.088927
Runtime -0.206003 0.081984 0.088987 0.003791 0.099526
Hulu Prime Video Disney+ Runtime
ID -0.219737 0.554120 0.287011 -0.206003
Year 0.098009 -0.253377 -0.046819 0.081984
IMDb 0.042191 -0.163447 0.075895 0.088987
Rotten Tomatoes 0.020373 -0.049916 -0.011805 0.003791
Netflix -0.107911 -0.757215 -0.088927 0.099526
Hulu 1.000000 -0.255641 -0.034317 0.033985
Prime Video -0.255641 1.000000 -0.298900 -0.067378
Disney+ -0.034317 -0.298900 1.000000 -0.019976
Runtime 0.033985 -0.067378 -0.019976 1.000000

输出的列太多,使其难以读取。这只是9个变量的相关性,结果是一个9x9的网格。你能想象看到20或30个吗?这将是非常困难的。

输出

如果我们不调用打印,只是让Jupyter格式返回。

movies.corr()

我们还可以通过使用列名进行切片来单独检查每个变量。

print(correlations["Year"])
//
ID -0.254391
Year 1.000000
IMDb -0.021181
Rotten Tomatoes -0.057137
Netflix 0.258533
Hulu 0.098009
Prime Video -0.253377
Disney+ -0.046819
Runtime 0.081984

如果仅查看1个变量的相关性,则它较易读且足够。 但是,必须有一种更简单的方法来查看整个数据集。

使用Seaborn进行可视化

我们可以通过seaborn快速生成热图。为什么使用seaborn?因为seaborn是基于matplotlib开发的并且提供了更多的扩展功能,最主要是的,它比matplotlib漂亮。

#always remember your magic function if using Jupyter
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt
sns.heatmap(correlations)
plt.show()

我们的发现

现在我们可以快速看到一些相关性。

· IMDb和烂番茄之间有很强的正相关性。 以及主要视频和ID之间的强正相关性。

· Netflix与Year之间存在轻微的正相关。

· Netflix与ID,Netflix和Prime Video之间的强烈负相关

· Year和Prime Video,Disney Plus和Prime Video,Hulu和Prime Video以及Netflix和ID之间存在轻微的负相关。

· runtime 与任何流平台之间都没有关联

· Netflix与年份之间没有关联

有了这些信息,我们可以进行一些观察。

· 由于ID与所显示的两个平台之间的正相关和负相关性很强,因此先按顺序添加数据,然后依次添加Netflix和Prime Video。 如果我们要用这些数据来构建模型,则最好在将其拆分为测试和训练数据之前将其打乱。

· 看起来Netflix有较新的电影。 这可能是要探索的假设。

· 与其他流媒体平台相比,Netflix和亚马逊似乎拥有最多的独特电影。 要探索的另一个假设。

· 不同的平台似乎不会根据评论者的得分来选择电影。 我们可以探索另一个很酷的假设。

在几秒钟内,我们就能看到如何输入数据,并至少可以探索3个想法。

结论

通过使用seaborn的热图,我们可以轻松地看到最相关的位置。这对于了解一个新的数据集是非常有帮助的

作者:Jeremiah Lutes

deephub翻译组

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
株洲杀猪宴失控!央视新华社接连怒批,句句戳心窝,这下麻烦大了

株洲杀猪宴失控!央视新华社接连怒批,句句戳心窝,这下麻烦大了

阿纂看事
2026-01-24 15:49:11
武汉、宜昌入选!全国拟开展有奖发票试点城市名单公示

武汉、宜昌入选!全国拟开展有奖发票试点城市名单公示

极目新闻
2026-01-24 13:48:17
出大事了!中国收到“战书”,这次不是美国,中方已经做好准备

出大事了!中国收到“战书”,这次不是美国,中方已经做好准备

爱吃醋的猫咪
2026-01-23 20:27:00
难以置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

难以置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

火山诗话
2026-01-24 11:37:19
罗永浩,人民日报表扬你了!

罗永浩,人民日报表扬你了!

不主流讲话
2026-01-24 13:59:20
1月24日俄乌最新:斯塔默要求川普道歉

1月24日俄乌最新:斯塔默要求川普道歉

西楼饮月
2026-01-24 16:04:22
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
特朗普暴跳如雷,短短两天他领教了:欧俄的精明、中国的顶级阳谋

特朗普暴跳如雷,短短两天他领教了:欧俄的精明、中国的顶级阳谋

娱乐督察中
2026-01-24 05:54:28
奖金230万!王欣瑜首进澳网16强,排名飙升第33,接近超越郑钦文

奖金230万!王欣瑜首进澳网16强,排名飙升第33,接近超越郑钦文

侃球熊弟
2026-01-24 18:19:51
曹轶欧回忆:1933年,康生亲手用斧子劈死了顾顺章的家人

曹轶欧回忆:1933年,康生亲手用斧子劈死了顾顺章的家人

文史季季红
2026-01-23 13:00:02
株洲尹明杀猪宴后续:双方各执一词,警方介入,结局让人唏嘘

株洲尹明杀猪宴后续:双方各执一词,警方介入,结局让人唏嘘

阿纂看事
2026-01-23 14:57:24
保时捷女销冠来汉领取“特别贡献奖”:去年卖出192台车连续三年蝉联销冠,超60%是女顾客,今年没有定目标

保时捷女销冠来汉领取“特别贡献奖”:去年卖出192台车连续三年蝉联销冠,超60%是女顾客,今年没有定目标

极目新闻
2026-01-24 18:12:15
工厂停摆、门店撤退:理想汽车的“严冬”,比预想中来得更冷

工厂停摆、门店撤退:理想汽车的“严冬”,比预想中来得更冷

科技Nice
2026-01-23 11:27:59
事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

李橑在北漂
2026-01-21 22:26:50
央视揭秘“夺命红薯”!商家故意投毒,已蔓延全国多地,赶紧扔掉

央视揭秘“夺命红薯”!商家故意投毒,已蔓延全国多地,赶紧扔掉

阅微札记
2026-01-24 12:00:30
重兵包抄伊朗,特朗普要打了?普京已通告俄将出手,中方也有行动

重兵包抄伊朗,特朗普要打了?普京已通告俄将出手,中方也有行动

科普100克克
2026-01-24 18:11:51
停车11分钟收费16元,车主抱怨收费太贵不合理;市监部门回应:市场自由定价,有公示不算违规

停车11分钟收费16元,车主抱怨收费太贵不合理;市监部门回应:市场自由定价,有公示不算违规

大风新闻
2026-01-24 17:12:03
女留学生回国就诊“肛裂”!网友:公司现招聘海龟要体检生殖系统

女留学生回国就诊“肛裂”!网友:公司现招聘海龟要体检生殖系统

火山诗话
2026-01-24 07:32:05
安东尼奥:中日足球差距巨大 但足球是圆的!决赛会发生特别的事

安东尼奥:中日足球差距巨大 但足球是圆的!决赛会发生特别的事

爱奇艺体育
2026-01-24 09:18:12
2026-01-24 21:47:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1899文章数 1443关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

越共中央政治局"新面孔"接近一半 现任国家主席没出现

头条要闻

越共中央政治局"新面孔"接近一半 现任国家主席没出现

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

教育
游戏
家居
本地
公开课

教育要闻

傅佩荣:这对父子的对话,揭开了时下多数家庭的伤疤

LPL春季赛:救救TES,哥哥快回来吧!AL三局击溃TES

家居要闻

在家度假 160平南洋混搭宅

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版