网易首页 > 网易号 > 正文 申请入驻

数据挖掘经典算法汇总

0
分享至

参加大叔培训学习的一定知道数据挖掘,那么数据挖掘的算法在参加大数据培训班的时候要讲多少个呢,答案肯定是不会全部讲述的,那样也不太现实,今天我们就来了解一下大数据培训中有的或者是没有的数据挖掘的算法。

数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。

1:C4.5

C4.5就是一个决策树算法,它是决策树(决策树也就是做决策的节点间像一棵树一样的组织方式,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。

2:CART

CART也是一种决策树算法!相对于上有条件实现一个节点下面有多个子树的多元分类,CART只是分类两个子树,这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。

3:KNN(K Nearest Neighbours)

这个很简单,就是看你周围的K个人(样本)中哪个类别的人占的多,哪个多,那我就是多的那个。实现起来就是对每个训练样本都计算与其相似度,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,谁多跟谁。

4:Naive Bayes(朴素贝叶斯NB)

NB认为各个特征是独立的,谁也不关谁的事。所以一个样本(特征值的集合,比如“数据结构”出现2次,“文件”出现1次),可以通过对其所有出现特征在给定类别的概率相乘。比如“数据结构”出现在类1的概率为0.5,“文件”出现在类1的概率为0.3,则可认为其属于类1的概率为0.5*0.5*0.3。

5:Support Vector Machine(支持向量机SVM)

SVM就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远)。这个没具体实现过,上次听课,那位老师自称自己实现了SVM,敬佩其钻研精神。常用的工具包括是LibSVM、SVMLight、MySVM。

6:EM(期望最大化)

这个我认为就是假设数据是由几个高斯分布组成的,所以最后就是要求几个高斯分布的参数。通过先假设几个值,然后通过反复迭代,以期望得到最好的拟合。

7:Apriori

这个是做关联规则用的。不知道为什么,一提高关联规则我就想到购物篮数据。这个没实现过,不过也还要理解,它就是通过支持度和置信度两个量来工作,不过对于Apriori,它通过频繁项集的一些规律(频繁项集的子集必定是频繁项集等等啦)来减少计算复杂度。

8:FP-Tree

(Mining frequent patterns without candidate generation)

这个也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息。采用算法:将提供频繁项集的数据库压缩到一个FP-tree来保留项集关联信息,然后将压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个条件数据库关联一个频繁项集。

9:PageRank

大名鼎鼎的PageRank大家应该都知道(Google靠此专利发家,其实也不能说发家啦!)。对于这个算法我的理解就是:如果我指向你(网页间的连接)则表示我承认你,则在计算你的重要性的时候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承认多少个人)。通过反复这样来,可以求得一个稳定的衡量各个人(网页)重要性的值。不过这里必须要做些限制(一个人的开始默认重要性都是1),不然那些值会越来越大越来越大。

10:HITS

HITS也是一个连接分析算法,它是由IBM首先提出的。在HITS,每个节点(网页)都有一个重要度和权威度(Hubs and authorities,我也忘了具体的翻译是什么了)。通过反复通过权威度来求重要度,通过重要度来求权威度得到最后的权威度和重要度。

11:K-Means

K-Means是一种最经典也是使用最广泛的聚类方法,时至今日仍然有很多基于其的改进模型提出。K-Means的思想很简单,对于一个聚类任务(你需要指明聚成几个类,当然按照自然想法来说不应该需要指明类数,这个问题也是当前聚类任务的一个值得研究的课题),首先随机选择K个簇中心,然后反复计算下面的过程直到所有簇中心不改变(簇集合不改变)为止。

12:BIRCH

BIRCH也是一种聚类算法,其全称是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理论没具体实现过。是一个综合的层次聚类特征(Clustering Feature, CF)和聚类特征树(CF Tree)两个概念,用于概括聚类描述。聚类特征树概括了聚类的有用信息,并且占用空间较元数据集合小得多,可以存放在内存中,从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。

13:AdaBoost

AdaBoost做分类的一般知道,它是一种boosting方法。这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,可以是决策树,NB,SVM等。

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

14:GSP

GSP,全称为Generalized Sequential Pattern(广义序模式),是一种序列挖掘算法。GSP类似于Apriori算法,采用冗余候选模式的剪除策略和特殊的数据结构—–哈希树来实现候选模式的快速访存。

15:PrefixSpan

又是一个类似Apriori的序列挖掘。

在上边的数据挖掘算法中其中十大经典算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。

文章转载链接:http://www.atguigu.com/jsfx/9686.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
都是30岁,安度因和瓦里安的差距有多大!

都是30岁,安度因和瓦里安的差距有多大!

苹果牛看游戏
2024-06-16 10:48:32
浓茶是肾衰竭的“加速器”?医生:若想肾脏健康,这几物一定注意

浓茶是肾衰竭的“加速器”?医生:若想肾脏健康,这几物一定注意

泌尿男科王医生
2024-06-17 11:00:02
小米空调销量暴涨!京东配送:送10台空调有7台是小米

小米空调销量暴涨!京东配送:送10台空调有7台是小米

手机中国
2024-06-20 09:46:13
为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

星辰故事屋
2024-06-11 17:30:43
噩耗:他于6月19日去世。出身“中国最牛家族”,干出七个第一

噩耗:他于6月19日去世。出身“中国最牛家族”,干出七个第一

华人星光
2024-06-19 16:23:29
凌晨3点,商贩与执法城管起争执,西瓜被砸碎一地!当地回应

凌晨3点,商贩与执法城管起争执,西瓜被砸碎一地!当地回应

鲁中晨报
2024-06-20 08:39:07
官宣,国产新型科幻潜艇服役后公开亮相

官宣,国产新型科幻潜艇服役后公开亮相

武器纵论
2024-06-19 13:26:29
江苏最牛的3个县市,享有地级市权限,苏北1个,苏中1个,苏南1个

江苏最牛的3个县市,享有地级市权限,苏北1个,苏中1个,苏南1个

一口娱乐
2024-06-20 07:25:31
外媒:白宫严厉驳斥内塔尼亚胡

外媒:白宫严厉驳斥内塔尼亚胡

参考消息
2024-06-19 19:09:05
心内科第一神药,除了降压,还预防猝死,5类高血压人群更适合

心内科第一神药,除了降压,还预防猝死,5类高血压人群更适合

荷兰豆爱健康
2024-06-19 07:35:07
普京邀请金正恩一同乘坐的专车阿鲁斯,到底有多高级?

普京邀请金正恩一同乘坐的专车阿鲁斯,到底有多高级?

躬耕牛
2024-06-19 16:52:20
奔驰新S级外观曝光!换超大格栅+星型灯组,比宝马7系大气?

奔驰新S级外观曝光!换超大格栅+星型灯组,比宝马7系大气?

网上车市
2024-06-20 11:20:20
阿森纳8折购意甲金靴,补强全队最大短板,挑战曼城英超霸主地位

阿森纳8折购意甲金靴,补强全队最大短板,挑战曼城英超霸主地位

宝哥爱足球
2024-06-20 00:45:30
确定续约!5年3.15亿顶薪!恭喜塔图姆,NBA历史第一人

确定续约!5年3.15亿顶薪!恭喜塔图姆,NBA历史第一人

篮球教学论坛
2024-06-19 10:46:52
湖南23岁女子去当保安,每天追剧玩手机月薪6000多:少走20年弯路

湖南23岁女子去当保安,每天追剧玩手机月薪6000多:少走20年弯路

唐小糖说情感
2024-06-19 19:10:47
从现在到入伏,建议:这3种食物常给家人吃,赶走暑气,安稳度夏

从现在到入伏,建议:这3种食物常给家人吃,赶走暑气,安稳度夏

花小厨
2024-06-17 09:46:34
国服玩家欢呼!开服节日专属掉落曝光!两项服务将提前开放

国服玩家欢呼!开服节日专属掉落曝光!两项服务将提前开放

魔兽世界情报局
2024-06-19 23:41:17
玲花被问:天天跟曾毅在一起,老公吃醋吗?没想到耿直回答笑翻了

玲花被问:天天跟曾毅在一起,老公吃醋吗?没想到耿直回答笑翻了

学史思今
2024-06-18 17:00:02
王思聪当“爹”,律师科普:未经父允许生下的孩子,必须负责吗?

王思聪当“爹”,律师科普:未经父允许生下的孩子,必须负责吗?

周兆成律师
2024-06-18 18:14:32
刘思齐年轻时,妥妥一个小美女,更是一位有情有义的姑娘

刘思齐年轻时,妥妥一个小美女,更是一位有情有义的姑娘

大江
2024-06-13 16:52:21
2024-06-20 12:06:44
IT爱好者小尚
IT爱好者小尚
分享IT教育类信息
630文章数 55关注度
往期回顾 全部

科技要闻

苹果回应AI仅限iPhone15Pro:不是为卖新机

头条要闻

冯德莱恩谋求连任欧委会主席 遭意大利女总理强烈反对

头条要闻

冯德莱恩谋求连任欧委会主席 遭意大利女总理强烈反对

体育要闻

绿军的真老大,开始备战下赛季了

娱乐要闻

离谱!24岁女偶像参加涉毒男星生日聚会,坐在桌边陪赌

财经要闻

茅台大跌,谁的锅?

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

时尚
本地
旅游
房产
军事航空

“T恤”作为夏季的基础款,竟然有这么多种穿法

本地新闻

中式沙拉宇宙的天花板,它必须有姓名

旅游要闻

千万别错过!甘孜雪山奇景 享受云中看海

房产要闻

海棠湾!一所重量级国际学校真的来了!

军事要闻

以色列涉嫌在加沙使用重型炸弹 或多次违反战争法

无障碍浏览 进入关怀版