网易首页 > 网易号 > 正文 申请入驻

关于统计学习流程步骤的几个看法!

0
分享至

 统计学、大数据应用很广泛,常常被提及!统计学习也有一定的规律流程,下面我们大圣众包(www.dashengzb.cn)小编分享一位朋友关于统计学习流程步骤的看法,看看他怎么说。

  统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

  统计学习的一般流程

  得到一个有限的数据集合

  确定所有的学习模型集合

  确定模型选择的准则,就是学习的策略

  实现求解最优模型的算法并通过学习方法选择最优模型

  利用学习得到的最优模型对新数据进行分析或预测

  步骤一:得到一个有限的数据集合

  涉及到以下多个流程:

  1、数据的采集

  2、原始数据的格式化、标准化

  3、原始去噪,去掉错误的值(而不是误差值,这里又涉及到一个复杂的问题,如何界定错误数据)

  4、预处理(针对具体需要研究的问题、抽取相应地特征组成需要研究的数据集合)

  步骤二:确定所有的学习模型集合

  这个问题取决于我们选择怎么样的学习方法。常见得学习方法有:

  1、感知机模型

  2、k近邻法

  3、朴素贝叶斯法

  4、决策树

  5、逻辑斯谛回归和最大熵模型

  6、支持向量机

  7、提升方法AdaBoost

  8、EM算法

  9、隐马尔可夫模型

  10、条件随机场

  而且这些算法还可以进行变异、组合然后形成新的算法模型。也是通常认为中数据挖掘比较核心的部分。

  步骤三:确定模型选择的策略

  一般来说,当你确定了你的学习方法后,在学习的过程中会产生很多个模型。而如何在这些模型中间挑选最优的模型,成为了我们亟待解决的问题。

  一般衡量一个模型的优秀程度我们使用两个指标:

  1、拟合能力

  2、泛化能力

  拟合能力

  表示模型的计算结果和实际结果的相差程度,我们一般使用风险函数来衡量。而风险函数是损失函数的期望。所以我们其实是使用损失函数来衡量一个模型的期望。

  常见的损失函数:

  1、0-1损失函数

  2、平分损失函数

  3、绝对值损失函数

  4、对数损失函数

  损失函数越小,模型的拟合能力就越好。

  泛化能力泛化能力是指模型对新数据的预测能力。一般来说,越复杂的模型的拟合能力越强,但是泛化能力越弱。所以我们需要选择一个适当复杂度的模型,使其泛化能力和拟合能力都足够强。

  而衡量一个模型同时具有较好地泛化能力和拟合能力,我们一般用结构风险函数。

  结构风险函数是在风险函数的基础上面加上一个罚项。通过罚项来降低复杂度高的模型的结构风险函数值。从而达到筛选出合适的复杂度的模型的目的。

  罚项一般取特征空间w的范数,一般有:

  1、L0范数

  2、L1范数

  3、L2范数

  4、核范数…

  步骤四:实现求解最优模型的算法并通过学习方法选择最优模型

  求解最优模型的算法其实就是求解结构风险函数最小值得算法,即结构风险函数最优化的问题。

  如果结构风险函数在我们所关心的区域中是凸函数的话,那么任何局部最小解也是全局最优解。现在已经有稳定,快速的数值计算方法来求二次可微地凸函数的最小值。

  然而,很多时候我们没有办法通过结构风险函数直接算出它的最小值。我们只能通过一些迭代的方式获得局部最优解。

  常见的通过迭代的方式获得局部最优解的算法有:

  1、梯度下降法

  2、牛顿法

  3、共轭梯度法

  4、线性搜索

  5、置信域方法

  另外还有一些算法:

  1、模拟退火

  2、遗传算法

  3、类免疫算法

  4、演化策略

  5、差异演化算法

  6、微粒群算法

  7、神经网络

  8、支持向量机

  步骤五:利用学习得到的最优模型对新数据进行分析或预测

  到这一步一般来说已经成功了,然后往往现实是残酷的,辛辛苦苦20年,一朝回到解放前。

  往往学习得到的模型在实际使用过程当中并不是那么的理想。这里面有很多种原因:

  有可能是原始数据的原因

  有可能是特征选择的原因

  有可能是模型的原因

  有可能是最优模型算法的问题

  有可能是代码错误

  总之,以上的所有步骤的所有细节都可能导致你的模型不够优秀。这就需要你再次的思考这个问题,去不断的优化你的模型。直到得到一个不错的模型。

  小结

  其实数据挖掘涉及的东西远比我上面说的这点东西多的多,我上面提到的还只是监督学习。就光我上面提到的几个步骤。其实每一个步骤都有很多很多东西可以讲,可以研究,工程方面的、算法理论方面的等等等等。

  一入数据挖掘深似海,从此奋斗到天明。

  数据挖掘还是很有意思的,你可以用机器的力量、数学的力量理解世界的运行规律。去预测他或者利用你研究到的东西做一些有意思的事情。

原文地址:http://www.dashengzb.cn/articles/a-369.html

(更多大数据与商业智能领域干货、或电子书,可添加个人微信号(dashenghuaer))

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车友聚会突发意外,多车连环追尾!理想汽车:雨天路滑,车距太近,5辆车受损

车友聚会突发意外,多车连环追尾!理想汽车:雨天路滑,车距太近,5辆车受损

每日经济新闻
2024-06-16 22:49:08
十五座新一线城市热力图对比,成都西安面积大,南京长沙表现如何

十五座新一线城市热力图对比,成都西安面积大,南京长沙表现如何

王姐懒人家常菜
2024-06-17 03:56:39
肝癌很会“伪装”,医生:皮肤出现3种表现,可能是肝在“呼救”

肝癌很会“伪装”,医生:皮肤出现3种表现,可能是肝在“呼救”

碧晴养生汇
2024-06-16 07:27:10
景区发生意外!游客被落石砸中不幸身亡!

景区发生意外!游客被落石砸中不幸身亡!

应急360
2024-06-15 11:54:21
姜萍的崛起,离不开这三本书,以一人之力让《偏微分方程》卖断货

姜萍的崛起,离不开这三本书,以一人之力让《偏微分方程》卖断货

00后态度观察
2024-06-16 22:47:33
美国邻居出书,曝刘亦菲及母亲,在美国二婚的生活细节!

美国邻居出书,曝刘亦菲及母亲,在美国二婚的生活细节!

蜉蝣说
2024-06-16 23:59:07
广汽本田裁员赔偿金太过丰厚,导致员工排队抢裁员名额

广汽本田裁员赔偿金太过丰厚,导致员工排队抢裁员名额

映射生活的身影
2024-06-15 00:48:00
暴雨、高温、大风,中央气象台三预警齐发

暴雨、高温、大风,中央气象台三预警齐发

界面新闻
2024-06-17 07:17:37
容祖儿四十四的生日会搞大了,老板杨受成都吃不消

容祖儿四十四的生日会搞大了,老板杨受成都吃不消

港叔
2024-06-16 10:47:10
他曾是中央政治局常委,后却被秘密处决,尸骨至今仍下落不明

他曾是中央政治局常委,后却被秘密处决,尸骨至今仍下落不明

燕小姐说历史
2024-06-15 08:49:56
欧洲杯葡萄牙对捷克:压轴出场的比赛为什么更容易爆冷?

欧洲杯葡萄牙对捷克:压轴出场的比赛为什么更容易爆冷?

室内设计师阿喇
2024-06-16 22:40:17
华科紧追中科大,西交不敌武大!2024中国大学百强排行榜出炉

华科紧追中科大,西交不敌武大!2024中国大学百强排行榜出炉

水又木二
2024-06-16 11:36:01
凯特王妃有两副面孔,故意跟威廉保持距离,离开镜头后恢复冰山脸

凯特王妃有两副面孔,故意跟威廉保持距离,离开镜头后恢复冰山脸

红袖说事
2024-06-16 09:09:46
祸害人三年的新冠消失了,四大奇怪现象却出现了,很多人没察觉

祸害人三年的新冠消失了,四大奇怪现象却出现了,很多人没察觉

李昕言温度空间
2024-04-19 21:12:55
智利正式申请加入《区域全面经济伙伴关系协定》

智利正式申请加入《区域全面经济伙伴关系协定》

界面新闻
2024-06-16 07:10:30
许可馨:中国没有公平可言法律只是权贵玩物。她为何对祖国不满?

许可馨:中国没有公平可言法律只是权贵玩物。她为何对祖国不满?

兰子记
2024-05-17 20:07:53
专家预测:2025年房价将会是现在的4-5倍!

专家预测:2025年房价将会是现在的4-5倍!

帝都观日记
2024-06-14 23:31:02
王思聪彻底栽了!黄一鸣孩子有“法定继承权”,万达迎来真公主?

王思聪彻底栽了!黄一鸣孩子有“法定继承权”,万达迎来真公主?

木子爱娱乐大号
2024-06-14 14:01:41
宋美龄密谋戴笠暗杀一人,蒋介石得知后怒斥:你要动他,先杀了我

宋美龄密谋戴笠暗杀一人,蒋介石得知后怒斥:你要动他,先杀了我

光头哥的头
2023-12-23 13:38:09
小S精神状态堪忧!假摔真哭大闹录影现场,搭档慌乱嘉宾傻眼

小S精神状态堪忧!假摔真哭大闹录影现场,搭档慌乱嘉宾傻眼

萌神木木
2024-06-16 12:25:55
2024-06-17 09:00:49
大圣众包
大圣众包
大圣众包—DT威客的云端生活
143文章数 283关注度
往期回顾 全部

科技要闻

OpenAI可能会迎来重大变化

头条要闻

牛弹琴:乌和平峰会结束后 泽连斯基谈及中国改口了

头条要闻

牛弹琴:乌和平峰会结束后 泽连斯基谈及中国改口了

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

枝江酒业的补税单,张道红的下马威

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

房产
艺术
教育
数码
家居

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

A地到B地,甲15小时走完,乙25小时,甲乙分别从两地同时出发相向

数码要闻

苹果 Apple Intelligence 功能分批上线,重磅功能要等到 2025 年

家居要闻

空谷来音 朴素留白的侘寂之美

无障碍浏览 进入关怀版