网易首页 > 网易号 > 正文 申请入驻

数据清洗、分析、挖掘、可视化?这篇文章把数据讲透了!

0
分享至

编辑导读:随着”数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在”数智化”时代下一步一步得到运用与升华的。

一、我们说的“数据”到底是什么?

我们日常生活中经常会听到这样的问题:你有数据支撑吗?你的数据来源是哪儿?数据噪声大吗?

那么这里的”数据”究竟是怎样的存在?

百度百科对数据定义很简单:数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

而仔细想想,我们日常中所指的数据真的是data吗?其实,我们更多指的是已经形成体系、有逻辑结构和实用性的”数据知识”

所以,我们也不能把数据当作一个简单的概念,但其实”数据”里面还有很多学问。

下面先给大家引出四个”数据”相关的名词概念后面我会分别阐述它们”价值变现”的方法论

你真的了解data、information、kownledge、insight是什么吗?

data(菜市场买来的菜):简单的事实,未处理的,无组织的,原始的。

information(折菜、洗菜):经过结构化组织、处理的数据,要根据”情景和语境”使其具有相关性和实用性。

kownledge(下锅炒菜):是通过学习和经验联系在一起的信息地图,具有预测和决策和概括的能力。

insight(已经到能教别人做菜的程度): 准确而深刻地理解复杂问题或情况的能力(是可以借助工具实现的)。

下面我们就围绕数据来源、数据采集、数据清洗、数据挖掘、数据可视化,这5个方法论逐一阐述~

二、数据来源(菜市场)

如果说,data是我们烹饪所需的原材料,那么确定数据来源就好比我们出去买菜之前要先确定去哪家菜市场买菜一样,而且”菜市场”也是术业有专攻的!买海鲜去海鲜市场、买家禽要去禽类市场…数据也是一个道理,要通过你所需的领域,具体筛选数据来源,毕竟保证数据质量是烹饪佳肴的第一步~

以下是我收集的国内外常用数据来源,有经济、民生、自然科学等相关数据。大家可以参考~

  • 国家统计局:http://www.stats.gov.cn/

数据包含我国经济民生等多个方面的数据(GDP、CPI、PPI、PMI等),还能根据时间跨度(月度、季度、年度)进行筛选,较为全面、权威,对社会科学的研究有很大帮助。

  • CEIC https://info.ceicdata.com/ceic-database-demo-request-social-media-cn

截至目前,覆盖128个国家地区的经济数据,能准确查找GDP、CPI、进出口贸易金额、国际利率等数据。

  • wind(万得) https://www.wind.com.cn/

中国的Bloomberg,在金融业能做到全面的数据覆盖,而且类目、数据更新的很快,金融从事者的宝藏。

  • Figshare https://knowledge.figshare.com/

研究成果共享平台,大牛会把研究数据整理好,并发表自己的研究结论,内容很有启发性,网站也很具设计感

  • Github https://github.com/

Github 已经为大家整理好了十分全面的数据获取渠道,包含自然科学、社会科学等各个领域,是研究、分析数据的利器。

三、数据采集(买菜)

讲过第一步数据来源,我们已经成功确定了要去的”目标菜市场”,而数据采集则是到了菜市场后我们“买菜”的这个动作,下面我们就来看看目前常用的买菜手法。

  • 网络采集器

网络采集器是用软件形式采集网络上的零散内容,它们操作简单不需要写代码规则,能够抓取文字、图表、超链接等元素,有很好的聚合性,是很多入门者的初级采集工具。目前,国内比较主流的有火车采集器、八爪鱼、集搜客等。

  • 网络爬虫

网络爬虫是极客们最喜欢的数据收集形式,它高度自由、自主。利用爬虫能够获取各类高质量的资源,相比于其他方式,它能够很好的解决人工查找对比的麻烦,例如爬取豆瓣网评分8.0以上的电影。但使用网络爬虫的必要前提是精通python语言

四、数据清洗(择菜、洗菜)

当我们从菜市场买了菜回家后,我们就需要近一步洗菜、折择菜,为后面做菜做好准备。而择菜、洗菜其实就是数据清洗干的事情,大家可以简单的理解为:“取其精华,去其糟粕。”

虽然数据清洗具体操作视使用的软件而定,比如python,SQL之类的,但大体方向都是一致的

1.读入原始数据

2.查看整体状况(包括但不限于以下角度:数据的完整性、唯一性、权威性、合法性、一致性

完整性缺失值的填补;唯一性:一条数据重复出现多次;权威性:数据来源真实可信

合法性:获取渠道合法合理;一致性:数据指标前后一致

3.剔除脏数据

  • 4.形成干净的数据集以备使用
五、数据挖掘(炒菜)

如何把净菜加工美味的(有价值)的佳肴,这就是数据挖掘做的事。它本质上是从清洗后的有效数据中提取出有价值和潜藏的知识,而这一过程中会需要理论基础、建模分析能力,例如统计学、机器学习等。

比较常见的数据挖掘模型有K-MEANS、决策树、聚类算法等…

六、数据可视化(教人做菜)

前面的数据挖掘炒菜阶段,数据可视化,则已经上升到追求更好、更易理解、呈现的层面了,类似于厨艺精后教人做菜、推广厨艺

此时的受众群体也得到了扩大,常为管理层级的人员(比如,你负责数据的收集、清洗、挖掘、而你劳动的最终结果是要给boss进行报表呈现、辅助决策),并且数据可视化传递的价值也是多维的,在时间维度上,数据可视化得出的规律性结论能辅助今后决策;在作用范围上,于一个公司而言,数据可视化的价值到上能助力管理层人员决策、下能赋能基层员工日常工作

而目前,市面上的数据可视化工具层出不穷,这里就和大家分享一个我觉得挺好用的工具~

EasyV 官网链接:https://easyv.dtstack.com/zhiyuan

  • 适用人群:ALL!!!不管你是小白、职场人、企业高管,这款工具都能轻易上手,并做出炫酷的图表、大屏~

  • 功能、组件丰富,满足你能想到的所有需求!

百余种组件,常用的折线图、饼状图、气泡图、翻牌器等等都有,

而且,组件还能动!!!不像matplotlib做出来只是静态图,看着会舒服很多~

  • 傻瓜式操作!简单拖拉拽即可做出炫酷图表、大屏

代码烂的人来说,简直太友好了!!数据填入,只需要一个萝卜一个坑,看着自己修改就成了

  • 服务良心~有求必应,有问必答

七、结语

看到这里,你是否对“数据”有了全新的认识呢?在目前这个数据为王的时代,我们需要比以往更重视数据带来的价值!今天的对”数据”的讲解就到此结束了,有问题的朋友可以留言交流~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

影孖看世界
2026-05-25 23:43:38
高超音速导弹只为埋下“昂贵金属”!空袭后的基辅:热咖啡和婚纱

高超音速导弹只为埋下“昂贵金属”!空袭后的基辅:热咖啡和婚纱

鹰眼Defence
2026-05-25 12:32:58
湖人与骑士潜在交易选择!先签后换詹姆斯 哈登重返家乡加盟湖人

湖人与骑士潜在交易选择!先签后换詹姆斯 哈登重返家乡加盟湖人

罗说NBA
2026-05-26 05:59:16
极目帮办 车租给一女子后对方失联,重庆车主求助媒体寻车

极目帮办 车租给一女子后对方失联,重庆车主求助媒体寻车

极目新闻
2026-05-25 21:42:20
“新型啃老”已来临,985毕业生家里蹲,家长:不工作也不结婚

“新型啃老”已来临,985毕业生家里蹲,家长:不工作也不结婚

户外阿毽
2026-05-25 15:03:21
开始离谱了!燕郊板块房价从4万变6千,业主集体断供

开始离谱了!燕郊板块房价从4万变6千,业主集体断供

专业聊房君
2026-05-25 07:28:59
博主“硬刚”稻城亚丁景区“截断近40公里省道收费”,多方回应

博主“硬刚”稻城亚丁景区“截断近40公里省道收费”,多方回应

上游新闻
2026-05-25 14:46:47
有50年从业经历的煤老板坑了博士县长

有50年从业经历的煤老板坑了博士县长

深度财线
2026-05-25 14:32:25
极目深度丨暴雨、山洪、泥石流袭击石门:侥幸逃生的村民在山头眺望家乡,发现村庄已消失不见

极目深度丨暴雨、山洪、泥石流袭击石门:侥幸逃生的村民在山头眺望家乡,发现村庄已消失不见

极目新闻
2026-05-25 17:29:14
稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

映射生活的身影
2026-05-25 16:55:04
演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

秋姐居
2026-05-25 19:47:13
西班牙公布世界杯26人名单:亚马尔带伤入选!皇马0人 赫伊森无缘

西班牙公布世界杯26人名单:亚马尔带伤入选!皇马0人 赫伊森无缘

我爱英超
2026-05-25 18:54:10
武契奇抵京引发国内动荡,三万人抗议其访华

武契奇抵京引发国内动荡,三万人抗议其访华

君笙拂兮啊
2026-05-25 07:39:46
郑钦文出局创7大尴尬数据:第四次大满贯一轮游 暴跌至第117名

郑钦文出局创7大尴尬数据:第四次大满贯一轮游 暴跌至第117名

醉卧浮生
2026-05-25 19:06:14
山姆“偷吃”事件大反转,网友:太歹毒了!

山姆“偷吃”事件大反转,网友:太歹毒了!

品牌新
2026-05-25 17:31:13
黎家盈太空24小时内恶心事件接连发生不止一件引发关注

黎家盈太空24小时内恶心事件接连发生不止一件引发关注

奇怪的鲨鱼们
2026-05-25 22:29:40
为死难学生复仇!俄榛树连夜砸向基辅,泽连斯基:你们简直疯了

为死难学生复仇!俄榛树连夜砸向基辅,泽连斯基:你们简直疯了

小莜读史
2026-05-26 01:35:34
美国新规:百万华人离境十年不得入境

美国新规:百万华人离境十年不得入境

深度解析热点
2026-05-25 22:43:01
央视紧急发布提醒!全民做好家庭应急储备,细节务必牢记

央视紧急发布提醒!全民做好家庭应急储备,细节务必牢记

匹夫来搞笑
2026-05-26 02:28:44
“男性相亲避雷表”横空出世!网友:百发百中,基本没有猜错的

“男性相亲避雷表”横空出世!网友:百发百中,基本没有猜错的

火山詩话
2026-05-25 06:33:21
2026-05-26 06:40:49
数据可视化那些事
数据可视化那些事
万物以数据互联未来因数据智能
22文章数 26关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

旅游
数码
房产
公开课
军事航空

旅游要闻

一场市集打开文旅消费新空间

数码要闻

荣耀600系列发布:国补后2294.15元起 续航影像全升级

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版