编辑导读:随着”数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在”数智化”时代下一步一步得到运用与升华的。
一、我们说的“数据”到底是什么?
我们日常生活中经常会听到这样的问题:你有数据支撑吗?你的数据来源是哪儿?数据噪声大吗?
那么这里的”数据”究竟是怎样的存在?
百度百科对数据定义很简单:数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
而仔细想想,我们日常中所指的数据真的是data吗?其实,我们更多指的是已经形成体系、有逻辑结构和实用性的”数据知识”。
所以,我们也不能把数据当作一个简单的概念,但其实”数据”里面还有很多学问。
下面先给大家引出四个”数据”相关的名词概念,后面我会分别阐述它们”价值变现”的方法论。
你真的了解data、information、kownledge、insight是什么吗?
data(菜市场买来的菜):简单的事实,未处理的,无组织的,原始的。
information(折菜、洗菜):经过结构化组织、处理的数据,要根据”情景和语境”使其具有相关性和实用性。
kownledge(下锅炒菜):是通过学习和经验联系在一起的信息地图,具有预测和决策和概括的能力。
insight(已经到能教别人做菜的程度): 准确而深刻地理解复杂问题或情况的能力(是可以借助工具实现的)。
下面我们就围绕数据来源、数据采集、数据清洗、数据挖掘、数据可视化,这5个方法论逐一阐述~
二、数据来源(菜市场)
如果说,data是我们烹饪所需的原材料,那么确定数据来源就好比我们出去买菜之前要先确定去哪家菜市场买菜一样,而且”菜市场”也是术业有专攻的!买海鲜去海鲜市场、买家禽要去禽类市场…数据也是一个道理,要通过你所需的领域,具体筛选数据来源,毕竟保证数据质量是烹饪佳肴的第一步~
以下是我收集的国内外常用数据来源,有经济、民生、自然科学等相关数据。大家可以参考~
- 国家统计局:http://www.stats.gov.cn/
数据包含我国经济民生等多个方面的数据(GDP、CPI、PPI、PMI等),还能根据时间跨度(月度、季度、年度)进行筛选,较为全面、权威,对社会科学的研究有很大帮助。
- CEIC https://info.ceicdata.com/ceic-database-demo-request-social-media-cn
截至目前,覆盖128个国家地区的经济数据,能准确查找GDP、CPI、进出口贸易金额、国际利率等数据。
- wind(万得) https://www.wind.com.cn/
中国的Bloomberg,在金融业能做到全面的数据覆盖,而且类目、数据更新的很快,金融从事者的宝藏。
- Figshare https://knowledge.figshare.com/
研究成果共享平台,大牛会把研究数据整理好,并发表自己的研究结论,内容很有启发性,网站也很具设计感
- Github https://github.com/
Github 已经为大家整理好了十分全面的数据获取渠道,包含自然科学、社会科学等各个领域,是研究、分析数据的利器。
三、数据采集(买菜)
讲过第一步数据来源,我们已经成功确定了要去的”目标菜市场”,而数据采集则是到了菜市场后我们“买菜”的这个动作,下面我们就来看看目前常用的买菜手法。
- 网络采集器
网络采集器是用软件形式采集网络上的零散内容,它们操作简单,不需要写代码规则,能够抓取文字、图表、超链接等元素,有很好的聚合性,是很多入门者的初级采集工具。目前,国内比较主流的有火车采集器、八爪鱼、集搜客等。
- 网络爬虫
网络爬虫是极客们最喜欢的数据收集形式,它高度自由、自主。利用爬虫能够获取各类高质量的资源,相比于其他方式,它能够很好的解决人工查找对比的麻烦,例如爬取豆瓣网评分8.0以上的电影。但使用网络爬虫的必要前提是精通python语言。
四、数据清洗(择菜、洗菜)
当我们从菜市场买了菜回家后,我们就需要近一步洗菜、折择菜,为后面做菜做好准备。而择菜、洗菜其实就是数据清洗干的事情,大家可以简单的理解为:“取其精华,去其糟粕。”
虽然数据清洗的具体操作要视使用的软件而定,比如python,SQL之类的,但大体方向都是一致的
1.读入原始数据
2.查看整体状况(包括但不限于以下角度:数据的完整性、唯一性、权威性、合法性、一致性)
完整性:缺失值的填补;唯一性:一条数据重复出现多次;权威性:数据来源真实可信
合法性:获取渠道合法合理;一致性:数据指标前后一致
3.剔除脏数据
- 4.形成干净的数据集以备使用
五、数据挖掘(炒菜)
如何把净菜加工成美味的(有价值)的佳肴,这就是数据挖掘做的事。它本质上是从清洗后的有效数据中提取出有价值和潜藏的知识,而这一过程中会需要理论基础、建模分析能力,例如统计学、机器学习等。
比较常见的数据挖掘模型有K-MEANS、决策树、聚类算法等…
六、数据可视化(教人做菜)
前面的数据挖掘是炒菜阶段,数据可视化,则已经上升到追求更好、更易理解、呈现的层面了,类似于厨艺精进后教人做菜、推广厨艺。
此时的受众群体也得到了扩大,常为管理层级的人员(比如,你负责数据的收集、清洗、挖掘、而你劳动的最终结果是要给boss进行报表呈现、辅助决策),并且数据可视化传递的价值也是多维的,在时间维度上,数据可视化得出的规律性结论能辅助今后决策;在作用范围上,于一个公司而言,数据可视化的价值到上能助力管理层人员决策、下能赋能基层员工日常工作。
而目前,市面上的数据可视化工具层出不穷,这里就和大家分享一个我觉得挺好用的工具~
EasyV 官网链接:https://easyv.dtstack.com/zhiyuan
- 适用人群:ALL!!!不管你是小白、职场人、企业高管,这款工具都能轻易上手,并做出炫酷的图表、大屏~
- 功能、组件丰富,满足你能想到的所有需求!
含百余种组件,常用的折线图、饼状图、气泡图、翻牌器等等都有,
而且,组件还能动!!!不像matplotlib做出来只是静态图,看着会舒服很多~
- 傻瓜式操作!简单拖拉拽即可做出炫酷图表、大屏
对代码烂的人来说,简直太友好了!!数据填入,只需要一个萝卜一个坑,看着自己修改就成了
- 服务良心~有求必应,有问必答
七、结语
看到这里,你是否对“数据”有了全新的认识呢?在目前这个数据为王的时代,我们需要比以往更重视数据带来的价值!今天的对”数据”的讲解就到此结束了,有问题的朋友可以留言交流~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.