网易首页 > 网易号 > 正文 申请入驻

大数据如何完整的进行数据探察

0
分享至

如何进行数据探察
对于数仓操作,数据探察是很重要的一步,为了获得数据库的数据情况,了解数据分别和数据数值以及数据库运行情况
充分了解库表情况,从数据入手,知道数据的前世今生,对于进行接下来的工作尤为重要。
数据探察最直接的方式就是使用SQL查询表数据,得到数据的类型、数据分布、空值情况、数值占比等等
一、数据探察内容
数据探察的内容大概可以总结为以下几种:
1. 模型信息:
可以从数据表名、数据来源、数据生命周期、粒度这些入手
2. 字段分类:
字段术语维度属性、文本、主键、关联键、时间等等
3. 字段名:
表中原始的字段名
4. 字段类型:
表中原始的字段类型
5. 字段含义:
字段代表的含义,比如:job_id,就是任务标识号
6. 字段数值:
每个字段的数值,如果有一些字段是字符代表的,数值代表含义比如1和0等,配合下一项使用
7. 取值说明:
数值的取值,数值所占的比例,给出可测的数值的比例,就是有很多代表的,比如只有1和0这种,如果三千条数据,有三千个值,就不需要
8. 数据量:
每个字段有多少行数据,注意:空值和null是不一样的
9. 去重后的数据量:
对于重复数据的统计
10. 无数据统计:
字段中无数据占有的行数
11. 非空值占比:
字段数值的占比情况,了解该字段的数值分布
12. sample1、sample2:
给出两个样本数据
13. 待确定问题:
如果对于某个字段不明确,需要和建表人确定
二、数据探察过程操作
知道了数据探察的内容,就需要考虑数据探察的过程怎么进行
首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息
第6点一般在建表中的表描述都有说明,若没有说明,可以在字段数据量的统计中自行思考
第7点:
取值说明就需要对数据进行计算,比如某个字段,有8个数值,我们就需要得出这8个的具体数值是什么,并且求出其所占比例
select column
,count(*)
from table_name
group by column; -- 探寻某个字段的取值和值数量
select column
,count(*)/总量
from table_name
group by column; -- 探寻某个字段的取值和值数量占比
第8点:数据量问题
select count(column)
from table_name; -- 得到某个字段的总数
注意:这里可能会有疑问,这样求得的字段总数应该都是一样的。这个想法当然没问题,如果存在null,则不会记录在count中,但是空值的话就会记录在count中,所以空值和null是不同的
第9点:去重后的数据量
了解字段数据的重复情况,可能存在大量的重复数据,去重操作
select count(*) -- 去重后的数据量
from (
select distinct column
from table_name
) t;


第10点:空值统计,这种情况可以使用if和sum的组合
select sum(if(name="",1,0) -- 空值赋予1,非空赋予0,求得的和就是空值的数据量
from table_name;
第11点:非空值占比
在上一步已经求出了空值个数,那么求得非空值占比也是一样的道理
第12点:两个样本数据
这个就直接查询出两个数据就可以了
select *
from table_name
limit 2;
第12点:如果对于探察的过程中,有某些字段存在疑问,可以在后面注明
最后,给出一行探察示例
总之,数据探察是为了充分的了解数据,怎么能够快速充分了解,就怎么探察,可以根据需要增加探察内容,比如对于关联字段,还可以接着往下探察,与哪张表进行关联,关联之后得到的数据表又是哪张。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0-3惨败?被日本女排双杀?中国女排二队,已经退无可退

0-3惨败?被日本女排双杀?中国女排二队,已经退无可退

体育就你秀
2024-06-20 15:18:00
沪指险守3000点,悬着的心还在悬着

沪指险守3000点,悬着的心还在悬着

每经牛眼
2024-06-20 15:49:04
凌晨3点,商贩与执法城管起争执,西瓜被砸碎一地!当地回应

凌晨3点,商贩与执法城管起争执,西瓜被砸碎一地!当地回应

鲁中晨报
2024-06-20 08:39:07
有人质疑排名第十二的姜萍,为什么没有人质疑排名第一的韦东奕

有人质疑排名第十二的姜萍,为什么没有人质疑排名第一的韦东奕

王朝风云
2024-06-20 07:08:48
有上市公司因拖欠18万税款,被要求补缴滞纳金3500多万?

有上市公司因拖欠18万税款,被要求补缴滞纳金3500多万?

小萝卜丝
2024-06-20 17:34:45
某公益项目5月募捐共19万,给患者1万9,合唱团开销16万,0排练0演出

某公益项目5月募捐共19万,给患者1万9,合唱团开销16万,0排练0演出

可达鸭面面观
2024-06-20 17:36:38
走私 596 颗 CPU、每颗 1.8 万元、被拦截!

走私 596 颗 CPU、每颗 1.8 万元、被拦截!

云头条
2024-06-19 23:59:49
电动车因颜值高4天内被盗3次!警方:3人到手后疯狂驾驶2小时,仍意犹未尽

电动车因颜值高4天内被盗3次!警方:3人到手后疯狂驾驶2小时,仍意犹未尽

每日经济新闻
2024-06-20 10:50:27
中联部部长在海参崴出席“抵制新殖民主义”论坛,让人如鲠在喉

中联部部长在海参崴出席“抵制新殖民主义”论坛,让人如鲠在喉

顾礼先生
2024-06-20 14:53:15
照片作者,被枪毙了!

照片作者,被枪毙了!

人间颂
2024-06-20 13:17:27
下午6点中国女排决战日本,看到大名单球迷怒喷:她上场就关电视

下午6点中国女排决战日本,看到大名单球迷怒喷:她上场就关电视

我就是一个说球的
2024-06-20 12:44:08
网友:苏州昆山房价现在跌成啥样了!继续跌吧,我只看看…

网友:苏州昆山房价现在跌成啥样了!继续跌吧,我只看看…

火山诗话
2024-06-20 09:11:54
放弃社会主义制度的20多个国家,现在的状况都怎么样了

放弃社会主义制度的20多个国家,现在的状况都怎么样了

云舟史策
2024-06-17 19:30:33
热闻|柳州两任市委书记同日被通报,此前为“老搭档”,曾同受处分

热闻|柳州两任市委书记同日被通报,此前为“老搭档”,曾同受处分

齐鲁壹点
2024-06-20 14:13:31
“谈判桌上,不会有她的一席之地”

“谈判桌上,不会有她的一席之地”

观察者网
2024-06-20 15:38:11
多省设立“警税合成作战中心”,背后有何考量?如何打消疑虑

多省设立“警税合成作战中心”,背后有何考量?如何打消疑虑

南方都市报
2024-06-20 15:49:09
复旦毕业生打老师后续:同学曝打人原因,本人发声道歉,评论炸锅

复旦毕业生打老师后续:同学曝打人原因,本人发声道歉,评论炸锅

180°视角
2024-06-20 10:21:17
华为官宣自研AI芯片超越英伟达

华为官宣自研AI芯片超越英伟达

中关村在线
2024-06-19 15:25:16
还是斧头好用,一砸一个洞,菲律宾补给船全军覆没

还是斧头好用,一砸一个洞,菲律宾补给船全军覆没

三叔的装备空间
2024-06-20 11:05:19
网友们又看出了我们的一段痛史

网友们又看出了我们的一段痛史

清晖有墨
2024-06-20 11:29:04
2024-06-20 18:44:49
王立群读史记
王立群读史记
把历史故事讲懂给你听
2文章数 55关注度
往期回顾 全部

科技要闻

小米SU7流量泼天,富贵却被蔚来接住了

头条要闻

女大学生称按摩时遭男技师扒内裤 警方初步判断是擦边

头条要闻

女大学生称按摩时遭男技师扒内裤 警方初步判断是擦边

体育要闻

绿军的真老大,开始备战下赛季了

娱乐要闻

叶舒华参加柯震东生日聚会,五毒俱全

财经要闻

深圳一网红学位房14万/平跌到4万/平

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

亲子
艺术
健康
教育
本地

亲子要闻

宝宝满眼都是妈妈,母子俩长得太像了,连笑容都一样

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

谷歌日本法人代表:有意在日本全国培养AI人才

本地新闻

2024·合肥印象|用崭新视角对话城市发展

无障碍浏览 进入关怀版