本次珍岛智能营销大课堂给大家带来的课程是紧接着上一节我们对大数据的基本概念有了认识之后,开始逐步深入了解大数据各个层面的功能组成,了解一些实际中对我们企业营销有益的部分原理,今天的课程为大家介绍数据仓库的模型建设。
数据仓库的模型建设
数据仓库,DATE WAREHOUSE,可简写为DW或DWH,是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合,它是单个数据存储出于分析性报告和决策支持目的而创建,为需要业务智能的企业提供指导业务流程改进、监视时间、成本、质量及控制。
图片来源于网络,侵删
1、数据仓库基本概念
1)主题:即指我们所要分析的具体方面,例如某年某月某地区某机型某款app的安装情况。主题有两个因素:一是分析角度,如时间位置;二是要分析的具体量度,该量度一般通过数值体现,如app安装量。
2)维:是用于从不同角度描述事物特征的,一般维都会有多层,每个层都会包含一些共有或特有的属性。以时间维度为例,时间维一般会包括年、季、月、日这几个层面,每个层面一般都会有ID、NAME、DESCRIPTION这几个公共属性,这几个公共属性不仅适用于时间维,也同样表现在其他各种不同类型的维。
3)分层:OLAP需要基于由层级的自上而下的钻取,或者自下而上地聚合,所以一般会在维的基础上再次进行分层,维、分层、层级的关系如图:
2、数据仓库通常分为五层,如图所示:
图片来源于网络,侵删
ODS层:原始数据层,存放原始数据
DWD层:对ODS层数据进行清晰(去空、脏数据,转换类型等),维度退化,脱敏(保护隐私)
DWS层:以DWD为基础,按天汇总
DWT层:以DWS为基础,按主题汇总
ADS层:为各种数据分析报表提供数据
数据仓库分层意义在于:第一,简单化,把复杂的任务分解为多层完成,每层处理各自任务,方便定位问题。第二,减少重复开发,规范数据分层,通过中间层数据,极大减少重复计算,增加结果复用性。第三,隔离数据,无论是数据异常还是数据敏感性,使真实数据和统计数据解耦。
3、数据仓库设计步骤
数据仓库设计通常分为以下几个步骤:
1) 确定主题:主题与业务密切相关,所以设计数仓之前应当充分了解业务有哪些方面要求,据此确定主题。
2) 确定量度:在确定了主题后,我们将考虑要分析的技术指标,诸如年销售额。量度是要统计的指标,必须实现选择恰当,基于不同的量度将直接产生不同的决策结果。
3) 确定数据粒度:考虑到量度的聚合程度不同,我们将采用最小粒度原则,即将量度的粒度设置到最小,例如如果知道某些数据细分到天就好了,那么设置其粒度到天,但如果不确定的话,就将粒度设置到最小,即毫秒级别的。
4) 确定维度:设计各个维度的主键、层次、层级,尽量减少冗余。
5) 创建事实表:事实表中将存在维度代理键和各量度,而不应该存在描述性信息,即符合瘦高原则,要求事实表数据条数尽量多,描述性信息尽量少。
好的数据仓库可以需要业务智能的企业提供指导业务流程改进、监视时间、成本、质量及控制,堪称是大数据实现最终智能互联大厦的筑基。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.