网易首页 > 网易号 > 正文 申请入驻

写给小白的“数据仓库”科普

0
分享至

小枣君注:数据仓库、数据集市、数据湖、数据中台、数据飞轮,是这几年网上比较常见的IT概念。很多人都搞不清它们和传统数据库到底有什么区别。所以,我打算写几篇专题文章,尝试做一个通俗易懂的解读。今天这篇,先说说数据仓库。

数据仓库,英文全称Data Warehouse,简称DW或DWH。

数据仓库和数据库的名字非常接近,但两者是完全不同的东西。

我们先从数据仓库的历史开始说起吧。

数据仓库的诞生

数据仓库并不是一个新概念。事实上,它诞生至今,已经有几十年的历史。

上世纪70年代,关系数据库(也就是传统数据库的主要类型)刚刚崛起的时候,美国康奈尔大学博士比尔·恩门(Bill Innmon,也有译为比尔·因蒙)就开始定义和讨论数据仓库这一术语。

1988年,IBM研究人员巴里·德夫林(Barry Devlin)和鲍尔·穆尔菲(Paul Murphy),联合发表了文章《商业和信息系统的架构》,其中引入了“商业数据仓库”一词。他们还开发了一种叫做“业务数据仓库”的系统。

几年后,1990年,美国科学家拉尔夫·金博尔(Ralph Kimball)创立了Red Brick Systems公司,推出专门用于数据仓库的数据库管理系统Red Brick Warehouse。

1991年,又是前面那个比尔·恩门,创立了Prism Solutions公司,推出用于开发数据仓库的软件Prism Warehouse Manager。

同年,比尔·恩门正式出版了数据仓库的经典著作——《构建数据库仓库》,标志着数据仓库概念的正式确立。

后来,比尔·恩门也被世人誉为“数据仓库之父”。

比尔·恩门

数据仓库的定义和特征

那么,到底什么是数据仓库呢?

比尔·恩门在《构建数据库仓库》书中给出了一个定义——

数据仓库,是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

这个定义非常抽象、烧脑,但准确概括了数据仓库的几个关键特征,值得剖析一下。

  • 支持管理决策

先说“支持管理决策”,这是数据仓库的作用,也是创造它的主要目的。

简单来说,传统数据库主要是员工使用,支撑某项具体的工作。例如收银系统等。

而数据仓库,主要是管理层使用,用于掌握宏观情况,以便做出更合理的决策。

以前小枣君给大家介绍数据库入门的时候,提到过OLTP和OLAP。

OLTP是联机事务处理(Online Transaction Processing)数据库,出现较早,也是早期关系型数据库的主要用途,用于支持日常业务操作,如订单处理、库存管理和银行交易等。它们通常处理大量简单的读写操作,需要系统能够快速响应,且非常可靠。

OLAP是联机分析处理(Online Analytical Processing)数据库,出现较晚,用于支持复杂的分析查询,如数据挖掘、趋势分析和财务报告等。它们通常处理大量复杂的只读查询,对算力要求高,也需要支持很大的数据吞吐量。

数据仓库,很显然就是OLAP型。或者也可以说,数据仓库是OLAP数据库场景的延伸和发展。OLAP类应用,催生了数据仓库。

概括来说,数据仓库是一个战略级的工具。它通常用于商业智能(Business Intelligence,简称BI,咨询机构Gartner造出来的流行词)和决策支持,可以帮助企业从大量数据中获得有价值的信息,增加洞察能力。

终极目的,当然是增加收入、提升效率、降低成本。

现在很多企业搞数字可视化大屏,背后就是数据仓库的支持

  • 面向主题

传统数据库,围绕具体的工作(应用)来组织数据,用于一个明确的事务。例如进销存数据库、考勤数据库、财务数据库等。

而数据仓库,是按照主题来组织数据的。所谓主题,是一个特定的业务领域,或者一个明确的分析目标,例如销售分析主题、员工敬业度主题,学生在校表现主题等等。主题的范围更大,level(层级)更高。

简单来说,数据仓库的数据,是多个传统数据库的集合和“拉通”。它把不同数据库表单的信息挑选整合在一起,提供了一个更全面的数据呈现。

主题性的设计,显然更适合支持管理者做决策和分析。

  • 集成

集成,是指数据仓库可以整合来自多个不同数据源(企业内部数据库、供应商数据库、渠道商数据库等)的数据。

多方面的数据源,也是为了提供一个更全面的视角,以便服务于分析和决策。

这些数据,可以包括结构化数据、半结构化数据和非结构化数据等。但数据仓库,主要还是结构化数据为主。

  • 相对稳定

相对稳定,指的是 数据一旦被加载到数据仓库中,通常不会更新或修改,确保了数据的稳定性和用于长期分析的可靠性。

换言之,数据仓库所涉及的操作,主要是数据查询,而不是修改。

除了数据之外,数据仓库的架构一般也不会频繁变化。

  • 反映历史变化

传统数据库,一般都是数据更新。写入新数据,替换旧数据。

数据仓库不一样。它保存了大量的历史数据,有利于企业从时间的维度,分析业务的发展趋势。

面向主题、集成、相对稳定、反映历史变化,这就是数据仓库的四大特征。

我们还是以超市为例,总结一下数据仓库和传统数据库的区别。

假如你有一个大超市。

超市有基于传统数据库的很多个收银台,记录了每天的每一笔交易(卖出了什么商品,金额是多少)。超市还有库存系统,记录了商品的信息(一共有多少个库存)。还有会员系统、购物卡系统,等等。

所有这些数据,分散在不同的系统里,杂乱无章。

你把所有系统的数据(销售数据、顾客信息、供应商记录等),统一做了整理(比如去掉无效数据、统一“日期”格式),按主题分类(比如“销售分析”、“客户画像”),集中存到一个庞大的数据系统里。这就是数据仓库。

然后,你开发了一些工具,可以分析这些数据,回答你的一些疑问:

“过去5年哪些商品在春节卖得最好?”

“上海和北京的顾客购物习惯有什么差异?”

“如何预测明年的商品库存需求?”

也可以以大屏的形式,观看这些数据(掌控全局、运筹帷幄的老板既视感):

当然了,这些数据也可以开放给各个部门的主管,帮助部门改善业绩。

这个数据仓库,是不是辅助了你的决策,创造了价值?

数据仓库的架构和工作流

接下来,我们看看数据仓库的整体架构,以及如何搭建。

每个公司的数据仓库架构都不太一样。但基本上都包括以下几层:

数据仓库的整体架构

原始数据层(ODS,Operation Data Store):也叫数据引入层、操作数据层、数据准备层或贴源层,用于采集和存储原始数据。

数据公共层(CDM,Common Data Model):数据仓库的主要部分。有时候又分为基础层/明细层(DWD,DW Detail)、汇总层/服务层(DWS,DW Service)、公共维度层(DIM)。 DWD对源数据进行清洗以便将其加载到数据仓库中。DWS将经过清洗和转换后的数据并轻度汇总。DIW用于保存维度信息,用于建模。

数据应用层(ADS,Application Data Service):主要功能是保存结果数据,为外部系统提供查询接口,用于满足特定的商业智能、数据挖掘和报表应用。

数据仓库的架构和它的工作流有密切的关系。

一般来说,数据仓库的工作流分为以下几步:

1、数据抽取

前面说了,数据仓库有很多的数据源。所以,第一步,是从不同的数据源系统中抽取数据。

数据抽取是定期进行的,比如每天或每周,以确保数据是最新的。

2、数据清洗和转换

抽取出的数据,通常需要经过清洗和转换,以提高数据质量和一致性。

清洗包括修正错误、去除重复项、处理缺失值等。转换则是将数据转化为统一的格式,以便在数据仓库中进行有效存储和查询。

3、数据建模

数据仓库采用特定的数据模型,对数据进行组织和存储,设计数据表。选择合适的模型,可以简化数据查询和分析过程,提高查询性能。

数据仓库建模中,比较有代表性的两类方法论是Ralph Kimball的建模方法论和Bill Inmon建模方法论(没错,就是前面提到的那两个大佬)。

Ralph Kimball的维度建模方法论,是一种常用的数据仓库建模方法,它强调使用星型模型、雪花模型、星座模型来设计数据仓库。

Bill Inmon则认为企业数据仓库应为原子数据的集成仓库,应用第三范式和ER模型而非维度建模的事实表、维度表来建模。

这里要提到一个元数据的概念。

元数据是描述数据的数据。它用以描述数据仓库内数据的结构、位置和建立方法,便于数据仓库的管理和使用。

4、数据存储

数据仓库通常采用大容量、高性能的存储系统,以满足大量数据的存储和查询需求。数据仓库的存储结构通常针对查询性能进行了优化,如列式存储、索引等。

5、数据加载

抽取(Extract)、转换(Transform)和加载(Load),就是著名的ETL三板斧。

ETL后的数据,会被加载到数据仓库中。

根据需要,还可能会进一步加工,例如聚合、摘要和索引创建,以优化查询性能。

另外,数据加载可以分为全量加载和增量加载两种方式,也是根据需求选择。

5、数据访问与分析

数据仓库完成数据存储后,就可以开始用了。

数据仓库支持各种数据分析和报表工具,如商业智能(BI)、SQL查询、OLAP、数据挖掘等。用户可以通过这些工具,对数据进行深入分析,找到其中的规律和趋势。

值得一提的是,数据仓库不仅支持宏观趋势分析,也支持微观细节探究,能够满足各个层级的需求。

6、数据安全和访问控制

在数据仓库的使用过程中,当然还要注意数据安全和访问控制。确保数据的安全性和合规性,防止数据泄露和滥用。

数据集市(Data Mart)

数据集市可以认为是数据仓库的子集,是专用于特定业务部门或功能的数据系统。它的数据是从数据仓库中提取并进一步加工得到的。

例如,一个销售数据集市,可以提供详细的销售报告和分析,辅助销售部门进行决策。

数据集市的优点包括:

1.规模小:由于只包含与特定主题相关的数据,因此数据集市的规模相对较小,易于构建和维护。

2.数据深:数据集市可以满足特定部门或用户的需求,提供更加详细和深入的数据支持。

3.响应快:因为它的数据量相对较小且针对特定需求进行了优化,所以能够提供更快的查询响应时间。

4.建设周期短:由于规模较小且面向特定需求,数据集市的建设周期通常较短,可以快速实现并投入使用。(数据仓库的建设周期一般需要数个月甚至一年以上。)

5.灵活性高:数据集市的数据模型和结构可以根据特定需求进行调整,具有较高的灵活性。

6.成本低:数据集市的实现成本相对较低,因为其数据量和复杂度较数据仓库低。

数据仓库的发展趋势

数据仓库诞生了几十年,技术也一直在发展。为了实现处理能力的升级,经历了多个发展阶段。

早期的时候,基本上就是基于传统数据库产品(例如Oracle),构建的数据仓库。数据仓库最早也是离线的,数据源通过离线方式导入到离线数据仓库中。

后来,进入21世纪,有了大数据技术(Hadoop、Spark等)。就开始将这些技术引入到数据仓库,通过MapReduce、Hive、SparkSQL等离线计算引擎进行数据处理,处理效率有了明显提升。

再后来,分别发展出了Lambda架构(离线+实时结合)和Kappa架构(批流一体)。

图片来自网络

再再后来,到了近几年,就是基于MPP数据库和数据湖的实时数仓架构。

这些架构支持高性能并行处理,支持复杂查询。在处理能力和效率上已经今非昔比,能够帮助企业更及时、更准确地进行决策。

从部署方面来看,数据仓库也有变化。以前是本地单机部署,后来是分布式部署,再后来,云计算崛起,就是云部署。

这两年,AI很火。所以,很多企业开始研究AI与数据系统的深度结合

说白了,就是看AI怎么让数据仓库能够更智能地处理和分析数据,提高数据的准确性和可靠性。反过来,AI也是“吃”数据的,还要研究如何让数据仓库这样的数据平台,更好地服务于AI的训练和推理。

这里面的发展前景,还是非常广阔的。

好啦,关于数据仓库和数据集市,就先说这么多。

刚才已经提到了数据湖。下一期,我们再来详细说说数据湖湖仓一体。看看数据湖和数据仓库到底有什么区别。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国总理默茨率团访华,完整代表团名单公布,最新调查报告显示:93%的在华德企仍计划维持或扩大合作

德国总理默茨率团访华,完整代表团名单公布,最新调查报告显示:93%的在华德企仍计划维持或扩大合作

大风新闻
2026-02-26 10:25:10
巴厘岛遭遇暴雨,近5米长蟒蛇从居民区游过,当地华侨:白天晚上均在下雨,现在天气稍微转好

巴厘岛遭遇暴雨,近5米长蟒蛇从居民区游过,当地华侨:白天晚上均在下雨,现在天气稍微转好

大象新闻
2026-02-25 23:41:02
2月25日俄乌:俄罗斯指责英法向乌转让重磅武器

2月25日俄乌:俄罗斯指责英法向乌转让重磅武器

山河路口
2026-02-25 22:10:30
乌度卡终于用明白了!申京搭配谢泼德盘活进攻空间,阿门下替补吧

乌度卡终于用明白了!申京搭配谢泼德盘活进攻空间,阿门下替补吧

篮球资讯达人
2026-02-26 12:42:23
无追梦勇士连胜掘金灰熊!勇媒炮轰他成症结 科尔盛赞言论成笑谈

无追梦勇士连胜掘金灰熊!勇媒炮轰他成症结 科尔盛赞言论成笑谈

颜小白的篮球梦
2026-02-26 12:31:06
一场5-0,让榜首易主,前3只差3分,C罗点射:21场轰入21球

一场5-0,让榜首易主,前3只差3分,C罗点射:21场轰入21球

足球狗说
2026-02-26 07:09:06
中国音乐家纽约路边换胎被撞身亡,年仅35岁

中国音乐家纽约路边换胎被撞身亡,年仅35岁

扬子晚报
2026-02-26 10:51:43
克洛普出任皇马主帅的新要求:接受曼联为维尼修斯开出的报价?

克洛普出任皇马主帅的新要求:接受曼联为维尼修斯开出的报价?

夜白侃球
2026-02-25 22:38:06
突发!2026年全国第一巨额抢劫案在江苏发生了,197万,疑犯已捕

突发!2026年全国第一巨额抢劫案在江苏发生了,197万,疑犯已捕

原广工业
2026-02-26 07:57:32
亲密度总停在99%,想谈个恋爱怎么就那么难?上海多名单身男子有苦难言:太丢脸了

亲密度总停在99%,想谈个恋爱怎么就那么难?上海多名单身男子有苦难言:太丢脸了

环球网资讯
2026-02-26 07:26:27
我见过最傻的父母,攥着大把的存款和退休金,却等着给子女当遗产

我见过最傻的父母,攥着大把的存款和退休金,却等着给子女当遗产

i书与房
2026-02-25 17:22:34
痛心!广东英德1岁走失男童在报警人家附近鱼塘中被发现,已无生命体征

痛心!广东英德1岁走失男童在报警人家附近鱼塘中被发现,已无生命体征

封面新闻
2026-02-26 01:57:06
门乔被杀只是开始!毒贩向墨西哥政府宣战:这届世界杯,别想看!

门乔被杀只是开始!毒贩向墨西哥政府宣战:这届世界杯,别想看!

瓜哥的动物日记
2026-02-25 15:33:17
史上最乱伦成语“上蒸下报”

史上最乱伦成语“上蒸下报”

华人星光
2026-02-21 11:24:05
随着皇马3-1,多特3-4遭逆转,欧冠16强正式出炉:英超6队,意甲仅1队

随着皇马3-1,多特3-4遭逆转,欧冠16强正式出炉:英超6队,意甲仅1队

侧身凌空斩
2026-02-26 06:43:04
遭多国退货,演习不敌歼10C,实战被击落,中国的苏35还有啥用?

遭多国退货,演习不敌歼10C,实战被击落,中国的苏35还有啥用?

书纪文谭
2026-02-25 20:51:08
澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

第7情感
2026-02-23 20:45:16
大范围雨雪来袭!江苏2月末气温先升再降

大范围雨雪来袭!江苏2月末气温先升再降

现代快报
2026-02-26 00:09:04
震惊!网传河南一老人93岁去世,此前自杀3次,起因不想住女儿家

震惊!网传河南一老人93岁去世,此前自杀3次,起因不想住女儿家

火山詩话
2026-02-25 17:10:36
三星Galaxy S26系列新品发布会一文汇总,首发硬件防窥屏

三星Galaxy S26系列新品发布会一文汇总,首发硬件防窥屏

IT之家
2026-02-26 04:01:01
2026-02-26 12:59:00
鲜枣课堂 incentive-icons
鲜枣课堂
ICT知识科普。
999文章数 1257关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

特朗普自诩开启美国"黄金时代" 遭美媒集体"打脸"

头条要闻

特朗普自诩开启美国"黄金时代" 遭美媒集体"打脸"

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

健康
家居
本地
数码
公开课

转头就晕的耳石症,能开车上班吗?

家居要闻

归隐于都市 慢享自由

本地新闻

津南好·四时总相宜

数码要闻

消息称苹果入门MacBook起售价699美元,不支持原彩显示与快充

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版