2021年4月10日,作为业内知名的高端前沿技术社区——ECUG(全称为Effective Cloud User Group)在上海举办了2021 ECUG Con 全球技术大会。ECUG Con为ECUG社区每年都会举办的技术盛会,发起于2007年,迄今已圆满举办了13届。期间,来自Google、微软、BAT、华为、京东、携程等知名企业以及七牛云、PingCAP、饿了么等众多互联网科技公司的权威技术大神纷纷参与,为众多技术从业者提供了了解其他行业进步的窗口,释放社会创造力,为技术创新和现实世界需求满足实现共振。
数新网络创始人&CEO王贲(前阿里云御膳房、DataWorks、数加平台等大数据平台负责人)就「什么是数据中台?」「数据中台和数据湖的区别在哪?」「如何建设数据中台」等几个关键问题,为我们带来他的精彩解读。
什么是数据中台
王贲基于多年数据中台建设经验,在会上为数据中台做了全新的定义:数据中台=数据平台+数据内容+组织重构。从事数仓相关的人都明白,搞数仓除了有存储,还需要数据库的基础组件,再加上数据仓库 ETL 的工具,共同构成数据平台部分。
“中台的本质就像一次改革甚至一次变法,是需要组织重构的,否则一切无从谈起。”
他将数据中台的演进过程分为了四个阶段:
第一个阶段是数据库阶段,信息主要是存储在关系型数据库管理系统(RDBMS)中,这个阶段主要靠人工做分析,拿线上数据库跑一下就结束了,也仅适合在数据规模比较小的场景。
第二阶段是数据仓库阶段,为什么要有数据仓库?数据仓库是为了满足数据分析需要设计的,同时解决了和线上数据互相影响的问题,需要保存大量数据,保存的数据量越大,数仓相较于数据库的要求就越高。
第三阶段为数据平台,大规模数据存储计算能力、没有明显离线在线的区分和大量在线数据服务是这个阶段关注的重点,由此广泛的推动了分布式存储计算架构的发展。
第四阶段是数据中台,数据中台是在数据平台的基础上,加上成熟的、适合自己和企业行业建设的数据内容、体系建设的经验,再加上组织变革,也就是王贲最开始给出的数据中台定义。
数据中台和数据湖的区别在哪
按照亚马逊数据湖的定义,它跟王贲对数据平台主体部分的定义是一样的。亚马逊数据湖的定义中,首先就是非结构化的数据都能放上来。数据平台启动以来,最早还是偏点击流的数据,不都是数据库的数据,有很多半结构化的数据。数据湖的概念下,强调即时,能够在更短的时间内从更多来源利用更多数据,并使用户能够以不同方式协同处理和分析数据,从而做出更好、更快的决策。
数据平台和数据湖并不是太矛盾,只是强调的点不太一样,而且是你中有我,我中有你。
而做中台的难点在于既要懂大数据的技术,又要懂业务,还要懂非常难搞的人事关系,甚至是权力斗争。所以推动中台的人一定是提出「变法」的人,要深入了解这个公司,这个业务,甚至人事关系,才可以把中台做好。
数据中台建设指南
建设数据中台绝对不是一件容易的事,所以在开始做之前,几个问题一定要想清楚:公司是否真的需要数据中台?面对来自各方面的阻力,我敢建这个中台吗?只有这两个问题想清楚,才能开始着手怎么建的问题。
首先是业务,要有足够懂业务的专家。然后是数据,有些部门、公司要想把数据集中在一起是很难的。另外数据得有价值,如果数据没有太大的价值,花了几千万建数据中台根本不值当。
ECUG Con的与会嘉宾各自分享了在各行各业的落地实践及对未来发展的监测和解读。从始至终贯彻着与开发者同行,关注当下热点技术与尖端实践,共同引领行业技术的变革的新年。更加期待ECUG Con下一年的表现!
ECUG Con精彩互动
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.