(原标题:传智汇公益直播私享会干货分享,数据驱动硬核攻略)
在今年这个不寻常的冬季,一场疫情改变了传智汇私享会的形式,但不变的是传智汇为IT人做好公益服务的赤忱。与此同时,传智汇得到了来自亚马逊、华为云、百度云智学院、京东人工智能、创新工场等技术专家的鼎力相助。他们不辞辛苦,通过传智汇的平台无私分享自己的知识和经验,尽己所能,在严峻的疫情中,温暖的帮助每个学习者。
我们在一起,IT人不孤单。传智汇公益直播私享会将陪伴大家共抗疫情,穿越寒冬!2月13日的首期活动,来到直播间的是亚马逊AWS资深解决方案架构师王晓野老师。王晓野老师负责基于AWS云计算方案架构咨询及设计,同时致力于AWS云服务在国内的应用和推广。他拥有超过10年留法学习和工作经历,长期专注于企业BI及大数据分析平台建设、敏捷开发管理、Devops等领域,在大规模后台架构、分布式计算和数据平台建设等方面有着广泛的设计和实践经验。
本期私享会探讨的主题是“数据中台与数据湖-概念与案例分享”。数据驱动是商业数据领域内最为火爆的名词,这几年已逐渐成为互联网巨头运营的主流思想。数据仓库,数据湖,数据中台,非常多的概念让技术人员很容易迷失其中。为了帮助开发者了解个中区别,提升技术能力,助力企业数字化转型落地,从概念到数据平台落地,王晓野老师准备了充分的实践案例,以下是他现场带来的干货分享。
●中台概念的兴起中台的诞生是因为作为前台的用户触点,如用户交互的网站、APP、微信公众号与作为后台的企业核心资源,如财务、产品、CRM,两者匹配失衡。前台要求“快”而“常变”,后台却要求“稳”“贵”。于是需求中台来实现分层应用策略。数据中台是加速从数据到价值的服务工厂。
●中台实施路径
中台的本质是提升企业敏捷的能力。如果当做一个很庞大的工程演进,通过一两年的时间来落地,其实与中台的目的是相违背的,不能顺应瞬息万变的市场,常常导致项目的失败。更可靠的方式是全场景规划,小场景启动,通过一个个小的迭代演进式扩展架构。
●2 pizza team文化
两个披萨原则最早是由亚马逊CEO贝索斯提出的,他认为如果两个披萨不足以喂饱一个项目团队,那么这个团队可能就显得太大了。因为人数过多的项目会议将不利于决策的形成,而让一个小团队在一起做项目、开会讨论,则更有利于达成共识,并能够有效促进企业内部的创新。即众多的微服务+小团队(2 pizza teams)优于一个巨大的应用程序+团队。
●数据湖与数据仓库
数据湖的开发主要是为了处理大数据量,它可用其原生格式存储任何类型的数据,数据湖中的每个数据元素都会分配一个唯一的标识符,并对其进行标记,以后可通过查询找到该元素。数据仓库是位于多个数据库上的大容量存储库。它的作用是存储大量的结构化数据,并能进行频繁和可重复的分析。
●数据平台架构数据平台架构是为了加速数据处理和展示过程。以Lambda架构为例,当前主要有两种数据处理方式,批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。流处理系统会对随时进入系统的数据进行计算。相比批处理模式,这是一种截然不同的处理方式。它无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。技术选型要结合具体业务,过度设计是一种浪费。
继而,王晓野老师通过数据平台项目的实战案例,解读了如何分析内部运营遇到的技术痛点,怎样通过小场景启动演进式扩展架构。他总结道:数据中台更多的是为业务价值服务、加速创新的战略愿景及规划;开放的技术架构、公有云的扩展能力有利于避免重复建设;数据湖与数据仓库等设计理念将在不同业务需求中长期互相补充共存;中台的构建也可以敏捷,数据中台不是数据能力共享复用的唯一途径。
●老师答疑
1、搭建一个高可用编排需要做哪些工作?王晓野:基于个人成长可以学习使用谷歌开源的工具Google Kubernetes ,从亚马逊客户的实践经验来看,这方面的工作还是有相当的学习成本。需要了解与虚拟机的区别,容器的隔离,需要网络知识了解容器间的通信,方便调试自动化容器编排工具。快速试用生产也可以使用AWS的ECS部署容器应用。
2、数据中台需要具备什么能力和技术栈,数据仓库、来源、处理、展示的方向是什么?王晓野:把业务逻辑概念沉淀到技术概念中,核心去做的就是数据仓库、数据湖和API的开发。技术栈主要是hadoop生态、sql语言;了解冷热数据的存储性能、调用方式、一致性;最重要的是理解业务。
3、中台可否理解为介于前台和后台之间的共享平台?王晓野:大方向上是正确的。由于后台要保证稳定性,不能轻易改动,需要中台进行共享和开放,进行权限管控、质量控制。
4、数据中台在程序设计中的地位?王晓野:不是所有IT从业者都会碰到中台的问题,反而在构建中台过程中一定会遇到程序设计的问题。程序设计是中台构建中很重要的过程,在技术选型中做到松耦、足够开放,选择正确的工具。
5、什么工具可以快速部署hadoop平台?王晓野:EMR工具。
6、erp历史订单变化导致计算结果错误,除了全量处理外,还有什么解决方案吗?王晓野:通过建模,把可能变化的东西变成维度,不变的东西叫做事实。建模可以解决大部分变化导致计算错误的问题。
7、hdfs和spark、flink有什么不同?王晓野:hdfs是文件系统,用来存东西的,和计算框架共同处理大数据。spark和flink属于两个主流计算框架,spark避免了频繁读写,尽可能在内存中做迭代,设计上spark是为了做批处理,flink是为了做流式处理而生,当然两者都是既可以做批处理也可以做流处理,只是在性能上有所差异。
8、结合当前技术趋势,java程序员应当如何提升?王晓野:在大数据发展的十年,有程序开发背景的程序员更有优势,曾经有java开发背景的才能写spark。程序员需要首先掌握扎实自己的技术,有专长的领域,无论风口是什么,个人都有发挥余地。从技术的角度来看,一般每十年或五年都有一个大的趋势,当前AI、机器学习正在风头,可能会成为必备技能,建议了解。
在欢乐的抽奖环节后,第一期传智汇公益直播私享会圆满结束。面对来势汹汹的新型冠状病毒疫情,我们将持续举办15场中高端在线技术私享会,从Java、大数据、人工智能,到前端、UI、测试、新媒体,一大波优质的IT学习资源等你查收,美女主播和技术专家在直播间为你在线答疑。通过大咖分享+活动互动的形式,整合行业资源,传智汇助力特殊时期IT人及互联网企业的技术成长,打造IT领域的饕餮盛宴。