网易首页 > 网易号 > 正文 申请入驻

用形象比喻理解大数据技术Hadoop、NoSQL、Spark

0
分享至

大数据技术平台就是一个生态圈,生态圈里面的各类技术让人眼花缭乱,即便是资深工程师也需要学习跟实践很多年才有一些积累,非专业的人去看当然晕了!因此我们需要把这么一大堆的内容分解开,找出关键的部分,用形象比喻的方式,更容易得让广大初学者从整体架构上有一个概念,形成一种叫做大数据思维的东西!

咱们一步步分解,先上个图,看看常用的技术有哪些,下面是按照大数据软件层次的划分图:

大数据平台层次架构图

我节选了一些我给咨询客户的素材,当然不能给全了!望谅解。

从图中你可以看到大数据平台从宏观上,可以从架构、存储、计算和工具,自底向上去划分,每一种技术都有其专注的领域。

你可以这么理解Hadoop的分布式文件系统hdfs:就是一艘货轮,平台式管理着集装箱,顺序的存放,顺序的卸载。而集装箱里面的货品布置方式,就衍生出了很多特色存储管理模式,例如hbase,它就想在集装箱里面再整上一排排存放箱的设计,这样方便它的编排,Hadoop就随便它喽,反正我是平台,集装箱里面的内容给你们上面的团队自由,随意折腾。

你也可以这么去理解spark:他是一个优秀的企业员工,成长在Hadoop这个大企业里,实在看不上MapReduce(批处理引擎)效率低下的办事风格,自己用突出的成绩证明自己比他能,而且又从一个人发展出了一个团队,都是各个场面的小能手。

例如:spark core专注做海量处理和平台化,spark streaming做实时处理,spark SQL做SQL访问工具和解释优化,spark mllib做机器学习库,spark graphx做图处理,这么个团队组合在一起相当强悍了,感觉能成立独立事业部了,动不动还能和非Hadoop体系的nosql亲密合作!直接叫板Hadoop平台的地位。

你同样从宏观上也可以把Hadoop理解为一家生产工厂。有采购,有车间,有仓库,当然也有管理层以及保安部门。

仓库就是hdfs,namenode就是库管员,datanode就是货品存放室。车间就是MapReduce,map就是分拣,reduce就是加工,map到reduce的,shuffle就是流水线,整个流程就是生产制造工艺,yarn就是车间主任啦!

工厂总要采购和供应,flume,hive,sqoop就是面向不同外部需要的对接部门。

安全总要考虑吧,Hadoop的认证,加密就是保卫部门了。当然了厂子必须适应新形势的需要,实现快进快出,都是从厂里大仓库拿货,但代理商自己按不同区域客户名录编排存放,这就是HBASE。

其实理解了Hadoop,就是理解了什么是大数据技术的一个思维体系,上面的图只是了解到了大数据生态的一部分技术,关键是理解架构上的逻辑。咱们继续看看大数据的平台如何去协作的,我们再上一个图:

大数据关键组件关系架构图

一样我截取了一些内容分享出来,这是一个架构,叫lambda架构,是storm作者提出来的,这牛人就觉得,大数据平台就能批处理是不行的,有时候一天出一个结果太慢了,如果加上我设计的storm实时计算,一秒内就能计算一个结果,那才正宗。

可是问题出来了,实时处理走的是先计算再写库(所谓的狼吞虎噎的吃法),批处理反过来先写库再计算(感觉就像牛先吃草,晚上再咀嚼),支持批处理模式的人就认为先存数据很重要,要是数据处理服务挂了,数据依然是好好的,可以重来,但要先做计算,万一计算处理服务挂了,数据存不进去,整体就损坏了。

这个问题其实没有难住storm作者,他设计出lambda架构,将大数据实时处理和批处理进行了融合,一边先计算再存当天看实时结果,另一边也先存着原生数据,慢慢计算,隔一天就从批量重新取结果,也就是说数据出错总会被消灭在一天内。他分了三层,服务层专门做整合,批处理层专门做历史计算,速度层专门处理实时数据,牛逼吧。

好了,说完了技术体系,实践架构,我们再说说又是nosql,又是Hadoop,又是SQL,它们到底咋协作。我们再看个图:

Lambda大数据架构模式图

上面就是一个比较细致的大数据架构应用的组合拳了,你会发现Hadoop的上层可以有nosql,例如HBASE,nosql也可以独立存在不依赖Hadoop,例如MongoDB,elk。那么nosql到底是啥,直译过来就是“我不是SQL”。

其实说白了,nosql几乎所有的存储系统的目标都是用大量廉价的机器跑分布式的数据存储,实现吞吐与负载的水平伸缩,不用原来昂贵的,难以扩展的单机型关系数据库了,例如Oracle,机器上了小机,搞了集群,还要许可费,贵得要死不说,性能依然提升不大。

另外图上为什么会有hiveSQL,sparkSQL,就是因为Hadoop,spark这些大数据资源不能只给程序员用啊,学Java,再研究算法,会累死数据分析师的,专业的人干专业的事情,因此让数据分析师通过SQL也能上大数据平台这就是目标。

hive目前可以安装三种计算引擎,MapReduce,tez,spark,tez未来就是hive官方认定的啦,MapReduce逐渐成为教练机。hive还是大数据平台大家互相认可的元数据存储的事实标准,很重要,它依赖于MySQL等关系型数据库,因此大数据平台依然有这关系型数据库的身影。

最后还有些不错的工具,例如ooiz,你只要搞过工作流,就应该清楚,工作流workflow是主要面向业务表单的流程化提交,审核与管理,ooiz居然用workflow的思路,改成了大数据计算与存储的数据计算流程执行管理,你说牛不牛。

好就聊这么多吧,无论你是不是想从事大数据行业,懂得大数据知识总是益处良多的。

我们是“读字节”大数据技术专家团队,感谢您的关注!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16年湖南女子怀孕已6月,却被大姑姐暴打,当晚娘家上门教其做人

16年湖南女子怀孕已6月,却被大姑姐暴打,当晚娘家上门教其做人

朝暮书屋
2024-04-26 17:11:33
告别国乒,世界冠军官宣重要决定,加盟法国,刘国梁该出手

告别国乒,世界冠军官宣重要决定,加盟法国,刘国梁该出手

保持热爱0263
2024-04-30 22:33:52
重庆19岁女生在舞蹈机构被压断腿,称已和解!走路仍不稳

重庆19岁女生在舞蹈机构被压断腿,称已和解!走路仍不稳

南方都市报
2024-04-30 18:56:13
国际奥委会主席巴赫:巴勒斯坦将参加2024年巴黎奥运会

国际奥委会主席巴赫:巴勒斯坦将参加2024年巴黎奥运会

直播吧
2024-04-30 09:16:30
广东男子卖肾为女友治病,女友康复后嫁他人,3年后报应惨重

广东男子卖肾为女友治病,女友康复后嫁他人,3年后报应惨重

一个人讲故事
2024-02-18 22:11:16
A股明天不开市,消息不得了,突传来一个惊人消息,要来大动作吗

A股明天不开市,消息不得了,突传来一个惊人消息,要来大动作吗

股市皆大事
2024-04-30 16:56:27
阿兰希勒:伯恩利本可6-0曼联!滕哈赫自吹自擂,赛后言论很无知

阿兰希勒:伯恩利本可6-0曼联!滕哈赫自吹自擂,赛后言论很无知

贝塔说体育
2024-04-30 13:29:20
这仗打不下去了,北约说了实话,美国610亿援乌,其实是为了分赃

这仗打不下去了,北约说了实话,美国610亿援乌,其实是为了分赃

利刃号
2024-04-28 14:37:57
被许钟豪弄伤,任俊飞摊牌发声,官宣决定,朱芳雨批准,杜锋遗憾

被许钟豪弄伤,任俊飞摊牌发声,官宣决定,朱芳雨批准,杜锋遗憾

东球弟
2024-04-30 11:28:56
这就是赤裸裸地骗人!萧峰跳崖处,这都能立碑,我也是醉了

这就是赤裸裸地骗人!萧峰跳崖处,这都能立碑,我也是醉了

作家李楠枫
2024-04-29 20:08:25
朱立伦开出4大访问条件,大陆均未回应,国民党出访团恐只剩一人

朱立伦开出4大访问条件,大陆均未回应,国民党出访团恐只剩一人

博览历史
2024-04-29 16:33:34
IMF预测:2027年美国GDP占全球23%,印度占4.08%,中国呢?

IMF预测:2027年美国GDP占全球23%,印度占4.08%,中国呢?

元芳
2024-04-30 09:16:31
男子银行嚎啕大哭,因3800工资一到就被转走,遭银行拒绝贷款买房

男子银行嚎啕大哭,因3800工资一到就被转走,遭银行拒绝贷款买房

妙招小主管
2024-04-20 12:45:39
没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

夢婷
2024-01-05 12:09:08
前英超裁判谈曼联的点球:VAR学会了进步,而奥纳纳还没有

前英超裁判谈曼联的点球:VAR学会了进步,而奥纳纳还没有

刺头体育
2024-04-30 11:48:13
42岁布兰妮被曝再度精神失常,若病情加重恐被送入精神病院

42岁布兰妮被曝再度精神失常,若病情加重恐被送入精神病院

山野下
2024-04-30 15:26:07
ATACMS接连摧毁克里米亚防空系统,复制去年打击黑海舰队模式

ATACMS接连摧毁克里米亚防空系统,复制去年打击黑海舰队模式

移光幻影
2024-04-29 08:01:10
聪明的人,从不深交这四种“人精”,遇到请一定要远离!

聪明的人,从不深交这四种“人精”,遇到请一定要远离!

户外阿崭
2024-04-28 12:13:05
男子买切糕被讹12000元,16一斤变16一克,内蒙古文旅评论区沦陷

男子买切糕被讹12000元,16一斤变16一克,内蒙古文旅评论区沦陷

180°视角
2024-04-30 23:00:57
最近怎么没人杠华为的鸿蒙系统了?是放弃了吗?

最近怎么没人杠华为的鸿蒙系统了?是放弃了吗?

奇奇怪怪的冒险
2024-04-30 17:24:53
2024-05-01 02:56:49
读字节
读字节
大数据,软件架构的深度解读
11文章数 85关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

媒体:余承东将卸任华为终端BG CEO

头条要闻

媒体:余承东将卸任华为终端BG CEO

体育要闻

名宿观战,罗本和克洛泽一同现身安联球场观看拜仁vs皇马

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

旅游
教育
本地
房产
数码

旅游要闻

五一大雨,浇灭了多少旅游城市的心气?

教育要闻

大梁压顶的教室为啥冰火两重天?揭秘怪异教室的冷热隔离

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

房产要闻

刺激!市区惊现1.1w/㎡新房+现房!海口楼市,五一打响价格战!

数码要闻

基于Arm的联想ThinkPad X13s笔记本将得到Ubuntu官方的持续支持

无障碍浏览 进入关怀版