网易首页 > 网易号 > 正文 申请入驻

Hadoop时代落幕,谁是大数据时代新宠?

0
分享至


随着2022年3月——这个Cloudera宣布停止对CDH技术支持日子越来越近,那些已经部署CDH和其他版本Hadoop的企业面临一个迫切的问题:自己原来部署的Hadoop怎么办?是继续延用还是迁移到其他大数据平台?如果要迁移,迁移到哪个大数据平台?

众所周知,CDH是市场上最受欢迎的免费Hadoop版本之一。目前,市场上免费Hadoop版本主要有三个,分别是Apache版本(开源社区版,也是最原始的版本,其他所有发行版均基于这个版本进行改进)、Cloudera版本(简称CDH)、Hortonworks版本(简称HDP,2018年Cloudera与Hortonworks合并后归属于Cloudera)。Cloudera对HDP的技术支持已经于2021年12月结束,Cloudera 还宣布今后将不再推出新版本的CDH和HDP,也就是这两个Hadoop版本不会再演进了。这就意味着,今后企业想要部署免费Hadoop平台只能选择社区版本,显然这会提高Hadoop部署和运维的难度和技术门槛。

另一方面,大数据市场新生力量已经崛起。Snowflake于2020年成功上市,成为美股当年最大的IPO,Snowflake的市值也超过330亿美元。Databricks来势更猛,2021年2月Databricks 获得10亿美元的G 轮融资,公司的估值达到了280亿美元。7个月后,Databricks再次宣布获得16 亿美元 H 轮融资,Databricks的估值飙升至380亿美元,是当初Cloudera最火时候的估值近10倍。这两家公司都是大数据领域的新晋“网红”,新生代已经崛起,Hadoop之后谁会成为大数据时代新的代言人?

01 Hadoop之潮起潮落

Hadoop是一个开源的分布式大数据处理框架,一直以来几乎就是大数据代名词。Hadoop诞生于2006年左右,当时爆发性增长的海量数据、人们对数据价值的普遍认可,源源不断地推动了企业对大数据处理的需求,而传统的数据处理方面无论是存储容量、读写速度、计算效率还是成本都越来越无法满足用户对海量数据的处理需求,Hadoop应运而生。

建立在开放架构上的Hadoop大大降低了大数据的门槛。Hadoop以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了底层细节透明的分布式基础架构,可以基于通用硬件实现海量数据的分析和处理。由于有Google和Yahoo两大巨头的背书,Hadoop很快得到了市场的认可。一时间,市场上出现了众多Hadoop相关的创业公司,Cloudera、Hortonworks、MapR是其中最有影响的三个,被称为“Hadoop三巨头”:2008年Cloudera成立,2009年MapR 成立,2011年Hortonworks 成立。

当时业界普遍看好Hadoop的市场前景,这些公司的早期融资非常顺利。特别是2014年,Hadoop行业迎来高光时刻,Hortonworks成功上市,Cloudera也是风头正劲,获得Intel 7.5亿美元的投资,Cloudera的总估值曾达到41亿美元,成为当时未上市的大数据公司里面最为闪耀的一个。据报道,上市前Cloudera共获得了超过10亿美元的融资,Hortonworks 获得了2.48亿美元融资,MapR虽然一直没有上市,先后融资也近3亿美元。

不过,即使在三巨头的高光时刻,围绕Hadoop的争议一直不断。早在2013年,Gartner研究总监Svetlana Sicular就曾发表文章称,“大数据正处于新技术厂商炒作周期和用户预期的顶峰,但是Hadoop的过时和用户失败案例不断增多意味着大数据泡沫即将破裂。”

后来“Hadoop三巨头”的发展都不太顺利,争议也一直无法平息。2018年10月,无法实现盈利的Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东获得Hortonworks 60%的股份。2019年,HPE宣布收购MapR 的资产,收购金额未对外公开。此前MapR已经陷入财务困境,对外表示再没有融资将面临倒闭的命运。

合并后的Cloudera做出了一些战略调整,其中包括对CDH/HDP的支持政策。Cloudera宣布在2022年3月停止CDH、HDP的技术支持和版本更新,还宣布不会再推出新版本的CDH和HDP。另外,Cloudera的代码开源政策也做了调整,从2021年年初开始就已经停止了免费下载CDH、HDP。

还有一个值得注意的细节,Cloudera悄悄地去除了自己身上的Hadoop标签。今天,打开Cloudera官网已经很难再找到Hadoop这个词,在对外宣传中Cloudera给自己的定位是一家企业数据云平台公司,而不再是一个Hadoop技术供应商。Cloudera的主打产品也从原来的CDH换成了CDP(Cloudera Data Platform)。虽然CDP延续了CDH 的版本号(CDP 7)。但CDP与CDH之间并不是产品迭代的关系,而是全新的产品。另外,CDP和CDH、HDP一样,CDP不会有免费的开源版本下载,也不会对外免费提供开源代码。

Cloudera是Hadoop社区的“顶梁柱”,拥有CDH、HDP这两个市场上最受认可的开源发行版,Cloudera的一举一动对Hadoop影响不言而喻。Cloudera对CDH、HDP政策调整意味着今后要用免费的Hadoop基本只有Apache社区版了,而社区版无论稳定性和安全性与CDH、HDP都不在一个水平上,如果要用于生产环境需要进行多个模块的集成和大量二次开发,这个工作对技术人员要求非常高。可以预料,未来Hadoop的社区热度和应用会受到不小影响,这也是人们对Hadoop的未来前景产生担忧的原因所在。

02 Hadoop为何受到质疑?

应该说,Hadoop一直在不断调整以满足用户需求。那么,Hadoop从一个人人看好的大数据平台到如今人们开始忧心忡忡,担忧其未来,这中间到底发生什么让人们对Hadoop的发展前景来了一个彻底大扭转?

从最早期Gartner的唱衰到今天人们对Hadoop的担心,最为集中的一点是Hadoop的技术复杂性,这个技术复杂性提升了学习难度,带来了人才的不足,也带来了Hadoop项目的部署和实施效果不理想,使得不少项目最后无法兑现企业预期的各种商业价值。

今天打开Hadoop官网,我们可以看到其核心模块有四个:文件系统HDFS、资源调度YARN、计算引擎MapReduce和通用库,但光有这四个模块基本无法应用在生产环境中,要真正完成一个任务还需要借助很多其他模块的协助,比如Hive、HBase、Pig、Spark、Kafka、Zookeeper等。

实际上,在Hadoop生态体系之下至少有30个以上开源项目,为了完成一个生产项目需要对多个开源模块集成。这也正是CDH、HDP广受认可的一个重要原因,因为它们完成了模块之间的预集成,让用户免去不少集成之苦。即使这样,作为开源项目的Hadoop的部署和实施都高度依赖工程师的技术能力,而如此之多的模块要都精通对技术人员要求非常之高,这些都导致Hadoop的高复杂性而屡屡受到诟病。

大数据商业价值的实现达不到预期,很大程度上还与大数据项目本身的复杂性有关。Hadoop管理的是几十台或者成百上千台服务器组成的集群,计算环境的复杂性前所未有。同时,大数据项目从一开始就是探索性和创新性的,本身就具有很大不确定性。这一点和以提高效率为主要目的的传统应用不同,传统应用只要部署下来,其效果基本是可以预料的。再加上有不少企业是看到大数据热就跟风,本身对如何做还没有想好,这直接推高了大数据项目的失败率。

对Hadoop的第二个批评是其技术过时,主要指MapReduce只能进行批处理,无法处理实时应用。MapReduce的确有这方面的弱点。实际上,这一点如今已不是一个问题,每个技术都有自己最佳的适用场景,如果要实时处理可以用Spark,要处理流数据有Flink,这些都可以在Hadoop框架之下很好地进行集成。Hadoop萌芽于2004年,2008年左右以Hadoop之名被开源,其核心技术也诞生于那个时代,用今天的需求来要求Hadoop并不合理。而且,Hadoop本身也不断演进,比如积极拥抱Spark、Kubernetes、Kafka等,为企业提供一个更好的大数据平台框架。

唱衰Hadoop的第三原因是云计算的崛起。众所周知,HDFS是Hadoop最为核心的两个模块之一(另一个是MapReduce),也是Hadoop的根基。而云服务的崛起使得以S3为代表的对象存储开始流行,云服务商结合对象存储推出的各种Hadoop云服务,相比于传统方式部署的 Hadoop更简单易用。比如AWS的Elastic Map Reduce (EMR)非常简单,而且与底层S3存储完全集成,具有较低的购置成本并且更便宜。

应该说,这的确是一个重要原因,看看今天大出风头的Snowflake和Databricks,它们提供的云服务这种商业模式无疑是成功的重要原因。Gartner曾预计,到2023年,75%的数据库都会跑在云平台之上。当然,这只是就趋势而言,当下Hadoop主要面向的还是拥有海量数据的私有云环境,金融、电信以及部分互联网才是Hadoop真正的重度用户,它们对大数据应用需求的复杂性是云服务商比较难满足的,一般来说其应用很难迁移到公有云上。

其实,经过多年的发展,在Hadoop生态体系中很多模块已经被新的模块替换,比如Spark替代MapReduce、S3替代HDFS、K8s替代Yarn,而完成了这些替代之后的Hadoop也早就是不是原来的Hadoop了。

应该说,和所有创新技术一样,Hadoop也有自己的生命周期。当IT环境发生了变化,比如,今天云计算环境正在成为企业标准IT环境,早期Hadoop所强调的存算一体正在被越来越多的存算分离场景所取代;实时数仓、湖仓一体正在成为行业趋势的时候,Hadoop虽然自己也在与时俱进,终究会被更新、更好的技术替代。当然,这种替代是单就Hadoop软件本身而言,如果从广义的角度而言,Hadoop生态依然生机勃勃,比如Spark、Kafka等今天就非常流行。

03 后Hadoop时代,大数据平台如何选?

今天,大数据市场正在蓬勃发展,根据IDC发布的《2021年V2全球大数据支出指南》中的最新预测,全球大数据市场的IT投资规模有望在2025年超过3500亿美元,五年预测期内(2021-2025)实现约12.8%的复合增长率(CAGR)。中国大数据表现有望更好,市场五年CAGR约为19.7%,增速领跑全球。另外,2021年11月30日,工信部发布关于印发“十四五”大数据产业发展规划的通知(简称《规划》),《规划》提出要保持产业保持高速增长,到2025年大数据产业规模突破3万亿元,年均复合增长率保持在25%左右。

大数据产业的发展必然带来对大数据平台的需求,面对强劲的市场需求,在后Hadoop时代,我们该选择什么样的大数据平台?特别是那些已经部署了CDH、HDP和各种Hadoop版本的用户怎么办?

如果公司技术实力够用,当然还是可以继续跟踪Hadoop社区版本,结合社区和自己的技术力量来解决各种难题,特别是如果大数据平台能够满足目前自己需求的前提之下。但是,对于更多普通企业用户,自己的技术实力不够,付费寻求技术支持可能会是更好的选择。好在目前在Hadoop这个大数据生态体系之中,有不少颇有技术实力的第三方提供自己的Hadoop版本和服务,比如华为、阿里云等。

而对于那些已经部署Cloudera的CDH和HDP企业而言,选择升级到Cloudera的新一代数据云平台CDP也是一个不错的选择。CDP是Cloudera2019年面向云环境推出的一个大数据处理平台。根据Cloudera大中华区技术总监刘隶放的说法,CDP可以提供六大能力:第一个是提供数据中心(Data Hub) 的能力,也就是提供一个基础性的集中存放数据、管理数据的能力;第二个是Data Flow & Streaming,包括用于数据收集和流式的实时数据处理的一整套产品。第三个是Cloudera Data Engineering,主要是用来进行批量数据处理。第四个是ClouderaData Warehouse,也就是数据仓库,可以替换原有的传统数据仓库。第五个是Operational Database,基于HBase等一些实时的非结构化的数据库,提供互联网级别的对外服务。第六个是机器学习的平台。

“Hadoop的解决方案技术栈很重,客户拿来还需要定制,门槛高。今天,我们做出了改变,目的是要能让业务部门也能用起来,为此增加方案通用性,让客户尽量少定制,另外,我们也交付基于云的数据服务,通过编排的方式去做数据服务。”刘隶放介绍说。

他说,CDP的一个特点是能同时支持私有云环境和公有云环境部署,目前Cloudera已经与阿里云达成合作,在阿里云上就可以获得云版本的CDP,用以对企业的大数据进行全面的分析和管理,这对部分技术能力不足的客户无疑具有很大吸引力。

04 结束语

每项技术都有自己的生命周期,Hadoop已经走过了高峰期,但Hadoop所代表的大数据生态还在蓬勃发展。这些年围绕Hadoop已经构建起来一个完整的生态,即使企业没有用Hadoop,但Hadoop的很多技术理念,比如Hadoop松耦合的架构体系、建立在通用硬件平台上的分布式系统设计,以及开放的数据标准和开源技术,早就超越了十几年前的HDFS、MapReduce 的范畴,在更多新兴技术中体现。“一鲸落,万物生”,Hadoop时代不在,但其理念还会在一个比过去更广阔、更有能力的生态系统中继续生生不息乃至发扬光大,从这个意义上说,Hadoop将长存。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一女性身上绑满炸弹冲向中国车队,危急关头,巴反恐部队果断出手

一女性身上绑满炸弹冲向中国车队,危急关头,巴反恐部队果断出手

袁周院长
2022-05-17 11:42:35
印度拒绝从俄罗斯购买10架Ka-31直升机

印度拒绝从俄罗斯购买10架Ka-31直升机

军事小当家
2022-05-18 13:57:39
京圈老公举出事的终极大瓜!

京圈老公举出事的终极大瓜!

圈里八卦圈外香
2022-05-18 23:38:16
在广西农村,做道公是年轻人最舒服的职业了

在广西农村,做道公是年轻人最舒服的职业了

壮乡林
2022-05-19 00:05:09
细思极恐,人类未来会进化成什么生物?或完全被他们取代!

细思极恐,人类未来会进化成什么生物?或完全被他们取代!

宇宙时空
2022-05-18 20:47:03
工信部:严禁政府投资项目要求企业垫资建设,未落实资金来源一律不得开工

工信部:严禁政府投资项目要求企业垫资建设,未落实资金来源一律不得开工

红星新闻
2022-05-18 17:44:50
年纪大了要忌茶?建议中老年人牢记“2喝3不喝”,早知早受益

年纪大了要忌茶?建议中老年人牢记“2喝3不喝”,早知早受益

奶茶能续命
2022-05-18 06:34:09
胜率95.7%!勇士打出NBA最强王朝神迹,詹皇哈登都没戏东契奇更悬

胜率95.7%!勇士打出NBA最强王朝神迹,詹皇哈登都没戏东契奇更悬

嘴炮体坛
2022-05-19 11:44:08
就在上周二,又一位好莱坞影帝去世了

就在上周二,又一位好莱坞影帝去世了

东南西北一锅烩
2022-05-18 19:43:05
重磅:恒大汽车无限期推迟电动汽车预售

重磅:恒大汽车无限期推迟电动汽车预售

爱卡汽车
2022-05-18 17:33:06
热搜!广告称:“83%的男性不愿意给伴侣口爱的原因竟然是下不去嘴”!妇炎洁紧急致歉,并下架相关产品

热搜!广告称:“83%的男性不愿意给伴侣口爱的原因竟然是下不去嘴”!妇炎洁紧急致歉,并下架相关产品

泰小芒
2022-05-17 23:58:36
赵薇亲日辱华只是冰山一角,五大事件曝光原因,恶劣行为贯穿生涯

赵薇亲日辱华只是冰山一角,五大事件曝光原因,恶劣行为贯穿生涯

综艺贴士站
2022-05-17 00:19:00
中学女教师太过性感, 素颜照片连上热搜, 坦言是运动带来的福利

中学女教师太过性感, 素颜照片连上热搜, 坦言是运动带来的福利

泰小芒
2022-05-19 09:58:34
反转一幕出现,洪森撇开中国示好拜登,不料遭现实重重一击!

反转一幕出现,洪森撇开中国示好拜登,不料遭现实重重一击!

大国剑网
2022-05-19 09:42:33
终于签约!3年合同啊!再见了,周琦......

终于签约!3年合同啊!再见了,周琦......

篮球实战宝典
2022-05-18 10:21:58
破产的安桥:“干掉”它的并非智能手机,而是自己

破产的安桥:“干掉”它的并非智能手机,而是自己

三易生活
2022-05-18 20:24:26
60岁吴镇宇庆祝21周年结婚纪念日,费曼晒全家福,妈妈罕见出镜

60岁吴镇宇庆祝21周年结婚纪念日,费曼晒全家福,妈妈罕见出镜

方舟先生
2022-05-19 00:02:50
1971年的油画,作品细腻自然,在两匹马的陪衬下更显作者画工精妙

1971年的油画,作品细腻自然,在两匹马的陪衬下更显作者画工精妙

怀旧经典故事
2022-05-18 13:13:23
在生理期带伤出战却打破纪录,被人们誉为女版刘翔,她究竟是谁?

在生理期带伤出战却打破纪录,被人们誉为女版刘翔,她究竟是谁?

体坛大人物
2022-05-18 12:34:38
这些人的法制观念已经“动态清零”

这些人的法制观念已经“动态清零”

景来律师
2022-05-19 01:14:06
2022-05-19 13:18:44
话云说数
话云说数
洞察云计算和大数据等前沿科技
8文章数 20关注度
往期回顾 全部

科技要闻

网曝小鹏汽车大规模毁约应届生 被指没有底线

头条要闻

又一北约盟国总统反对瑞典芬兰加入 该国外交部唱反调

头条要闻

又一北约盟国总统反对瑞典芬兰加入 该国外交部唱反调

体育要闻

在日本被骂"滚回家"的他,成了欧洲冠军

娱乐要闻

真复合?李小璐贾乃亮穿同款衣服裤子

财经要闻

汽车要闻

新款福特探险者或于6月26日公布预售价

态度原创

房产
游戏
健康
艺术
军事航空

房产要闻

南沙枢纽区块有新动态 交通枢纽功能再深化

《使命召唤18:先锋》免费周上线

揭秘打呼噜和肥胖的关系

艺术要闻

图坦卡蒙墓发现百年|关注被遮蔽的埃及人

军事要闻

实拍美军标枪导弹发射 几乎无烟无火

进入关怀模式