网易首页 > 网易数码 > 正文

数据太大?你该了解Hadoop分布式文件系统

0
分享至

(原标题:数据太大?你该了解Hadoop分布式文件系统)


第1页:联网设备增加 数据量随之上升

大数据时代来了。当所有人都争吵着这件事情的时候,当所有企业都看好大数据的发展前景的时候,却都很少关注这些数据从哪儿来,我们有没有足够优秀的技术能力处理这些数据。

联网设备增加 数据量随之上升

网络的发展无疑为我们迎接大数据时代、智能计算时代铺好了路。根据研究公司的预测,全球联网设备正在增加,在部分国家,人均联网设备早已超过2台;如此大量的联网设备和不断提高的网络速度都在让社会的数据量快速增长,智慧城市、平安城市的实现也是以视频监控等视频数据为基础,成为大数据时代的重要组成部分。



机器人、AI、机器学习的研究让数据成为未来辅助我们生活的必要因素,无人车、机器人快递等形式的出现, 一方面体现了数据价值,另一方面也是在不断收集数据,反哺数据分析和应用。

数据体量太大 谁来处理?

数据产生后,意味着数据的采集工作已经完成,那么数据的输入与有效输出问题怎么破解?

自大数据时代到来之后,分布式存储、大文件的读写都成为热点话题,如何应对越来越多的大文件存储、分析与检索,成为企业需要攻克的难题。


而Hadoop的原型要从2002年开始说起。Hadoop的雏形始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。而后根据谷歌发表的学术沦为谷歌文件系统(GFS),实现了分布式文件存储系统名为NDFS。而后又根据Google发表的一篇技术学术论文MapReduce,在Nutch搜索引擎实现了用于大规模数据集(大于1TB)的并行分析运算。最后,雅虎雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce升级命名为Hadoop,HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)就此形成。

应该说Hadoop是针对大数据而存在的,HDFS能够提供高吞吐量的数据访问,适合有着超大规模数据集的应用程序。我们可以在Hadoop的设计中看到三大特点:适用于存储超大文件、适合运行在普通廉价的服务器上,同时,最搞笑的访问模式是一次写入、多次读取。

当然,HDFS也存在一些弊端,比如说不适用于有低延迟要求的应用场景。因为Hadoop是针对大数据传输的存在,是为高数据吞吐量应用而设计,这导致其必然要以高延迟作为代价。同时HDFS分布式存储不适用于小文件传输,在大量小文件传输过程中,namenode的内存就吃不消了。




第2页:Hadoop概念科普

Hadoop概念科普

在了解了Hadoop的身世和现在适合的应用场景之后,笔者要跟大家科普一下Hadoop的基础架构和主要概念。

NameNode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了,需要启动备用主机运行NameNode。

DataNode:负责存储,当然大部分容错机制都是在datanode上实现的。分布在廉价的计算机上,用于存储Block块文件。

MapReduce:通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

Block:也叫作数据块,默认大小为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。

Rack:机柜,一个block的三个副本通常会保存到两个或者两个以上的机柜中。

相关推荐
热点推荐
240万转错账户,浙江女子崩溃:对方欠银行700万,还是被执行人,钱一直拿不回来

240万转错账户,浙江女子崩溃:对方欠银行700万,还是被执行人,钱一直拿不回来

犀利辣椒
2026-01-12 06:40:13
史上最乱伦成语“上蒸下报”

史上最乱伦成语“上蒸下报”

华人星光
2026-02-21 11:24:05
女子深夜直播求救!称羊水破了老公不管 民警搜寻近1小时结果大反转

女子深夜直播求救!称羊水破了老公不管 民警搜寻近1小时结果大反转

闪电新闻
2026-02-25 21:02:32
终于赶下台,赖清德清洗非嫡系,“柯建铭时代”终结!蓝白乐坏!

终于赶下台,赖清德清洗非嫡系,“柯建铭时代”终结!蓝白乐坏!

通文知史
2026-02-25 12:45:06
强抢一时得逞!秘钥破不了成为废港,巴拿马还想忽悠中国

强抢一时得逞!秘钥破不了成为废港,巴拿马还想忽悠中国

柳扶风
2026-02-26 10:09:47
中方高规格招待,默茨抵达北京,走进人民大会堂前,他喊出一句话

中方高规格招待,默茨抵达北京,走进人民大会堂前,他喊出一句话

过期少女致幻录
2026-02-26 13:35:16
直问"璃龙": 你俩到底是什么关系

直问"璃龙": 你俩到底是什么关系

徐静波静说日本
2026-02-26 09:08:15
国家能源集团杜善周,被查!

国家能源集团杜善周,被查!

新浪财经
2026-02-25 23:02:13
掏空积蓄买“八百元”的幻觉:这叫孝顺还是叫制度的锅砸娃身上?

掏空积蓄买“八百元”的幻觉:这叫孝顺还是叫制度的锅砸娃身上?

有戏
2026-02-26 11:24:40
韩寒官宣《飞驰人生4》,黄景瑜:养老保险有了

韩寒官宣《飞驰人生4》,黄景瑜:养老保险有了

大象新闻
2026-02-25 15:18:58
门乔被杀只是开始!毒贩向墨西哥政府宣战:这届世界杯,别想看!

门乔被杀只是开始!毒贩向墨西哥政府宣战:这届世界杯,别想看!

瓜哥的动物日记
2026-02-25 15:33:17
特朗普着急访华,苦等4天,中方终于给出回应,提了一个新要求

特朗普着急访华,苦等4天,中方终于给出回应,提了一个新要求

东极妙严
2026-02-25 18:49:12
买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

室内设计师有料儿
2026-02-24 15:06:49
爱泼斯坦案曝光霍金与身穿比基尼女子合影,霍金家人:系护理人员,他需要全天候照护;此前辟谣照片是合成伪造

爱泼斯坦案曝光霍金与身穿比基尼女子合影,霍金家人:系护理人员,他需要全天候照护;此前辟谣照片是合成伪造

观威海
2026-02-26 13:54:10
6月1日起全国执行!二次供水不归物业管,几十年扯皮终于画上句号

6月1日起全国执行!二次供水不归物业管,几十年扯皮终于画上句号

老特有话说
2026-02-26 13:32:14
世界变成了两种颜色

世界变成了两种颜色

西楼饮月
2026-02-25 23:19:30
贵州3市最新人事任免信息

贵州3市最新人事任免信息

黄河新闻网吕梁
2026-02-26 10:38:18
善恶到头终有报?57岁央视女主持王小丫,已走上另一条大路

善恶到头终有报?57岁央视女主持王小丫,已走上另一条大路

妙知
2026-01-13 11:55:41
已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

已婚也逃不过!在爱泼斯坦的安排下,比尔盖茨和安妮·海瑟薇会面

奇怪的鲨鱼们
2026-02-26 09:57:57
没想到,春晚结束仅1周,央媒发文锐评王菲,狠狠替她出了口恶气

没想到,春晚结束仅1周,央媒发文锐评王菲,狠狠替她出了口恶气

林雁飞
2026-02-25 20:03:23
2026-02-26 14:39:00

头条要闻

县委书记抖音账号成民情留言板 当地:她本人回复网友

头条要闻

县委书记抖音账号成民情留言板 当地:她本人回复网友

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

人民币升破6.85,创3年新高

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

手机
旅游
游戏
亲子
家居

手机要闻

传音还是王者,荣耀成最大黑马,小米排名第三

旅游要闻

从两个湖到“一座城”,河南文旅蹚出“长红”路径

《漫威金刚狼》凤凰女造型泄露 玩家怒斥:丑得离谱!

亲子要闻

手外纪事|第43期《孩子遗传多指不要慌,尽早治疗也能恢复很好》

家居要闻

归隐于都市 慢享自由

无障碍浏览 进入关怀版
×