hadoop

Hadoop(二):Hadoop组成

2021-12-01  本文已影响0人  codeMover

Hadoop组成

2.0 Hadoop组成.jpg

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性比较大。
在Hadoop2.x时代,增加了Yarn。MapReduce只负责运算,Yarn负责资源的调度。
Hadoop3.x在组成上和Hadoop2.x没有变化。

Hadoop的三大核心组件

HDFS

HDFS是google三大论文之一的GFS的开源实现,是一个高度容错性的系统,适合部署在廉价的机器上的,适合存储海量数据的分布式文件系统。
在HDFS中,1个文件会被拆分成多个Block每个Block默认大小为128M。这写Block被复制为多个副本,被存放在不同的主机上,这也保证了HDFS的高容错性。


2.6 hdfs.gif

MapReduce

Hadoop的MapReduce是对google三大论文的MapReduce开源实现,实际上是一种编程模型,用于处理海量数据的运算。


2.7 mapreduce.jpg

MapReduce将计算过程分为两个阶段:map和reduce

YARN

Apache Hadoop YARN是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供同一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据通向等方面带来了巨大的好处。通过YARN,不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。


2.2.1 yarn组成.jpg

HDFS、MR、YARN关系

2.3.1 hdfs、mr、yarn三者关系.jpg

大数据生态体系

2.4 大数据技术生态体系.jpg

小结

上一篇 下一篇

猜你喜欢

热点阅读