Hadoop重要组成概述

2020-07-08  本文已影响0人  一拳超疼

题记

本文资料来源于拉钩大数据开发高薪训练营。

Hadoop 由四部分组成

HDFS

HDFS如名所示,Hadoop的分布式文件系统,但是已经可以说是整个大数据环境下的文件存储系统。
Hadoop存储文件采用分治的思想,即将一个大文件分成许多的块分别备份存储,默认的存储块大小是128mb。
总的来说,存储一个文件的过程分三步:数据切割、制作副本、分散存储
HDFS有三个后台线程:


HDFS.png

图中涉及几个角色,这里一一介绍:

MapReduce

Hadoop的分布式离线计算框架
MapReduce = Map + Reduce
如上等价公式所示,MapReduce分工明确。Map阶段并行地计算分片上的数据,再将结果发送给进行Reduce的节点,进行结果汇总输出的阶段。


MapReduce.png

Yarn

任务调度和集群资源管理框架
Yarn中有如下⼏个主要⻆⾊,同样,既是⻆⾊名、也是进程名,也指代所在计算机节点名称。

Yarn资源调度.png
上一篇 下一篇

猜你喜欢

热点阅读