hadoop概述

2018-08-15  本文已影响0人  ZhangShiWen

# Hadoop 优势 #

- 高可靠性:因为Hadoop假设计算的元素和存储会出现故障,因为他维护多个工作数据副本,在出现故障时可以对失败得节点重新分布处理;

- 搞扩展性:在集群间分配任务数据,可方便得扩展数以千计得节点;

- 高效性:在MapReduce得思想先,Hadoop时并行工作得,以加快任务处理速度;

- 高容错性:自动保存多份副本数据,并且能够自动将失败得任务重新分配。

## Hadoop 组成 ##

概述:

- Hadoop HDFS:一个高可靠,高吞吐量得分布式文件系统

- Hadoop MapReduce :一个分布式得离线并行计算框架

- Hadoop YARN :作业调度与集群资源管理框架

- Hadoop Commom: 支持其他模块得工具模板

1. HDFS架构概述

1)NameNode(nn):存储文件得云数据,如文件名,文件目录结构,文件属性(生成时间,副本书,文件权限),以及每个文件得块列表和快所在DataNode等

2)DataNode(dn):在本地文件系统存储文件块数据,以及快数据得校验和

3)SecondaryName(2nn):用于监控HDFS状态得辅助后台程序,没隔一段时间获取HDFS元数据得快照

2. YARN架构概述

1)ResourceManager(rm):处理客服端请求,启动/监控ApplicationMaster,监控NodeMAnager,资源分配与调度

2) NodeManager(nm):单个节点得资源管理,处理老子ResourceManager得命令,处理来自ApplicationMaster得命令;

3)ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错

4)Container:对任务运行环境得抽象,封装CPU,内存等多维资源以及环境变量,启动命令等任务运行相关得信息

3. MapReduce架构概述

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

4. 大数据技术生态系统

上一篇下一篇

猜你喜欢

热点阅读