Apache Hadoop

2021-04-21  本文已影响0人  珺王不早朝

Hadoop = HDFS(分布式⽂件系统) + MapReduce(分布式计算框架) + Yarn(资源协调框架) + Common模块

1. HDFS


1.1 定义

Hadoop Distribute File System 是⼀个高可靠、高吞吐的 分布式 文件系统

1.2 原理

HDFS 面向数据存储,其核心是 基于 块机制副本机制数据存储策略

以100T数据存储为例,利用数据切割方法,将其拆分为若干个10G大小的数据块,每个电脑节点存储一个数据块

1.3 结构

HDFS 是典型的 Master / Slave 主从节点结构

注意:NN,2NN,DN 即是角色名称、进程名称,同时也代指电脑节点名称

2. MapReduce


2.1 定义

Hadoop MapReduce 是⼀个 分布式 离线 并行计算 框架

2.2 原理

MR 面向数据计算,其核心是 并行计算策略

MapReduce = Map阶段 + Reduce阶段

3. Yarn


3.1 定义

Hadoop Yarn 是⼀个 作业调度 与 集群资源管理 框架

3.2 意义

计算结果要在所有 Reduce 任务结束后才能得出,而 Reduce 任务要在所有 Map 任务结束后才能执行
因此需要对 Map 任务 和 Reduce 任务 进行合理调度,为它们分配合理的资源,才能尽快完成计算

3.3 原理

Yarn 面向集群调度,其核心是 计算资源分配策略
同样也是典型的 Master / Slave 结构

4. Common


Hadoop Common 是支持其他模块的工具模块(包括:Configuration、RPC、序列化机制、日志操作等)

上一篇:Hadoop 简介

下一篇:Apache Hadoop 集群搭建

上一篇 下一篇

猜你喜欢

热点阅读