大数据，机器学习，人工智能 Mac学习大数据玩转大数据

【Mac大数据开发】第三篇-Hadoop概论

2019-06-26 本文已影响1人 irving_yuan

1.Hadoop起源

Lucene的一个子项目
思想源于Google的三篇论文
GFS - HDFS 分布式文件系统
Map-Reduce - MR 分布式计算框架
Big-Table - Hbase

2.Hadoop的优势

高可用
几乎所有结构都是主从模式的，数据存在副本和备份，保证高可用
高扩展性
在集群间分布式的分配数据方案，支持扩展到数千台服务器
高效
Map-Reduce并行计算，提高计算效率
高容错性
自动保存多个数据副本，能够自动将执行失败的任务重新分配

3.Hadoop的组成

HDFS
一个高可用，高吞吐量的分布式文件系统
MapReduce
一个分布式的离线并行计算框架
Yarn
任务调度与集群资源管理的框架
Common
一些基础的支持模块功能（RPC、序列化机制、Configuration、日志等）

hadoop的组成部分

4.HDFS架构概述

HDFS系统具有一下几种角色的节点

NameNode（nn）：命名节点，存储各节点的元数据信息（基础信息，如IP地址等）
DataNode（dn）：数据节点，存储数据块
SecondaryNode（sn）：监控NameNode元数据，定期合并元数据，在异常情况下升级成为NameNode

5.Yarn架构概述

Yarn集群中，节点主要包含4个角色（前两个是核心）

ResourceManager（rm）：处理客户端请求，监控ApplicationMaster
NodeManager（nm）：单个节点上的资源管理，处理再自ResourceManger、ApplicationMaster的指令
ApplicationMaster：数据切分，为应用程序申请资源，任务监控
Container：对任务运行环境的抽象

6.MapReduce架构概述

MapReduce将计算过程分成两个阶段
Map对数据并行处理
Reduce阶段对Map的结果进行整合汇总

上一篇下一篇

猜你喜欢

热点阅读