Hadoop 笔记

2020-03-23  本文已影响0人  Marlon666

Hadoop框架简介

HDFS 数据存储
NameNode:存储数据的元数据
相当于书籍的目录

DataNode
本地的文件系统存储文件块数据,以及块数据的校验和。

Secondary NameNode
用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

YARN架构:

四大组件
Resource Manger
1、处理客户请求
2、监控NodeManager
3、启动或监控ApplicationMaster
4、资源的分配玉调度

NodeManager(NM)主要作用如下
1、管理单个节点上的资源
2、处理来自ResourceManager的命令
3、处理来自ApplicationMaster的命令

ApplicationMaster 作用如下:
1、负责数据的切分
2、为应用程序申请资源并分配给内部的任务
3、任务的监控与容错

Container
1、Container 中YARN中的资源抽象,它封装了某个节点上的多个维度资源。例如内存、CPU、磁盘、网络等

MapReduce

Map=》 匹配
Reduce =》 汇总结果

Sqoop 数据传输
Flume 日志收集
Kafka 消息队列
HBase 非关系型数据库
HDFS文件存储

MapReduce 离线计算 =》 MapReduce 离线计算 Hive数据查询 + Mahout数据挖掘 (重点)
Spark Core内存计算
Pig (简单Sql)
Spark Mlib 数据挖掘
Spark R数据分析
Spark Sql 数据查询
Spark Streaming 实时计算 =》非实时, 批处理
Storm 实时计算 (非重点)

Flink

Oozie 任务调度
AzkaBan 任务调度

上一篇下一篇

猜你喜欢

热点阅读