初始Hadoop

2017-12-08  本文已影响0人  Aimerwhy

1.Hadoop概述

是什么:Apache™Hadoop项目是可靠,可扩展,分布式计算、分布式存储的开源软件。Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机群集分布式处理大型数据集。

能做什么:搭建大型数据仓库、PB级别数据存储、处理、分析、统计等业务

典型:搜索引擎、日志分析、商业智能、数据挖掘

2.Hadoop核心组件

Hadoop Common:支持其他Hadoop模块的常用工具。

Hadoop分布式文件系统(HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。

Hadoop YARN:作业调度和集群资源管理的框架。

Hadoop MapReduce:一个用于并行处理大型数据集的基于YARN的系统。

2.1分布式文件系统HDFS

特点:可扩展、可容错、可海量数据存储

将文件切分成指定大小的数据块(默认128M)并以多副本的存储在多个机器上

数据切分、多副本、容错等操作对于用户是透明的(我们操作的对象是文件,具体切分、多副本是Hadoop底层实现的)

如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;

SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。

DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。

热备份:b是a的热备份,如果a坏掉。那么b马上运行代替a的工作。

冷备份:b是a的冷备份,如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失。

fsimage:元数据镜像文件(文件系统的目录树。)

edits:元数据的操作日志(针对文件系统做的修改操作记录)

namenode内存中存储的是=fsimage+edits。

SecondaryNameNode负责定时默认1小时,从namenode上,获取fsimage和edits来进行合并,然后再发送给namenode。减少namenode的工作量。


2.2资源调度系统YARN(Yet Another Resource Negotiator )

负责整个集群资源的管理和调度

特点:可扩展(计算能力不够可添加机器)、可容错性(task出现异常,YARN可进行一定次数的重设)、可多框架资源统一调度



2.3分布式计算框架MapReduce

源自于Google的论文,是Google MapReduce的克隆

特点:可扩展性、容错性、海量数量离线处理

映射合并的组合。


3.Hadoop优势

3.1高可靠性:

数据存储:数据块多副本

数据计算:重新调度作业计算

3.2高可扩展性

存储、计算资源不够时,可以横向的线性扩展机器

一个集群中可以包含数以千计的节点

3.3其他

存储在廉价机器上,降低成本

成熟的生态圈


4.Hadoop发展史

2006年诞生

5.Hadoop生态系统

狭义的Hadoop:是一个适合大数据分布式存储HDFS、分布式计算MapReduce和资源调度YARN的平台

广义的Hadoop:指的是Hadoop生态系统。生态系统中的每一子系统解决某一个特定的问题域。

生态系统:

生态系统特点:

开源、社区活跃;成熟的生态圈;囊括了大数据处理的方方面面

6.Hadoop发行版选择

Apache Hadoop

CDH:Cloudera Distributed Hadoop

HDP:Hortonworks Data Platform

上一篇下一篇

猜你喜欢

热点阅读