大数据Hadoop框架简介

2018-06-17  本文已影响0人  Michaelhbjian
image.png

Hadoop发展简史

Hadoop最初是由Apache Lucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分。2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用。

什么是Hadoop?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它具有以下几个方面的特性:

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFSHDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relaxPOSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

核心设计:

Hadoop解决的问题

Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理的问题。

Hadoop项目

图片.png

Hadoop集群中有哪些节点类型?

Hadoop的集群搭建在之前的博客中已经详细介绍了,下面介绍一下集群中的节点类型。

Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduceMapReduce的作业包括:

Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。一个基本的Hadoop集群中的节点主要有:

图片.png

Apache Hadoop YARN

YARN的作用

YARN是一个通用的开源集群管理员。在Hadoop MapReduce2.0中,集群管理员和作业调度、监控是分开的进程。YARN提供了集群管理功能,应用指定的master则提供作业调度、监控的功能。

YARN的架构

YARN集群管理员由两个关键组件组成:ResourceManagerNodeManager

基于YARN的分布式计算框架有三部分组成:客户端应用、ApplicationMaster、容器。

image

ResourceManager由两个关键组件构成:ApplicationManagerScheduler

参考资料

http://dblab.xmu.edu.cn/

上一篇 下一篇

猜你喜欢

热点阅读