大数据,机器学习,人工智能大数据玩转大数据

Hadoop(一)---概述

2019-06-01  本文已影响1人  Coding小聪

Hadoop是什么

Hadoop是一个用于海量数据存储和分析计算分布式基础框架。不过从广义上来讲,Hadoop不单指某个具体的框架,而是指一个生态圈

hadoop技术生态体系

Hadoop官方网站:http://hadoop.apache.org/

Hadoop发行版本

目前而言,不收费的Hadoop发行版本主要有三个,分别是:

一般来说,Apache发行的版本多用于学习,而公司用得较多的是Cloudera Hadoop。

Apache Hadoop版本的官网:http://hadoop.apache.org/releases.html
Cloudera Hadoop版本的官网:https://www.cloudera.com/downloads/cdh/5-10-0.html
Hortonworks Hadoop版本的官网:https://hortonworks.com/products/data-center/hdp/

Hadoop的组件

Hadoop1.x和2.x所包含的组件基本一样,除了2.x新增的资源调度Yarn。不同版本之间具体所包含的组件如下图所示

Hadoop组件图

下面看看组件各自的细节

HDFS概述

HDFS(Hadoop Distributed File System)是分布式文件存储,主要为海量数据提供高效的存储方案。同时HDFS是Hadoop项目的核心子项目。


HDFS系统架构

我们可以看到在HDFS中有3种类型的组件,它们各自的作用如下:

YARN

YARN是资源管理和调度系统,它在Hadoop 2.x引入。YARN架构图如下所示:


yarn

从上面的图中可以看到,YARN架构中有4种组件:Resource Manager、Node Manager、App Mastr、Container,它们的主要功能如下

MapReduce

MapReduce为开发者提供编程接口,是一个分布式计算框架。

MapReduce程序的工作分两个阶段进行:

Hadoop Common

提供一些辅助的工具

参考(more reding)

  1. 尚硅谷大数据技术之Hadoop(入门)
上一篇下一篇

猜你喜欢

热点阅读