向Hadoop Say Hello——初识Hadoop

2020-05-28  本文已影响0人  爱做梦的锤子

一、概述

Hadoop这个名字的由来是Hadoopde之父Doug Cutting的孩子给一个棕黄色大象样子的玩具起的名字
Hadoop官网地址http://hadoop.apache.org/

什么是Hadoop?

官网原话:The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
翻译过来:Apache的Hadoop项目是一个可靠的,可拓展的分布式计算开源软件

Hadoop 的功能是利用服务器集群,根据用户自定义业务逻辑对海量数据进行分布式处理。它包括四个核心部分:Hadoop Common、Hadoop Distributed File System(HDFS)、Hadoop YARN、Hadoop MapReduce。

  • Hadoop Commmon:支持其他Hadoop模块的通用功能
  • HDFS:分布式文件系统,可提供对应用程序数据的高吞吐量访问
  • Hadoop YARN:作业调度和集群资源管理的框架
  • Hadoop MapReduce:基于YARN的并行处理大型数据集的框架

狭义Hadoop是指集分布式文件系统(HDFS)和分布式计算(MapReduce)以及集群资源调度管理框架(YARN)的一个软件平台。
广义的Hapdoop指的是Hadoop生态系统,在Hadoop生态中Hadoop是重要和基础的一个部分,生态中包含了很多子系统,每一个子系统只能解决某一个特定的问题域。

Hadoop核心组件HDFS和YARN都是采用主从架构

在一个集群中,会有部分节点充当主服务器的角色,其他服务器是从服务器的角色,这种架构模式就叫主从结构

二、核心组件——HDFS

  • 源自于Google在2003年10月的GFS论文
  • HDFS是GFS的一个开源实现版本

HDFS是一个分布式的文件系统,其设计的核心思想:分散均匀存储 + 备份冗余存储。HDFS会把一个大文件按照blocksize(块大小)的要求将其拆分成多个block(块),并以多副本的方式存储在HDFS集群中的多台服务器的本地硬盘上,通过统一的命名空间来定位文件、由很多服务器联合起来实现其功能。在一个HDFS集群中包含两个重要的部分:NameNodeDateNode

对namenode的操作都放在edits中,相当于一个文件操作的记录
fsimage是namenode中关于元数据的镜像,一般称为检查点

特性

劣势

三、核心组件——MapReduce

源自于Google在2004年12月发表的MapReduce论文
MapReduce是Google MapReduce的一个开源实现版本

MapReduce是一个分布式计算编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。

一个MapReduce作业主要分为两部分Map(映射)和Reduce(归约)。首先把输入数据集切分成若干独立数据块,然后将数据块分给多个Map任务并行处理,将map并行处理的结果输入给reduce任务进行处理。

MapReduce作业的输入和输出都会被存储在文件系统中,一般情况下运行MapReduce框架和运行HDFS文件系统的节点通常是在一起的。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。当然MapReduce作业读取的数据文件并不一定要求是在HDFS上,这是由用户指定的,默认是HDFS

MapReduce作业的过程描述

四、核心组件——YARN

YARN是一个分布式的资源管理和作业调度框架,负责将自己管理的系统资源分配给在集群中运行的应用程序,并调度在不同集群节点上执行的任务。YARN的设计是主从结构,包含两个主要服务:ResourceManager、NodeManager,还有两个重要概念:ApplicationMaster、Container

五、其他

优势

数据存储:数据块多副本,NameNode主备设计
数据计算:失败任务会重新调度计算

可横向的线性拓展集群节点
集群中节点的个数可以数以千计

常用发行版

完全开源
不同版本、不同框架的整合比较麻烦

cloudera manager可视化安装,组件管理方便
cloudera manager不开源,且组件与Apache社区版稍有改动

原装Hadoop、纯开源、可以基于页面框架自己定制改造
企业级安全服务不开源

.

文章欢迎转载,转载请注明出处,个人公众号【爱做梦的锤子】,全网同id,个站 http://te-amo.site,欢迎关注,里面会分享更多有用知识,还有我的私密照片

上一篇下一篇

猜你喜欢

热点阅读