程序员大数据 爬虫Python AI Sql大数据,机器学习,人工智能

Hadoop简介

2017-11-24  本文已影响0人  SkyHive

Hadoop 介绍

Hadoop是Apache组织的一个分布式计算框架(java语言),其最核心的设计就是:HDFSMapReduce,HDFS实现存储,MapReduce实现原理分析处理。

HDFS文件系统

HDFS(Hadoop Distributed File System)是一个高度容错的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序。

设计特点
Master / Slave架构

一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode作为中心服务器负责管理文件系统的namespace和客户端对文件的访问,Datanode在集群中负责管理结点上他们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,如打开、关闭、重命名等,同时决定 block到具体Datanode结点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。

HDFS的一些关键元素

MapReduce文件系统

MapReduce是一种编程模型,用于大规模数据的并行运算。MapReduce分成两个部分:Map(映射)和Reduce(归纳)。当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总并输出。

上一篇 下一篇

猜你喜欢

热点阅读