Hadoop笔记（一）

2020-02-25 本文已影响0人 lew1sss

Hadoop基本概念

Hadoop出现的前提环境

随着数据量的增大带来了以下问题：

如何存储大量的数据？
怎么处理这些数据？
怎样高效地分析这些数据？
在数据量增长的情况下如何构建一个解决方案？

在大数据领域提出了两个概念：

分布式文件系统，用于存储大量的数据
分布式计算框架MapReduce，高效地分析数据

以上两个概念组成了一个名词叫Hadoop

Hadoop的起源

谷歌发布了三篇论文：GFS分布式存储系统、MapReduce分布式计算框架、BigTable。

Hadoop	Google
HDFS	GFS
MapReduce	MapReduce
Hbase	BigTable

Hadoop与其他分布式系统比较

Hadoop集群的数据首先先金星分布式的存储
Hadoop集群上通过HDFS分布式文件系统，会把存储的数据复制多分，保证了数据的安全性
提供了一个简单的医用的分布式计算框架
Hadoop扩展容易

Hadoop版本

Hadoop1x版本中核心是组建就是HDFS和MapReduce；

Hadoop2x版本中核心中增加了YARN；

YARN介绍

云操作系统，理解为资源管理器，管理集群中的资源（在增加了YARN操作系统之后，MapReduce任务就是可以跑在YARN平台上，通过YARN平台进行MapReduce任务的管理，资源的分配）；
也可以通过YARN平台运行Spark任务，包括Spark可以读取HDFS上的数据文件；

Hadoop生态圈介绍

数据的来源，在企业中一般数据的来源分为两种，第一种是企业内部的数据，

例如：业务数据（保存在关系型数据库中），应用的服务器日志（日志文件）。（机构化数据）

第二种外部渠道获得，例如：用户的行为记录（推荐系统实现），通过搜索的关键字、消费记录、爬虫技术等（非结构化数据）。

hive(数据要进行清洗获取需要的数据)

sqoop(数据导入导出到传统数据库中)

flume（日志收集工具）

hbase（数据库存储）

hdfs

MapReduce

zookeeper

HDFS架构

分布式存储系统，分布式的架构上存在主/从的架构关系，在HDFS文件系统存在主节点和从节点。

主节点：namenode负责管理HDFS集群文件中的元数据（文件名、文件位置、文件副本）
从节点：datanode负责存储真正的数据
image

在HDFS中数据的存储是以块（block）的方式进行存储，默认块的大小为128MB。

YARN架构

分布式架构，分为主从架构；

主节点 ResourceManager，负责管理集群中的所有资源（cpu、内存、磁盘、网络IO）。
从节点 NodeManager，负责管理集群中每一台服务器的资源。

MapReduce架构

核心思想，分而治之

Map端和Reduce端进行数据分析
数据在Map阶段进行分开处理，处理完成之后，再交给Reduce进行统计，在Map和Reduce中间的阶段通过shuffle来进行连接