大数据技术

大数据技术之Hadoop(一)

2021-04-10  本文已影响0人  pauls

Hadoop 概述

1.1 Hadoop 是什么

Hadoop是什么

Hadoop生态

1.2 Hadoop 发展历史 (了解)

Hadoop发展历史

GFS --->HDFS
Map-Reduce --->MR
BigTable --->HBase

1.3 Hadoop 三大发行版本 (了解)

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。

Apache 版本最原始(最基础)的版本,对于入门学习最好。2006

Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008

Hortonworks 文档较好,对应产品 HDP。2011

Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。

官网地址

下载地址

官网地址

下载地址

官网地址

下载地址

1.4 Hadoop 优势 (4 高)

Hadoop优势(4高 )

高可靠

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

高扩展性

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处
理速度。

高效性

4)高容错性:能够自动将失败的任务重新分配。

高容错性

1.5 Hadoop 组成

Hadoop1.x、2.x、3.x区别

区别

1.5.1 HDFS 架构概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

HDFS架构概述

1.5.2 YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。

YARN架构概述

YARN

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map 和 Reduce

1)Map 阶段并行处理输入数据

2)Reduce 阶段对 Map 结果进行汇总

MapReduce架构概述

MapReduce

1.5.4 HDFS 、YARN 、MapReduce 三者关系

HDFS、YARN、MapReduce三者关系

1.6 大数据技术生态体系

大数据技术生态体系

大数据生态体系

图中涉及的技术名词解释如下:

1.7 推荐系统框架图

推荐系统项目框架

推荐系统框架
上一篇 下一篇

猜你喜欢

热点阅读