Hadoop入门
2018-12-25 本文已影响0人
白纸糊
数据仓库与数据挖掘
-
什么是Hadoop
- 分布式
- 海量数据存储计算
作者: doug cutting
google 三篇论文 --Hadoop 思想之源
MAp-Reduce --> MR
GFS --> HDFS
BigTable --> HBase
![](https://img.haomeiwen.com/i15573173/0e8a7f8625a3f5f8.png)
![](https://img.haomeiwen.com/i15573173/9f88a0403e224c6e.png)
-
hadoop组成
- MapReaduce(计算)
- Yarm(资源调度)
- HDFS(数据存储)
-
Common(辅助工具)
hadoop组成
-
重要目录
(1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例
一.架构详解
- HDFS
- NameNode
- DataNode
- Secondary NameNode
![](https://img.haomeiwen.com/i15573173/09b577d35d650d28.png)
-
YARN
1.RescorceManager(RM)
2.ApplicationMaster(AM)
3.NodeManager(NM)
4.Container
image.png
3.MapReaduce
将计算过程分为两个阶段:Map和Reduce
1.Map阶段并行处理输入数据
2.Reduce阶段对Map结果进行汇总
![](https://img.haomeiwen.com/i15573173/0ef835f7e9f09150.png)
二.Hadoop运行模式
- 本地运行模式
- 伪分布式运行模式
- 完全分布式运行模式(开发)
三.推荐系统框架
![](https://img.haomeiwen.com/i15573173/c5da449df49d0f71.png)
公司部门
![](https://img.haomeiwen.com/i15573173/b9202f2b7906399e.png)
本地运行模式
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount winput output