hadoop生态搭建(包括hbase,hive,hue等)
2019-05-07 本文已影响1人
playwolf719
重要tip
- 项目git地址
- hadoop搭建部分,使用了kiwenlau的hadoop dockefile。
- 注意,hadoop的分布式是基于多机器的,而本github是通过docker来模拟实现的(单机多节点)。其主要目的,是让大家通过看dockerfile和相关shell了解基本的配置和搭建过程。说直白点,本dockerfile就是我认为的搭建流程的最简版。
hadoop,hbase,hive,hue的定位和关系
- Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
- hbase是运行于HDFS文件系统之上的nosql。
- hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。hive映射的表既可以落在hdfs上,也可以落在hbase上。
- hue是支持多种数据库或数据仓库(包括hive)的web界面。
hadoop部署方式
- 单机多节点。(本git的实现结果)
- 多机多节点。
- 鉴于网络特性,对于一类集群,单个机器至多只能存在该类集群的一个节点。
- 因为存在多类集群,那么,单机上可以存在每一类集群的一个节点,即单机上可以存在多个不同类集群的节点。
- 这种可以结合docker进行实现,但这里docker的network得为host类型的模式。
- 真正的分布式,指的是这一种。
搭建步骤。(基本和下面的参考教程的顺序一致,大家可以参考教程其中的细节)
- hadoop
- hbase
- hive
- hive与hbase和hdfs的整合
- hue
- hue与hive的整合
主要参考教程(该部分是我搭建时,参考的教程,基本都是简易版本。)
- hadoop分布式简易安装教程
https://blog.csdn.net/Evankaka/article/details/51612437 - 写的比较好的,hbase分布式教程。
http://www.ityouknow.com/hbase/2017/07/25/hbase-cluster-setup.html - hive安装
https://blog.csdn.net/u013310025/article/details/70306421 - hive和hbase整合
https://blog.csdn.net/qq_33689414/article/details/80328665 - hue安装
https://github.com/cloudera/hue/tree/master/tools/docker/hue - hue与其他存储引擎的整合
https://blog.csdn.net/maomaosi2009/article/details/45648829
相关镜像
- 基于docker实现的单机多节点的github工程。
https://github.com/kiwenlau/hadoop-cluster-docker - hadoop镜像。(该镜像仅供参考)
https://github.com/sequenceiq/hadoop-docker - hue镜像
https://github.com/cloudera/hue/tree/master/tools/docker/hue