Hadoop生态圈
2019-01-15 本文已影响0人
上官伟斌
狭义hadoop: 一个适合大数据分布式存储和分布式计算的平台,包含HDFS,MapReduce,YARN
广义hadoop: 以hadoop为基础的生态圈,包含HDFS、MapReduce、YARN、HBase、ZooKeeper、Hive、Pig、Sqoop、Flume、Oozie、Mahout等
HDFS: 分布式文件 系统
MapReduce: 分布式、并行处理的编程模型
YARN:负责整个系统 的资源管理 和调度
Hbase: 建立在HDFS上的面向列的数据库,用于快速读写大量数据
ZooKeeper: 分布式协调服务框架
Hive:将SQL语句翻译成MapReduce作业,并提交到Hadoop集群上支行
Pig:用于并行计算的高级数据语言和执行框架,有一套和SQL类型的执行语句,处理的对象是HDFS上的文件
Sqoop: 用于在关系数据库、数据仓库(Hive)和Hadoop之间转移数据的框架
Flume:基于流式的分布式、高可靠、高可用的服务
Oozie: 工作流调度引擎
Mahout: 机器学习和数据挖掘库