简介
2021-01-06 本文已影响0人
chrisghb
hadoop生态圈
- HDFS(分布式文件系统)源自于Google的GFS论文,优点是可以在任何机器上运行,廉价
- MapReduce(分布式计算和分析框架)源自于Google的MapReduce论文,由map端和reduce端组成,键值对的形式
- Hbase(分布式列存数据库)源自Google的BigTable论文,采用key和value的形式,key由行关键字、列关键字、时间戳组成,提供了随机实时读写
- Zookeeper(分布式协作服务)源自Google的Ghubby论文,解决分布式环境下集群的管理
- Hive(数据仓库)由Facebook开源,将HQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析
- Flume(日志收集工具)是Cloudera开源的日志系统收集系统,在收集的过程中会执行简单的处理,过滤和格式的转换
- Spark(内存DAG计算模型)是一个Apche项目,被标榜为“快如闪电的集群计算引擎”
- Kafka(分布式消息队列)是Linkedin于2010年12月开源的消息系统,主要用于处理活跃的流式数据