Hadoop生态圈初识
2017-08-03 本文已影响0人
pamperxg
-
hadooop提供的功能:
利用服务器集群,根据用户自定义的业务逻辑(利用hadoop的api),对海量数据进行分布式处理- 指的是一套开源软件平台,通常也指一个更广泛的概念-hadoop生态圈
三大核心组件
- hdfs,分布式文件系统
-
yarn,资源调度
resourcemanager -
mapreduce,业务逻辑编程
maptask,reducetask
zookeeper ,做资源协调,其实并没有管理权限
Hbase hive(sql)
oozie,askaban 工作流调度
mahout,mapreduce->flink
flume数据采集
sqoop,数据导入mysql
nutch+solor,爬虫+搜索引擎=google
google:gfs,mapreduce,bigtable
hadoop最早起源于nutch,hdfs,mapreduce,hbase
hadoop是PasS层解决方案之一(Iaas基础设施,pass平台,saas软件即服务)
- 应用场景:
- 网站或app点击流日志数据挖掘系统
数据采集、数据预处理、导入hive仓库、ETL、报表统计、结果导入mysql、数据可视化(echarts) -
推荐:
推荐系统架构
kafka:支持实时快速读写
storm/sparkstreming:实时处理