大数据协作框架我爱编程

大数据协作框架诞生

2018-03-20  本文已影响83人  明明德撩码

第二个问题:

当大数据分析平台中MapReduce Job和HiveQL比较多,需要定时调度,合理充分使用集群资源;此外,有很多业务,一般需要多个MapReduce 任务共同完成,那么job1、job2、job3之间的存在彼此的依赖调度。此时就需要一个调度框架来完成【多任务Job定时调度】和【多任务之间的依赖调度】,在Hadoop 2.x生态系统中,有很多类似的框架,其中Oozie是功能最强大的,相对来说很多公司都使用的一个框架(当然很多大公司,自身都有自己开发的调度系统,不会使用Oozie这些)。Oozie既可以基于时间也可以基于数据可用性(调度任务运行之前首先判断要处理的数据是否在HDFS之上存在)的工作流调度框架。当然还有很多其他开源的调度框架,比如Azkaban(简单,能实现调度,发预警,发邮件)、Zeus(阿里开源的Hadoop Job调度框架)等。
Oozie官方网址:http://oozie.apache.org/

第三个问题:

前面已经讲解过很多框架了,各个框架都有自己的WEB UI监控页面,分别对应不同的端口号,比如HDFS(50070)、YARN(8088)、MapReduce(19888)以及Hive运行HiveQL语句时命令行方式等等,此时对于实际的开发人员和运维人员来说,需要一个统一的WEB UI页面,集成大多数大数据常用框架的监控和SQL运行界面,此时Hue应运而生,可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
Hue官方网住:http://gethue.com/

总结

总上所述的三个问题,在做大数据平台数据分析过程必须遇到的,因而诞生了对应的框架,并且是开源的,供各大公司使用。我们在学习时,首先要理解框架如何诞生的?能过解决什么问题?在进一步带着疑问去学习基本的使用,辅助我们大数据的分析,这样学习才更快更好。其中Sqoop和Oozie底层运行的也是MapReduce Job,所以MapReduce可以说是非常的核心关键,其优势就是分布式的并行计算所决定的。

产品选择

在Hadoop 2.x课程的高级部分,已经给大家介绍了目前世界上主流的三大HADOOP发型版本以及之间的关系,其中Cloudera公司发布的CDH 版本,为众多公司所使用,包括国内的京东、一号店、淘宝、百度等电商互联网大中小性公司。Cloudera公司发布的每一个CDH版本,其中一个最大的好处就是,帮我们解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题,我们直接选择某一版本,比如CDH5.3.6版本,其中hadoop版本2.5.0,hive版本0.13.1,flume版本1.4.5;还有一点就是类似Sqoop、Flume、Oozie等框架,在编译的时候都要依赖对应的Hadoop 2.x版本,使用CDH版本的时候,已经给我们编译好了,无需再重新配置编译。、
CDH 5.x版本下载地址:
http://archive.cloudera.com/cdh5/cdh/5/

上一篇下一篇

猜你喜欢

热点阅读