大数据组件之oozie

2021-01-28  本文已影响0人  任目达

一、oozie介绍

官网首页介绍:http://oozie.apache.org


(1)Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。
(2)Oozie的 workflow jobs 是由 actions 组成的 有向无环图(DAG)。
(3)Oozie的 coordinator jobs 是由时间 (频率)和数据可用性触发的重复的 workflow jobs 。
(4)Oozie与Hadoop生态圈的其他部分集成在一起,支持多种类型的Hadoop作业(如Java map-reduce、流式map-reduce、Pig、Hive、Sqoop和Distcp)以及特定于系统的工作(如ava程序和shell脚本)。
(5)Oozie是一个可伸缩、可靠和可扩展的系统。

二、对比选型

简单项目的话可以用crontab来做控制,但是项目比较复杂的话会发现还是有很多不方便的,比如失败重启和日志查看等问题,所以我们通常在Azkaban和oozie之间做对比,选择适合自己公司或者项目的任务调度工具

三、架构原理

Oozie主要有三个层层包裹的主要概念

关于oozie的作业

Oozie的作业有三部分组成,分别是job.properties,workflow.xml,lib文件夹。下面分别介绍

Job.properties

从名称也能看出来,这个文件是用来配置作业(job)中用到的各种参数的,总结如下

注:
1、这个文件如果是在本地通过命令行进行任务提交的话,这个文件在本地就可以了,当然也可以放在hdfs上,与workflow.xml和lib处于同一层级。
2、nameNode,jobTracker和workflow.xml在hdfs中的位置必须设置。

一个简单的job.properties文件如下:

nameNode=hdfs://cm1:8020
jobTracker=cm1:8032
queueName=default
examplesRoot=examples
oozie.wf.application.path=${nameNode}/user/workflow/oozie/shell

workflow.xml:

这个文件是定义任务的整体流程的文件,需要注意的有三点:版本信息,EL函数,节点信息。
先上一个例子:

01.  <workflow-app xmlns="uri:oozie:workflow:0.4" name="${sys_name}-MonitorPlus-Task-${task_id}">  
02.      <start to=“check-xxx-succ-flag"/>  
03.    
04.      <decision name=“check-xxx-succ-flag">  
05.          <switch>  
06.  <case to="check-mr-succ-flag">${fs:exists(concat(concat("/xxx/output/xxxList/",   
07.       task_id),"/_SUCCESS"))}</case>  
08.  <default to=“do-xxx"/>  
09.          </switch>  
10.     </decision>  
11.   
12.     <decision name="check-mr-succ-flag">  
13.         <switch>  
14.             <case to="end">${fs:exists(concat(concat(“/xxx/output/", task_id),"/_SUCCESS"))}</case>  
15.             <default to="do-mr"/>  
16.         </switch>  
17.     </decision>  
18.   
19.     <action name=“do-xxx" retry-max="3" retry-interval="10">  
20.         <java>  
21.             <job-tracker>${jobTracker}</job-tracker>  
22.             <name-node>${namenode}</name-node>  
23.             <configuration>  
24.                 <property>  
25.                     <name>mapreduce.job.queuename</name>  
26.                     <value>${queueName}</value>  
27.                 </property>  
28.             </configuration>  
29.            <main-class>com.xxx.Main</main-class>       
30.          </java>
31.        <ok to=”end”/>
32.        <error to=”fail”/>
33.     </action>
34.     <kill name=”fail”>
35.         <message>Map/Reduce failed.error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
36.     </kill>
37.     <end name=”end”/>
38. </workflow-app>
  1. 版本信息:
    这个是写在第一行的,如下:
<workflow-app xmlns="uri:oozie:workflow:0.4" name="${sys_name}-MonitorPlus-Task-${task_id}">

在xmls属性中定义了workflow的版本为0.4,workflow的版本不能高于oozie兼容的最高版本,可以降低。

  1. EL函数
    常用的EL函数有基本的EL函数,workFlow EL函数和HDFSEL函数。分别如下:
  1. 节点:
    Oozie的节点分成两种,流程控制节点和动作节点。所谓的节点实际就是一组标签。两种节点分别如下:

A. 流程控制节点

案例:


B. 动作节点

Workflow.xml综述
文件需要被放在HDFS上才能被oozie调度,如果在启动需要调动MR任务,jar包同样需要在hdfs上。最终的目录结构如下:

 /xxx/oozie/workflow.xml  
 /xxx/oozie/lib  
 /xxx/oozie/lib/mr-1.7-SNAPSHOT-**package**.jar  
 /xxx/oozie/lib/xxx.mr-1.7-SNAPSHOT-**package**.jar 

Lib文件夹:

在workflow工作流定义的同级目录下,需要有一个lib目录,在lib目录中存在java节点MapReduce使用的jar包。需要注意的是,oozie并不是使用指定jar包的名称来启动任务的,而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本,不能够出现多个相同主类。

四、安装搭建

在搭建好CDH后,可以直接通过添加服务的方式实现oozie的安装,比较方便。当然也可以在服务器上搭建独立的oozie服务,具体可参考https://oozie.apache.org/docs/5.0.0/AG_Install.html

搭设后进入oozie web控制台,地址为:OozieserverIp:11000/oozie/ (OozieserverIp为oozie所在的服务器的ip地址),界面如下:

oozie控制台
注:如果界面报错 Oozie web console is disabled,请看https://docs.cloudera.com/documentation/enterprise/5-5-x/topics/admin_oozie_console.html

五、开发使用

1.拷贝官方自带实例模板

cp -r examples/apps/shell/ oozie-apps

2.修改job.properties

nameNode=hdfs://hadoop:8020
jobTracker=hadoop:8032
queueName=default
examplesRoot=oozie-apps

oozie.wf.application.path=${nameNode}/user/hadoop/${examplesRoot}/shell
EXEC=mem.sh #放一个脚本文件,脚本文件名称

3.修改workflow.xml

<start to="shell-node"/>
    <action name="shell-node">
        <shell xmlns="uri:oozie:shell-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                    <name>mapred.job.queue.name</name>
                    <value>${queueName}</value>
                </property>
            </configuration>
            <exec>${EXEC}</exec>    
            <file>${nameNode}/user/hadoop/${examplesRoot}/shell/${EXEC}#${EXEC}</file>  
        </shell>
        <ok to="end"/>
        <error to="fail"/>
    </action>   
    <kill name="fail">
        <message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>   
    <end name="end"/>

4.在shell目录下创建mem.sh

#!/bin/sh
/usr/bin/date -R >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log
/usr/bin/free -m >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log
/usr/bin/df -lh >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log
echo ------------------- >> /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log 

注:/usr/bin/date为命令绝对路径,可以通过which date获得

5.上传到hdfs

bin/hdfs dfs -put /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell /user/hadoop/oozie-apps/

6.执行:

bin/oozie job -oozie http://hadoop:11000/oozie  -config oozie-apps/shell/job.properties -run

7.检查结果

cat /opt/modules/oozie-4.1.0-cdh5.7.0/oozie-apps/shell/1.log
上一篇下一篇

猜你喜欢

热点阅读