IT阔论

Quartz重复执行问题记录

2018-04-02  本文已影响18人  七佰

现象:在项目维护过程中,使用了Quartz框架,也就是定时执行任务的功能。但是,在多节点多并发的过程中,出现了一个问题,同一个trigger被多个机器重复的触发了。

Quartz的运行流程:
当任务达到触发条件的时候(当这条任务满足qrtz_cron_triggers表中定义的相关的时间表达式的时候)
qrtz_triggers表对应的这条记录的状态发生改变,同时下次触发时间根据时间表达式做出改变,同时根据sched_name找到qrtz_job_details
表中的具体job去执行

网上的解决办法:

  1. 使用 zooKeeper的注册机制.
    当任务进入job之后用job id(同时触发的这几个job的id是一样的)去向zookeeper完成注册,由于id是一样的那么只能有一个注册成功,只要在注册成功的条件下我才允许task。这样就保证了不做重复的运算。
public class PlatformQuartzJobBean extends QuartzJobBean {
    private String path = "/zk_triggerID";
    private String lock = "/zk_lock";
    private static ZooKeeper zk = null;
    static{
        try {
            zk = new ZooKeeper(PropsUtil.get("zooKeeperUrl")+":"+PropsUtil.get("zooKeeperPort"), 50000,new ZKWatcher());
        } catch (IOException e) {
            logger.error(e.getMessage(),e);
        }
    }
    //任务执行的具体逻辑
    protected void executeInternal(JobExecutionContext jobexecutioncontext)
        throws JobExecutionException {
        Trigger trigger = jobexecutioncontext.getTrigger();
        String triggerName = trigger.getKey().getName();//triggername是唯一的
        boolean createSuccess = false;
        boolean doTask = false; //不对zookeeper注册执行任务
        int childrens = 0;
        List<String> children = null;
        boolean onDelete = false;//是否获取删除节点的权限
        try {
            zk.create(path+"/"+triggerName, triggerName.getBytes(),
                    Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL);//如果注册出现问题说明节点存在是重复的任务
            createSuccess = true;
            children = zk.getChildren(path, false);
            if(children != null){
                childrens = children.size();
            }
            if(childrens>99){//节点个数达到100个就执行删除操作
                try {
                    zk.create(lock+"/dodelete", "dodelete".getBytes(),
                            Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL);
                    onDelete = true;
                } catch (KeeperException e1) {
                    if(e1 instanceof NodeExistsException){
                        logger.info("already on delete!");
                    }else{
                        logger.error(e1.getMessage(),e1);
                    }
                } catch (InterruptedException e1) {
                    logger.error(e1.getMessage(),e1);
                }
                 
            }
            //执行具体的任务
            execuTask(trigger,triggerName,jobexecutioncontext,af);
        } catch (KeeperException e) {
            if(e instanceof NodeExistsException){
                logger.info("already on do");
            }else if(e instanceof ConnectionLossException){
                logger.info("ConnectionLoss ,do task without registered!!");
                doTask = true;
            }else if(e instanceof SessionExpiredException){
                logger.info("session expired ,do task without registered!!");
                doTask = true;
                try {
                    zk = new ZooKeeper(PropsUtil.get("zooKeeperUrl")+":"+PropsUtil.get("zooKeeperPort"), 50000,new ZKWatcher());
                } catch (IOException e1) {
                    logger.error(e1.getMessage(),e1);
                }
            }else{
                logger.error(e.getMessage(),e);
            }
        } catch (InterruptedException e) {
            logger.error(e.getMessage(),e);
        }
        if(createSuccess && onDelete){//如果创建成功并且root下有执行删除的权利
            try {
                for(String str:children){
                    zk.delete(path+"/"+str, -1);
                }
            } catch (KeeperException e1) {
                logger.error(e1.getMessage(),e1);
            } catch (InterruptedException e1) {
                logger.error(e1.getMessage(),e1);
            }finally{
                if(onDelete){
                    try {
                        zk.delete(lock+"/dodelete", -1);
                    } catch (InterruptedException e) {
                        logger.error(e.getMessage(),e);
                    } catch (KeeperException e) {
                        if(e instanceof ConnectionLossException){
                            logger.info("ConnectionLoss ,reconnect zk!!");
                            try {
                                zk.close();//人为失效,删除dodelete节点
                                zk = new ZooKeeper(PropsUtil.get("zooKeeperUrl")+":"+PropsUtil.get("zooKeeperPort"), 50000,new ZKWatcher());
                            } catch (InterruptedException e1) {
                                e1.printStackTrace();
                            } catch (IOException e1) {
                                e1.printStackTrace();
                            }
                             
                        }else{
                            logger.error(e.getMessage(),e);
                        }
                         
                    }
                }
            }
             
        }
        //如果出现connectloss和sessionexpired 可能是网络有点问题找不到zookeeper就不管重复问题了完成任务为最重要的
        if(doTask){//如果出现connectloss和sessionexpired 就直接执行任务
            execuTask(trigger,triggerName,jobexecutioncontext,af);
        }
     
    }
     
}

整个过程就是:当job开始的时候去向zookeeper申请注册,只有当注册成功的时候才执行业务,失败则退出job。同时由于我这里是每天循环的
定时任务所以当zookeeper下的节点数目达到一定的个数的时候加一个删除锁(就是向zookeeper create一个ondetele节点),同时删除之前
的triggername节点,这样保证了明天这些任务可以继续完成。至此,任务重复执行的问题就解决了。

2.网上有网友解释:如果我在10:00:00执行了一个任务,下次就是15s,但是如果服务器挂掉,我在10:00:50重新启动服务器,由于任务间隔是15s,所以从00-50s中间会有三个任务超时没有执行(本来应该分别是在15s,30s,45s执行),而超时的时间均小于1min,所以服务器启动以后会立即开启三个quartz线程来执行超时的任务。
方法1、通过改TOMCAT的配置文件server.xml配置
方法2、先把quartz配置信息提取出来,单独存成一个文件,比如applicationContext-quartz.xml 然后修改web.xml,让web容器启动时,可以加载该文件 。(此文没对此方法进行深入探究)
参考链接:https://my.oschina.net/EugeneQiu/blog/265040?p=1

上一篇下一篇

猜你喜欢

热点阅读