Elastic-Job任务重复执行问题解决
2017-12-15 本文已影响76人
尹吉欢
关于Elastic-Job的使用和介绍请查看我之前的文章 房价网是怎么使用分布式作业框架elastic-job
当前使用的版本是:2.1.5
最近在重新发布任务代码时出现了一个很诡异的问题,就是我重启任务程序后,大概1分钟左右吧,之前执行过的任务又重新执行了一遍,我那些任务都是凌晨跑的,我中午重启程序,居然全部执行了一遍。
虽然这个不影响使用,因为我的作业都支持幂等操作,但是好奇心驱使我去解决这个问题。
首先说说排查问题的思路:
1.这个问题肯定不是定时时间的问题,时间配置的都是凌晨,而且平时也都正常,所以这点可以排除
2.在配置中只有一个值得怀疑,那就是失效转移failover="true"
.如果在任务执行过程中有一个执行实例挂了,那么之前被分配到这个实例的任务(或者分片)会在下次任务执行之前被重新分配到其他正常节点实例上执行。
3.顺着这个思路,我把失效转移关闭了,然后重启程序,果然正常了。
4.但是失效转移是一个很有用的特性,如果去掉的话那么万一任务执行过程中发生异常,不就不能容错了吗,还是需要开启的,但是要从另外的方向去思考为什么会触发失效转移这个逻辑。
5.由于我是直接将程序停止,然后马上启动,中间没有间隔时间,于是我先停掉程序,然后等ZK中instances下的实例信息失效之后再重启程序,果然正常了。
我大概的猜测是当instances下的实例还没失效,然后我们又启动了一个,这个时候instances下就有2个实例了,当之前停止的一个实例节点失效的时候,我们重起的那个程序会监听zk的instance节点删除事件,然后触发失效转移。
至于真正的原因还是得看源码哈,我上面只是猜测,后面有时间再去调试然后跟大家分享下。