提高系统可用性调研

2017-10-14  本文已影响0人  onjianshu

遇到的问题

目前系统中,为了保证服务的可用性。充斥着大量的重试和降级相关的代码。遇到以下几个问题:

  1. 重试和降级的逻辑需要重复编写,容易产生错误。
  2. 重试和降级逻辑并没有很好的监控和管理。发现问题比较被动,发生问题后手动修数据比较麻烦。

如何解决问题

  1. 解决问题一要做的就是对通用的逻辑进行抽象。在需要使用重试的场景时,通过简单的配置声明就能解决问题。
  2. 解决问题二则需要对哪些服务调用失败了,重试过几次,采用的是什么降级策略进行记录。对一些关键的事件进行告警。例如调用失败,进行过降级等。对于需要人工参与处理的场景,则需要提供入口进行人工补偿。如果有必要还可以单独开发一个系统来维护和管理。

关于重试

适合通过重试来保证可用性的场景有:

  1. 只读操作或幂等写操作。例:假设调用服务A的超时时间是2秒,服务A的执行时间是3秒。在A服务执行结束之前调用方超时重试。如果服务A不是幂等的就会出现问题。
  2. 不需要外部数据变更协助来完成的操作。例:如果调用服务A返回的是参数校验类的错误,则不管重试几次也不会成功。

重试的技术方案

  1. 固定的for循环
for (int i = 0; i < RETRY_TIMES; i++) {
                try {
                    //服务调用
                    break;
                } catch (Exception e) {
                    if (i == RETRY_TIMES - 1) {
                        throw e;
                    }
                }
            }

优点:简单直接
缺点:重复代码较多,容易产生错误,仅支持简单的重试策略。

  1. 利用Spring-retry或guava-retryer
    优点:功能完整,对重试涉及的相关逻辑,进行了良好的抽象。
    缺点:有一些学习和改造的成本。
  2. 完全异步的解决方案。将错误消息推送到另一个系统或记录到数据库中稍后重试。
    优点:将重试逻辑与正常业务逻辑完全拆分开,可以分别维护互不影响。消息可以在故障的时候堆积起来,等故障恢复了再慢慢来处理,减少人工介入的成本。
    缺点:引入了额外的复杂度。会增加调试和维护成本。只适合幂等写操作并且不需要同步返回结果的情况。

实际场景

只读服务

可采用方案2来解决,会增加响应时间。

幂等写需要同步返回结果的服务

可采用方案2来解决,会增加响应时间。

幂等写不需要同步返回结果的服务。

可采用方案2,3来解决。

关于降级

采用降级方案时,需考虑的主要问题是方案的合理性和可能会产生的影响。

使用降级的场景

  1. 通过远程服务读取操作降级为从本地缓存读取。牺牲的是数据一致性。
  2. 通过远程服务读取操作改为返回默认值。牺牲的是正确性。
  3. 买二等座降级为买一等座,类似的业务降级则要和相关的利益方进行沟通确认。
  4. 对于不重要的服务在发生问题时直接关闭开关,保证关键服务的正常使用。
    牺牲的是非关键业务或数据的可用性。

技术方案

可以使用Spring-try项目配合开关来实现。有损服务更多的是取舍的考虑。

总结

以上就是工作中对相关问题的思考记录,等以后有更多的理解了再补充完整。

上一篇下一篇

猜你喜欢

热点阅读