基于Zuul,Feign的请求重试及全局幂等方案

2019-01-18 本文已影响19人湘西刺客王胡子

概念解释

请求重试，主要用来解决以下几方面问题：

项目发布升级，服务单个节点重启时，部分经网关路由的请求出现连接拒绝、服务不可用的情况
某个服务节点因内存溢出、硬件故障等原因down掉时的请求无响应情况
连接池满、线程死锁造成的相应缓慢情况
网络波动导致的部分节点无法连接情况

单次请求经由路由转发后到达服务节点，如出现上述问题，可采用转发至服务集群中的其他节点的方式来提高服务健壮度。

实现方案

由于对于线上环境的应用服务，基本全部采用了多节点部署方式，而在某次请求未能成功时，对单一节点重复请求的成功率低于向其他节点请求，因此该方案使用切换节点重试的方式。

Zuul

通过引入spring-retry包，并开启zuul.retryable: true配置开启重试，由于zuul的route依赖ribbon，需在ribbon配置节点增加对应项。完整配置如下：


zuul:
  host:
    connect-timeout-millis: 500
    socket-timeout-millis: 10000
  SendErrorFilter:
    error:
      disable: true
  retryable: true

eureka:
  client:
    registry-fetch-interval-seconds: 3 # 刷新本地缓存时间(30s) dev:3 test:3 pre:3 pro:5
hystrix:
  command:
    default:
      execution:
        timeout: #配置命令的执行，是否会超时
          enabled: true
        isolation:
          thread: #命令的执行超时时间  超时将执行回退
            timeoutInMilliseconds: 31500
ribbon:
  ReadTimeout: 10000
  ConnectTimeout: 500
  MaxAutoRetries: 0 # 当前节点的重试次数
  MaxAutoRetriesNextServer: 2 # 其他节点的重试次数

关键配置项：MaxAutoRetriesNextServer ,此处的2表明一次请求最大可能被处理三次，因此熔断器的超时时长应设置为单词时长的三倍。该配置项会在请求失败时，将请求forward到其他节点，如果当前注册中心中并未发现该服务的其他节点，则 直接结束请求 (此处与feign有所不同)

切换到其他节点进行重试，还受影响与zuul此时持有的服务节点缓存，即便此时注册中心中存在其他节点，如果zuul持有的服务节点缓存中没有其他节点，请求也会被终止。此处把缓存节点的刷新时间调整为3秒，来提高对于注册中心的变化相应速度

Feign

在同一注册中心环境下的服务间调用，一般采用FeignClient的方式，Feign默认开启了重试开关，只需在ribbon配置节点添加对重试方式和次数的声明，并引入spring-retry依赖包即可使用。

Feign的重试策略，经验证发现，与Zuul环境下的效果有所不同。Feign会在单词请求失败后，随机转发请求到该服务的所有节点，包含已经失败的当前节点，及时MaxAutoRetries配置项为0。

全局幂等方案

为避免重复的请求造成多次数据处理，而产生非预期的效果，此处使用RedissonLock对请求进行约束，来确保本次请求只会被执行一次。处理流程如下：

在Zuul和FeignCliient发出请求之前，向RequestHeader中添加requestId项（毫秒+随机数组成）
请求到达服务节点时，使用requestId+服务对应serverId创建基于redis的分布式锁，后执行对应处理流程
请求在超时情况下被转发到其他节点时，如果未能获取到对应规则的分布式锁，则直接返回请求超时的异常信息，并终止重试
处理完成，延迟10s（对应单词ribbon的超时时间）释放锁，已避免单次请求超时，重试到其他节点的同时，原节点刚好完成处理并释放锁，导致被认为请求未被处理过的情况。