基于Zuul,Feign的请求重试及全局幂等方案
概念解释
请求重试,主要用来解决以下几方面问题:
- 项目发布升级,服务单个节点重启时,部分经网关路由的请求出现连接拒绝、服务不可用的情况
- 某个服务节点因内存溢出、硬件故障等原因down掉时的请求无响应情况
- 连接池满、线程死锁造成的相应缓慢情况
- 网络波动导致的部分节点无法连接情况
单次请求经由路由转发后到达服务节点,如出现上述问题,可采用转发至服务集群中的其他节点的方式来提高服务健壮度。
实现方案
由于对于线上环境的应用服务,基本全部采用了多节点部署方式,而在某次请求未能成功时,对单一节点重复请求的成功率低于向其他节点请求,因此该方案使用切换节点重试的方式。
Zuul
通过引入spring-retry包,并开启zuul.retryable: true配置开启重试,由于zuul的route依赖ribbon,需在ribbon配置节点增加对应项。完整配置如下:
zuul:
host:
connect-timeout-millis: 500
socket-timeout-millis: 10000
SendErrorFilter:
error:
disable: true
retryable: true
eureka:
client:
registry-fetch-interval-seconds: 3 # 刷新本地缓存时间(30s) dev:3 test:3 pre:3 pro:5
hystrix:
command:
default:
execution:
timeout: #配置命令的执行,是否会超时
enabled: true
isolation:
thread: #命令的执行超时时间 超时将执行回退
timeoutInMilliseconds: 31500
ribbon:
ReadTimeout: 10000
ConnectTimeout: 500
MaxAutoRetries: 0 # 当前节点的重试次数
MaxAutoRetriesNextServer: 2 # 其他节点的重试次数
关键配置项:MaxAutoRetriesNextServer ,此处的2表明一次请求最大可能被处理三次,因此熔断器的超时时长应设置为单词时长的三倍。该配置项会在请求失败时,将请求forward到其他节点,如果当前注册中心中并未发现该服务的其他节点,则 直接结束请求 (此处与feign有所不同)
切换到其他节点进行重试,还受影响与zuul此时持有的服务节点缓存,即便此时注册中心中存在其他节点,如果zuul持有的服务节点缓存中没有其他节点,请求也会被终止。此处把缓存节点的刷新时间调整为3秒,来提高对于注册中心的变化相应速度
Feign
在同一注册中心环境下的服务间调用,一般采用FeignClient的方式,Feign默认开启了重试开关,只需在ribbon配置节点添加对重试方式和次数的声明,并引入spring-retry依赖包即可使用。
Feign的重试策略,经验证发现,与Zuul环境下的效果有所不同。Feign会在单词请求失败后,随机转发请求到该服务的所有节点,包含已经失败的当前节点,及时MaxAutoRetries配置项为0。
全局幂等方案
为避免重复的请求造成多次数据处理,而产生非预期的效果,此处使用RedissonLock对请求进行约束,来确保本次请求只会被执行一次。处理流程如下:
- 在Zuul和FeignCliient发出请求之前,向RequestHeader中添加requestId项(毫秒+随机数组成)
- 请求到达服务节点时,使用requestId+服务对应serverId创建基于redis的分布式锁,后执行对应处理流程
- 请求在超时情况下被转发到其他节点时,如果未能获取到对应规则的分布式锁,则直接返回请求超时的异常信息,并终止重试
- 处理完成,延迟10s(对应单词ribbon的超时时间)释放锁,已避免单次请求超时,重试到其他节点的同时,原节点刚好完成处理并释放锁,导致被认为请求未被处理过的情况。