微服务架构设计-9服务熔断处理

2023-12-12 本文已影响0人 holmes000

服务的熔断和降级是确保系统具有鲁棒性的重要措施，它们与我们所说的服务雪崩密切相关。

鲁棒性（Robustness）是指系统在面对潜在的干扰或扰动时，能够保持强健和稳定的能力，尤其是在计算环境中。这概念强调了系统对可能影响其正常功能的变化或干扰的耐受程度。

image.png

在这个系统中，我们有五个服务相互调用。具体而言，服务1调用了服务2和服务3，而服务3则调用了服务4和服务5。然而，由于一些不可预测的原因，比如达到性能极限、未知的软件错误或者网络分区等，服务4的访问速度变得非常慢。如果我们没有实施服务的熔断和降级机制，那么服务3将因为服务4的异常而积累大量请求，导致大量等待的线程，类似于阻塞I/O（BIO）模型。这将使服务3本身也出现访问慢或中断服务的问题，同时影响到调用服务1的整个链路。因此，由服务4的问题引发的连锁反应最终导致整个系统遭受服务雪崩效应的影响。

雪崩效应之所以备受关注，主要是因为它很容易在人们忽视的情况下发生。对于微服务架构而言，系统可能包含数百甚至上千个服务实例，逐个检查每个服务的质量变得非常困难。而且，许多问题往往只在系统承受一定压力时才会显露出来，常规的代码审查或针对单个服务的压力测试未必能够充分发现问题。此外，考虑到我们依赖的服务可能不仅仅是我们自己的服务，而且可能是第三方服务，排查和优化这些服务的方法很大程度上只能依赖于经验。如果我们依赖的服务中存在一个微小的bug、过低的连接池配置或是网络波动，都有可能引发雪崩效应。因此，雪崩效应的风险在于它可能在不经意间产生，并对整个系统造成严重影响。

为了有效地避免雪崩效应，我们可以采取以下措施：

设置请求超时时间：为每个请求设定合理的超时时间，以防止服务请求无休止地等待。以图中的例子为例，如果服务4发生了故障，针对服务4的请求将会超时。假设超时时间为1秒，原本在100毫秒内完成的请求现在可能需要等待1秒。在请求量大的情况下，这可能导致服务3出现请求堆积，最终逐级向上引发雪崩。
限制重试次数：设置每个请求的超时时间后，还应该约束重试的次数。如果一个请求超时了N次，就停止再次发送该请求。使用上图的例子，这样的限制能够显著减轻雪崩效应的发生。这也是服务熔断的核心实现之一，通过限制对故障服务的过度请求，防止雪崩效应的扩散。

但这也存在一定的问题，在很多情况下服务异常是瞬时的，比如网络波动、中间件异常（多可自我恢复）、并发量陡增等，我们的策略是超时N次不再请求，这就导致了服务恢复后系统也会处于不用状态。

一个更优雅的熔断和恢复策略可以包括以下特性：
1. 自动探测服务状态：使用自动健康检查来监测服务的状态。如果服务异常被检测到，可以触发熔断机制。
2. 智能的熔断策略：考虑到服务异常可能是短暂的，可以采用智能的熔断策略。例如，请求超时N次后，等待一段时间（X时间）再尝试恢复一部分请求（M%），并根据这些恢复的请求的成功情况来决定是否完全关闭熔断。
3. 服务降级：实现服务降级机制，以提供备用逻辑。当依赖服务异常时，可以切换到替代的逻辑，比如查询缓存数据。这确保了即使主要依赖服务出现问题，系统仍能够提供一些有限但可用的功能。
4. 循环迭代：建立一个循环迭代的过程，根据实际情况动态调整熔断和恢复的策略。这样系统可以更好地适应不同条件下的服务状况。
综合考虑自动探测、智能熔断、服务降级和动态调整策略，可以更有效地应对不同类型的服务异常，提高系统的稳定性和可用性。

我们可以更近一步优化，通过引入限流、排队等方案，可以更进一步完善熔断处理机制。以下是更为理想的熔断处理方案的核心要点：
1. 限流和排队：针对并发量激增的情况，可以引入限流机制，直接挡掉一部分请求，或者采用排队机制，让多余的请求进行等待。这有助于防止并发请求超过服务的预设指标，有效控制系统的负载。
2. 智能的熔断和恢复：实现智能的熔断策略，当服务异常时，通过设定的规则控制请求的流量，等待一段时间再逐步恢复。这样可以有效避免系统雪崩效应，确保服务在逐渐恢复正常的过程中不受过多请求的冲击。
3. 可选的降级流程：引入降级流程以提升服务的可用性。例如，在数据查询场景中，可以使用Elasticsearch（ES）来提升查询性能，降低数据库的压力。当ES查询异常时，需要走降级灾备方案。这可以包括使用有限定的只读账号查询生产数据库，当达到限定值时，切换到查询备份库。虽然备份库在性能和数据实时性上有损失，但至少可以确保服务尽可能地保持可用性。

举个例子

在数据查询场景中，我们通常引入Elasticsearch（ES）来提升查询性能并减轻数据库压力。这是一种合理的设计。然而，当ES查询出现异常时，我们需要确保服务的可用性，这时可以考虑采用熔断与降级的灾备方案。

正常情况：数据查询流程中，正常情况下我们使用ES进行高效的查询，从而降低对主数据库的压力。
异常处理：
降级灾备方案1：当ES查询异常时，我们启动第一级降级灾备方案。这可能包括使用一个资源有限的只读账号直接查询生产数据库。这样的设计有助于保持一定的查询功能，但要限制查询的频率，以免影响其他业务。
降级灾备方案2：如果降级灾备方案1的查询频率达到了限定值，我们进一步启动第二级降级灾备方案。这时，我们可能切换到查询备份库。备份库的查询可能会牺牲一些性能和数据实时性，但至少可以让服务保持尽可能地可用。具体的损失要根据具体场景来权衡。

image.png

熔断器的设计通常包含三个关键状态：

Closed（关闭状态）： 在这个状态下，熔断器认为服务正常运行，允许请求正常通过。
Open（打开状态）： 当服务出现问题时，熔断器切换到打开状态。在这个状态下，熔断器直接返回错误，不再发起请求，从而避免进一步的网络开销。
Half-Open（半熔断状态）： 半熔断状态介于关闭和打开之间。在这个状态下，熔断器会发送少量的请求给相应的服务。如果这些请求成功且达到一定比例，熔断器会认为服务已经恢复正常，将状态切换回关闭状态；反之，如果请求失败，熔断器会回到打开状态，继续防止不稳定的服务影响系统。

Hystrix是目前最为成熟的熔断器之一，作为一个类库，它可以方便地与我们的系统集成。除了上述核心功能外，Hystrix还提供了监控、报警和可视化操作的能力。许多成熟的JVM微服务框架都已经提供了Hystrix的集成方案，使得开发人员能够更容易地引入熔断机制，提高系统的稳定性和可用性。

微服务架构设计-9服务熔断处理

为了有效地避免雪崩效应，我们可以采取以下措施：

举个例子

猜你喜欢

热点阅读