聊聊 Kafka: Consumer 源码解析之 Rebalan

2021-12-27  本文已影响0人  老周聊架构

一、前言

我们上一篇分析了 Consumer 如何加入 Consumer Group,其实上一篇是一个很宏观的东西,主要讲 ConsumerCoordinator 怎么与 GroupCoordinator 通信。等等,老周,ConsumerCoordinator 和 GroupCoordinator 是个啥玩意?这两个组件分别是 Consumer、Kafka Broker 的协调器,说白了就是我们设计模式中的门面模式,具体的内容可以看上一篇回顾下。今天这一篇主要讲上一篇 Consumer 如何加入 Consumer Group 中的 Rebalance 机制,其实上一篇讲了大概了,这一篇更深入的来说一说 Rebalance 机制的具体细节。

如果你是一个有一定经验的程序员,Rebalance 机制我觉得可以作为一道面试题来考察,而且还是有一定难度的。但是也不需要妄自菲薄,跟着老周的这篇文章下来,相信你一定可以拿下它的。

但有些读者确实觉得还是有一定难度,别着急,先看下下面 Kafka 的拓扑结构,这个结构很清晰了吧,如果你对 Kafka 的拓扑结构还不了解,那我建议你先别往下看了,先把 Kafka 的拓扑结构搞清楚,或者先看老周前面的几篇文章再来继续阅读,我觉得效果会更好。


在这里插入图片描述

这一篇主要从以下几点来聊一聊 Rebalance 机制:

二、什么是 Rebalance 机制?

Rebalance 本质上是一种协议,规定了一个 Consumer Group 下的所有 Consumer 如何达成一致,来分配订阅 Topic 的每个分区。

当集群中有新成员加入,或者某些主题增加了分区之后,消费者是怎么进行重新分配消费的?这里就涉及到重平衡(Rebalance)的概念,下面我就给大家讲解一下什么是 Kafka 重平衡机制。


在这里插入图片描述

从图中可以找到消费组模型的几个概念:

要想实现以上消费组模型,那么就要实现当外部环境变化时,比如主题新增了分区,消费组有新成员加入等情况,实现动态调整以维持以上模型,那么这个工作就会交给 Kafka 重平衡(Rebalance)机制去处理。

在这里插入图片描述

从图中可看出,Kafka 重平衡是外部触发导致的,下面来看下触发 Kafka 重平衡的时机有哪些。

三、触发 Rebalance 机制的时机

四、Group 状态变更

4.1 消费端

在 Consumer 侧的门面 ConsumerCoordinator,它继承了 AbstractCoordinator 抽象类。在协调器 AbstractCoordinator 中的内部类 MemberState 中我们可以看到协调器的四种状态,分别是未注册、重分配后没收到响应、重分配后收到响应但还没有收到分配、稳定状态。


在这里插入图片描述

上述消费端的四种状态的转换如下图所示:


在这里插入图片描述

4.2 服务端

对于 Kafka 服务端的 GroupCoordinator 则有五种状态 Empty、PreparingRebalance、CompletingRebalance、Stable、Dead。他们的状态转换如下图所示:

在这里插入图片描述
状态 含义
Empty 组内没有任何成员,但消费者组可能存在已提交的位移数据,而且这些位移数据尚未过期。
Dead 同样是组内没有任何成员,但组的元数据信息已经在协调者端被移除。协调者组件保存着向它注册过的所有组信息,所谓的元数据信息就类似这个注册信息。
PreparingRebalance 消费者组准备开启重平衡,此时所有成员都要重新请求加入消费者组。
CompletingRebalance 消费者组下所有成员已经加入,各个成员正在等待分配方案。该状态在老一点的版本中称为 AwaitingSync,它和 CompletingRebalance 是等价的。
Stable 消费组的稳定状态。该状态表明重平衡已经完成,组内各成员能够正常消费数据了。
在这里插入图片描述

五、旧版消费者客户端的问题

ConsumerCoordinator 与 GroupCoordinator 的概念是针对 Kafka 0.9.0 版本后的消费者客户端而言的,我们 暂且把 Kafka 0.9.0 版本之前的消费者客户端称为旧版消费者客户端。旧版消费者客户端是使用 Zookeeper 的监听器(Watcher)来实现这些功能的。

每个消费组 <group> 在 Zookeeper 中维护了一个 /consumers/<group>/ids 路径,在此路径下使用临时节点记录隶属于此消费组的消费者的唯一标识 consumerldString , consumerldString 由消费者启动时创建。消费者的唯一标识由 consumer.id+主机名+时间戳+UUID的部分信息 构成,其中 consumer.id 是旧版消费者客户端中的配置,相当于新版客户端中的 client.id。比如某个消费者的唯一标识为 consumerld_localhost-1510734527562-64b377f5,那么其中 consumerld 为指定的 consumer.id, localhost 为计算机的主机名,1510734527562代表时间戳,而 64b377f5 表示 UUID 的部分信息。

下图与 /consumers/<group>/ids 同级的还有两个节点:ownersoffsets

在这里插入图片描述

每个 broker、主题和分区在 Zookeeper 中也都对应一个路径:

每个消费者在启动时都会在 /consumers/<group>/ids/brokers/ids 路径上注册一个监听器。当 /consumers/<group>/ids 路径下的子节点发生变化时,表示消费组中的消 费者发生了变化;当 /brokers/ids 路径下的子节点发生变化时,表示 broker 出现了增减。这样通过 Zookeeper 所提供的 Watcher,每个消费者就可以监听消费组和 Kafka 集群的状态了。

这种方式下每个消费者对 Zookeeper 的相关路径分别进行监听,当触发再均衡操作时,一个消费组下的所有消费者会同时进行再均衡操作,而消费者之间并不知道彼此操作的结果,这样可能导致 Kafka 工作在一个不正确的状态。与此同时,这种严重依赖于 Zookeeper 集群的做法还有两个比较严重的问题。

六、Rebalance 机制的原理

Kafka 0.9.0 版本后的消费者客户端对此进行了重新设计,将全部消费组分成多个子集,每个消费组的
子集在服务端对应一个 GroupCoordinator 对其进行管理,GroupCoordinator 是 Kafka 服务端中用于管理消费组的组件。而消费者客户端中的 ConsumerCoordinator 组件负责与 GroupCoordinator 进行交互。

具体的源码分析,可以看我上一篇分析的 Consumer 如何加入 Consumer Group 文章。

七、Broker 端重平衡场景

7.1 新成员加入

在这里插入图片描述

7.2 组成员主动离开

在这里插入图片描述

7.3 组成员崩溃离开

在这里插入图片描述

7.4 Rebalance 时组成员提交 offset

在这里插入图片描述

好了,Rebalance 机制就先说这么多了,下一篇会来聊一聊如何避免重平衡。

上一篇 下一篇

猜你喜欢

热点阅读