Kafka 调研

2019-03-24  本文已影响0人  王龙江_3c83

1. 基本概念

术语 解释
Producer
Consumer
Consumer Group
Broker
Controller
Topic 相同Topic的生产者和消费者进行通信。
offset 某个user group在某个partiton中当前已经消费到达的位置。
Partition 分区
Leader 负责读写指定分区的节点
Replicas 复制该分区log的节点列表
Isr "in-sync" replicas,当前活跃的副本列表(是一个子集),并且可能成为Leader

2. 重要配置

2.1 有序性保证

对于有序性要求严格的场景,将 retries 时间设置为 Broker 主从切换时间,次数设置为合适的正数, 将 max.in.flight.requests.per.connection设置为 1。

2.2 可靠性保证

2.3 分区再均衡

数据之间不存在逻辑上依赖性,写数据库后写 zk,并且采用数据库的 UUID 保证只写一次。

1. zookeeper 在 kafka 中起到什么作用

1.1 Controller 选举

1.2 集群 membership

记录集群中都有哪些活跃着的Broker。

1.3 Topic 配置

1.4 在 consumer group 发生变化时进行 rebalance。

1.5 配额(0.9.0+)

1.6 ACLs(0.9.0+)

1.7 high-level consumer(已废弃)

2. kafka 在 zookeeper 上创建的目录结构

image

详细内容参考链接:
kafka笔记-Kafka在zookeeper中的存储结构【转】

注册的节点如下:

consumers、admin、config、controller、brokers、controller_epoch

3. kafka 中的控制器 controller 的作用

Kafka集群中的其中一个 Broker 会被选举为Controller,主要负责 Partition 管理和副本状态管理(当 partition leader 挂掉时,会从 follower 中选出一个 leader),也会执行类似于重分配 Partition 之类的管理任务。如果当前的 Controller 失败,会从其他正常的 Broker 中重新选举 Controller。

4. kafka consumer 均衡算法

当一个group中,有consumer加入或者离开时,会触发partitions均衡。均衡的最终目的,是提升topic的并发消费能力。

5. kafka 数据高可用的原理是什么

一致性定义:若某条消息对Consumer可见,那么即使Leader宕机了,在新Leader上数据依然可以被读到

  1. HighWaterMark简称HW: Partition的高水位,取一个partition对应的ISR中最小的LEO作为HW,消费者最多只能消费到HW所在的位置,另外每个replica都有highWatermark,leader和follower各自负责更新自己的highWatermark状态,highWatermark <= leader. LogEndOffset

  2. 对于Leader新写入的msg,Consumer不能立刻消费,Leader会等待该消息被所有ISR中的replica同步后,更新HW,此时该消息才能被Consumer消费,即Consumer最多只能消费到HW位置

这样就保证了如果Leader Broker失效,该消息仍然可以从新选举的Leader中获取。对于来自内部Broker的读取请求,没有HW的限制。同时,Follower也会维护一份自己的HW,Folloer.HW = min(Leader.HW, Follower.offset)

6. kafka 的数据可靠性保证

当Producer向Leader发送数据时,可以通过acks参数设置数据可靠性的级别

仅设置acks=-1也不能保证数据不丢失,当Isr列表中只有Leader时,同样有可能造成数据丢失。要保证数据不丢除了设置acks=-1, 还要保证ISR的大小大于等于2,具体参数设置:

1.request.required.acks:设置为-1 等待所有ISR列表中的Replica接收到消息后采算写成功;

2.min.insync.replicas: 设置为大于等于2,保证ISR中至少有两个Replica

注意:Producer要在吞吐率和数据可靠性之间做一个权衡

7. kafka partition 分区的策略是什么

消息发送到哪个分区上,有两种基本的策略,一是采用 Key Hash 算法,一是采用 Round Robin 算法。另外创建分区时,最好是 broker 数量的整数倍,这样才能是一个 Topic 的分区均匀的分布在整个 Kafka 集群中。

默认情况下,Kafka 根据传递消息的 key 来进行分区的分配,即 hash(key) % numPartitions。

如果发送消息时没有指定key,那么 Producer 将会把这条消息发送给随机的一个 Partition。但是代码层面的逻辑并不完全是这样。首先看看Kafka有没有缓存的现成的分区Id,如果有的话直接使用这个分区Id。如果没有的话,找出所有可用分区的leader所在的broker,从中随机挑一个并放到缓存中,下次就直接从缓存中拿这个 partition id。注意这个缓存是每隔一段时间就会被清空的。这么做的目的是为了减少服务器端的sockets数。

8. Kafka Producer是如何动态感知Topic分区数变化

过一定的时间(topic.metadata.refresh.interval.ms参数决定)才知道分区数改变的。

原文链接

10. kafka 如何实现高吞吐量

参考资料

实战代码

上一篇 下一篇

猜你喜欢

热点阅读