一些Kafka知识点记录

2023-02-28 本文已影响0人某张三

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统。用于日志处理的分布式消息队列，同时支持离线和在线日志处理。具有高性能、持久化、多副本备份、横向扩展能力。

Producer：

发送消息者。将消息发布到指定的Topic 中,同时Producer 也能决定将此消息归属于哪个partition;比如基于"round-robin"方式或者通过其他的一些算法等。

Consumer：

消息接受者。每个consumer 属于一个consumer group。发送到Topic的消息,只会被订阅此Topic 的每个group 中的一个consumer 消费。

kafka 集群：

多个kafka 实例组成，每个实例(server)称为broker。

kafka集群，producer 和consumer 都依赖于zookeeper 来保证系统可用性，为集群保存一些meta 信息。

Topic/logs：一个Topic相当一类消息，每个topic 将被分成多个partition(区),每个partition 在存储层面是append log 文件。任何发布到此partition 的消息都会被直接追加到log 文件的尾部，每条消息在文件中的位置称为offset（偏移量），offset 为一个long型数字，唯一标记一条消息。

消息被消费时不会被立即删除

日志文件会根据broker的配置要求保留相应时间之后删除，配置时间内没被消费也会清除log文件。通过此来释放磁盘空间，以及减少消息消费之后对文件内容改动的磁盘IO 开支。

Consumer与offset

consumer消费时，需要保存所消费消息的offset，控制offset的使用来消费消息。

zoopkeeper保存producer和consumer状态信息

kafka集群几乎不需要维护任何consumer 和producer 状态信息,这些信息由zookeeper 保存;因此producer 和consumer 的客户端实现非常轻量级,它们可以随意离开,而不会对集群造成额外的影响。

partitions 设计目的

kafka 基于文件存储。通过分区,可以将日志内容分散到多个server 上,来避免文件尺寸达到单机磁盘的上限,每个partiton 都会被当前server(kafka实例)保存;可以将一个topic 切分多任意多个partitions 来保存消息。此外越多的partitions 意味着可以容纳更多的consumer,有效提升并发消费的能力。

分布一个Topic 的多个partitions,被分布在kafka 集群中的多个server 上;每个server(kafka 实例)负责partitions 中消息的读写操作;此外kafka 还可以配置partitions 需要备份的个数(replicas),每个partition 将会被备份到多台机器上,以提高可用性。

每个partition 都有一个server 为"leader";leader 负责所有的读写操作,如果leader 失效,那么将会有其他follower 来接管(成为新的leader);follower 只是单调的和leader 跟进,同步消息即可。因此作为leader的server承载了全部的请求压力，kafka会将leader们均衡地分散到每个实例上来确保性能稳定。

一些Kafka知识点记录

Kafka

partitions 设计目的

猜你喜欢

热点阅读