一些Kafka知识点记录
Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统。用于日志处理的分布式消息队列,同时支持离线和在线日志处理。具有高性能、持久化、多副本备份、横向扩展能力。
Producer:
发送消息者。将消息发布到指定的Topic 中,同时Producer 也能决定将此消息归属于哪个partition;比如基于"round-robin"方式或者通过其他的一些算法等。
Consumer:
消息接受者。每个consumer 属于一个consumer group。发送到Topic的消息,只会被订阅此Topic 的每个group 中的一个consumer 消费。
kafka 集群:
多个kafka 实例组成,每个实例(server)称为broker。
kafka集群,producer 和consumer 都依赖于zookeeper 来保证系统可用性,为集群保存一些meta 信息。
Topic/logs:一个Topic相当一类消息,每个topic 将被分成多个partition(区),每个partition 在存储层面是append log 文件。任何发布到此partition 的消息都会被直接追加到log 文件的尾部,每条消息在文件中的位置称为offset(偏移量),offset 为一个long型数字,唯一标记一条消息。
消息被消费时不会被立即删除
日志文件会根据broker的配置要求保留相应时间之后删除,配置时间内没被消费也会清除log文件。通过此来释放磁盘空间,以及减少消息消费之后对文件内容改动的磁盘IO 开支。
Consumer与offset
consumer消费时,需要保存所消费消息的offset,控制offset的使用来消费消息。
zoopkeeper保存producer和consumer状态信息
kafka集群几乎不需要维护任何consumer 和producer 状态信息,这些信息由zookeeper 保存;因此producer 和consumer 的客户端实现非常轻量级,它们可以随意离开,而不会对集群造成额外的影响。
partitions 设计目的
kafka 基于文件存储。通过分区,可以将日志内容分散到多个server 上,来避免文件尺寸达到单机磁盘的上限,每个partiton 都会被当前server(kafka实例)保存;可以将一个topic 切分多任意多个partitions 来保存消息。此外越多的partitions 意味着可以容纳更多的consumer,有效提升并发消费的能力。
分布一个Topic 的多个partitions,被分布在kafka 集群中的多个server 上;每个server(kafka 实例)负责partitions 中消息的读写操作;此外kafka 还可以配置partitions 需要备份的个数(replicas),每个partition 将会被备份到多台机器上,以提高可用性。
每个partition 都有一个server 为"leader";leader 负责所有的读写操作,如果leader 失效,那么将会有其他follower 来接管(成为新的leader);follower 只是单调的和leader 跟进,同步消息即可。因此作为leader的server承载了全部的请求压力,kafka会将leader们均衡地分散到每个实例上来确保性能稳定。