Kafka

2021-05-06 本文已影响0人 voidFan

Kafka

一、什么是Kafka

Kafka是一个分布式的基于发布/订阅模式的消息队列，强悍的消息处理能力，主要应用于大数据实时处理领域。

高吞吐：普通服务器每秒几十万条消息
低延迟：TB级数据延迟最低只有几毫秒
高并发：支持数千个客户端同时读写
可扩展：Kafka集群支持热扩展
可靠性：消息被持久化到本地磁盘
容错性：允许集群中节点故障

Kafka消息队列的两种模式

点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）
消息生产者生产消息发送到 Message Queue 中，然后消息消费者从 Message Queue 中取出并且消费消息。消息被消费以后，队列中不再有存储，所以消息消费者不可能消费到已经被消费的消息。队列支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。
发布/订阅模式（一对多，消费者消费数据之后不会清除消息）
消息生产者将消息发布到 topic 中，同时有多个消息消费者消费该消息。和点对点方式不同，发布到 topic 的消息会被所有订阅者消费。

二、Kafka基础结构

kafka体系架构包括若干Producer、Broker、Consumer和一个zookeeper集群。

Producer ：消息生产者，就是向 kafka broker 发消息的客户端。
Consumer ：消息消费者，向 kafka broker 取消息的客户端。
Consumer Group （CG）：消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个消费者消费；消费者组之间互不影响。
所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。
Broker ：一台 kafka 服务器就是一个 broker。一个集群有多个 broker 组成。一个 broker可以容纳多个 topic。
Topic ：可以理解为一个队列，生产者和消费者面向的都是一个 topic。
Partition：为了实现扩展性，一个非常大的 topic 可以分布到多个 broker（即服务器）上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列。
Replica：副本，为保证集群中的某个节点发生故障时，该节点上的 partition 数据不丢失，且 kafka 仍然能够继续工作，kafka 提供了副本机制，一个 topic 的每个分区都有若干个副本，一个 leader 和若干个 follower。
leader：每个分区多个副本的主，生产者发送数据的对象，以及消费者消费数据的对象都是 leader。
follower：每个分区多个副本中的从，实时从 leader 中同步数据，保持和 leader 数据的同步。leader 发生故障时，某个 follower 会成为新的 follower。

三、Kafka性能好在什么地方

顺序写

操作系统每次从磁盘读写数据的时候，需要先寻址，也就是先要找到数据在磁盘上的物理位置，然后再进行数据读写，如果是机械硬盘，寻址就需要较长的时间。
kafka的设计中，数据其实是存储在磁盘上面，一般来说，会把数据存储在内存上面性能才会好。但是kafka用的是顺序写，追加数据是追加到末尾，磁盘顺序写的性能极高，在磁盘个数一定，转数达到一定的情况下，基本和内存速度一致
随机写的话是在文件的某个位置修改数据，性能会较低。

零拷贝

Kafka-零拷贝.png

Kafka

Kafka

一、什么是Kafka

二、Kafka基础结构

三、Kafka性能好在什么地方

猜你喜欢

热点阅读