kafka 入门

2016-09-21 本文已影响247人 cammsia

Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能，但具有自己独特的设计。

首先来了解一下Kafka所使用的基本术语：
Topic
Kafka将消息种子(Feed)分门别类，每一类的消息称之为话题(Topic).
Producer
发布消息的对象称之为话题生产者(Kafka topic producer)
Consumer
订阅消息并处理发布的消息的种子的对象称之为话题消费者(consumers)
Broker
已发布的消息保存在一组服务器中，称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker). 消费者可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息。
partition
每一个分区都是一个顺序的、不可变的消息队列，并且可以持续的添加。分区中的消息都被分配了一个序列号，称之为偏移量(offset)，在每个分区中此偏移量都是唯一的。 Kafka集群保持所有的消息，直到它们过期，无论消息是否被消费了。

Client和Server之间的通讯是通过一条简单、高性能并且�和开发语言无关的TCP协议

生产者（Producer）

生产者往某个Topic上发布消息。生产者也负责选择发布到�Topic上的哪一个分区。最简单的方式从分区列表中轮流选择。也可以根据某种算法依照权重选择分区。开发者负责如何选择分区的算法。

消费者（Consumers）

Topic分区中消息只能由消费者组中的唯一一个消费者处理，所以消息肯定是按照先后顺序进行处理的。但是它也仅仅是保证Topic的一个分区顺序处理，不能保证跨分区的消息先后处理顺序。所以，如果你想要顺序的处理Topic的所有消息，那就只提供一个分区。

kafka的保证

生产者发送到一个特定的Topic的分区上的消息将会按照它们发送的顺序依次加入
消费者收到的消息也是此顺序
如果一个Topic配置了复制因子( replication facto)为N，那么可以允许N-1服务器宕机而不丢失任何已经增加的消息

消息传递保障

最多一次 --- 消息可能丢失，但永远不会重发
至少一次 --- 消息绝不会丢失，但有可能重新发送
正好一次 --- 这是人们真正想要的，每个消息传递一次且仅一次

性能

3台kafka集群 3台customer（生产者或者消费者):
CPU：8 vCPU， Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz
内存：16 GB
磁盘：500 GB
实验条件：3个Broker，1个Topic，6个Partition，无Replication，异步模式，消息Payload为100字节
测试项目：测试1个Producer和1个Consumer同时工作时Consumer所能消费到的消息量
测试结果：1,215,613 records/second

#######优点和缺点
优点

高吞吐率
分布式，高扩展性
容错性
持久性，可靠性
高并发: 支持数千个客户端同时读写

kafka 入门

生产者（Producer）

消费者（Consumers）

kafka的保证

消息传递保障

性能

猜你喜欢

热点阅读