大数据入门：Kafka基础讲解

2020-11-23 本文已影响0人成都加米谷大数据

Kafka框架，在大数据生态当中，以作为消息总线使用闻名，尤其是实时数据流消息场景下，Kafka可以说是名气响当当。当然，这也得益于Kafka的原始开发团队背景，毕竟，Kafka源自LinkedIn。今天的大数据入门分享，我们就来讲讲Kafka基础知识。

什么是kafka

从官方文档的定义来说，Apache Kafka是一个分布式发布/订阅消息系统，能够处理高并发的大量数据，将实时消息从一个端点传到另一个端点。

事实上，Kafka非常适合处理离线和在线消息消费。Kafka消息可以持久化的保留在磁盘上，并在群集内复制以防止数据丢失。

同时，Kafka构建在ZooKeeper同步服务之上，用Raft协议保证集群的高可用，可以与Storm和Spark非常好地集成，用于实时流式数据分析。

通常来说，Kafka架构分为四个部分，生产者（producer），zookeeper，代理（broker），消费者（consumer）。

1.生产者

负责发布消息到Kafka Broker。

2.zookper

kafka与Zookeeper级联，通过Zookeeper管理级联配置，选举Leader，并管理和协调生产者和消费者去使用broker。

3.Broker

Kafka集群包含一个或多个服务实例，这些服务实例被称为Broker。是Kafka当中具体处理数据的单元。Kafka支持Broker的水平扩展。一般Broker数据越多，集群的吞吐力就越强。

4.消费者

从Kafka Broker读取消息的客户端

1.日常系统解耦，将消息生产者和订阅者分离。

2.在应用前端以消息队列接收请求，当请求超过队列长度，直接不处理重定向至一个静态页面，来达到流量削峰的目的，此场景一般用于秒杀活动。

3.流失处理。从流数据处理引擎当中，如Storm，Spark Streaming等，从topic中读取数据，实时对其进行处理，并将处理后的数据写入新topic中，供用户和应用程序使用。

4.mysql数据库数据同步。后端应用可以将数据先写入kafka，让后让kafka异步写入mysql数据库，这样非常可以抗高峰，便于扩展。

今天的大数据学习分享，Kafka基础入门就为大家介绍到这里了。在大数据实时流处理上，Kafka受到越来越多的青睐，而大数据开发者们，自然也需要把这个框架熟练掌握下来。