Kafka生产者TCP连接管理
一、Kafka通信方式
Apache Kafka 的所有通信都是基于 TCP 的,而不是基于 HTTP 或其他协议。无论是生产者、消费者,还是 Broker 之间的通信都是如此。
为什么 Kafka 不使用 HTTP 作为底层的通信协议呢?
1.从社区的角度来看,在开发客户端时,人们能够利用 TCP 本身提供的一些高级功能,比如多路复用请求以及同时轮询多个连接的能力。所谓的多路复用请求,即 multiplexing request,是指将两个或多个数据流合并到底层单一物理连接中的过程。TCP 的多路复用请求会在一条物理连接上创建若干个虚拟连接,每个虚拟连接负责流转各自对应的数据流。其实严格来说,TCP 并不能多路复用,它只是提供可靠的消息交付语义保证,比如自动重传丢失的报文。更严谨地说,作为一个基于报文的协议,TCP 能够被用于多路复用连接场景的前提是,上层的应用协议(比如 HTTP)允许发送多条消息。
2.除了 TCP 提供的这些高级功能有可能被 Kafka 客户端的开发人员使用之外目前已知的 HTTP 库在很多编程语言中都略显简陋。
基于这两个原因,Kafka 社区决定采用 TCP 协议作为所有请求通信的底层协议。
二、创建 TCP 连接的时机
1.生产者在创建 KafkaProducer 实例时
Kafka 生产者程序概览:
- 构造生产者对象所需的参数对象。
- 利用第 1 步的参数对象,创建 KafkaProducer 对象实例。
- 使用 KafkaProducer 的 send 方法发送消息。
- 调用 KafkaProducer 的 close 方法关闭生产者并释放各种系统资源。
Properties props = new Properties ();
props.put(“参数1”, “参数1的值”);
props.put(“参数2”, “参数2的值”);
……
try (Producer<String, String> producer = new KafkaProducer<>(props)) {
producer.send(new ProducerRecord<String, String>(……), callback);
……
}
生产者应用在创建 KafkaProducer 实例时会建立与 Broker 的 TCP 连接的。
在创建 KafkaProducer 实例时,生产者应用会在后台创建并启动一个名为 Sender 的线程,该 Sender 线程开始运行时首先会创建与 Broker 的连接。
bootstrap.servers 参数是 Producer 的核心参数之一,指定了这个 Producer 启动时要连接的 Broker 地址。 Producer 启动时会发起与这些 Broker 的连接。因此,如果你为这个参数指定了 1000 个 Broker 连接信息,那么 Producer 启动时会首先创建与这 1000 个 Broker 的 TCP 连接。
在实际使用过程中,不建议把集群中所有的 Broker 信息都配置到 bootstrap.servers 中,通常指定 3~4 台就足以了。因为 Producer 一旦连接到集群中的任一台 Broker,就能拿到整个集群的 Broker 信息,故没必要为 bootstrap.servers 指定所有的 Broker。
[2018-12-09 09:35:45,620] DEBUG [Producer clientId=producer-1] Initialize connection to node localhost:9093 (id: -2 rack: null) for sending metadata request (org.apache.kafka.clients.NetworkClient:1084)
[2018-12-09 09:35:45,622] DEBUG [Producer clientId=producer-1] Initiating connection to node localhost:9093 (id: -2 rack: null) using address localhost/127.0.0.1 (org.apache.kafka.clients.NetworkClient:914)
[2018-12-09 09:35:45,814] DEBUG [Producer clientId=producer-1] Initialize connection to node localhost:9092 (id: -1 rack: null) for sending metadata request (org.apache.kafka.clients.NetworkClient:1084)
[2018-12-09 09:35:45,815] DEBUG [Producer clientId=producer-1] Initiating connection to node localhost:9092 (id: -1 rack: null) using address localhost/127.0.0.1 (org.apache.kafka.clients.NetworkClient:914)
[2018-12-09 09:35:45,828] DEBUG [Producer clientId=producer-1] Sending metadata request (type=MetadataRequest, topics=) to node localhost:9093 (id: -2 rack: null) (org.apache.kafka.clients.NetworkClient:1068)
从这段日志中,我们可以发现,在 KafkaProducer 实例被创建后以及消息被发送前,Producer 应用就开始创建与两台 Broker 的 TCP 连接了。
日志输出中的最后一行表明 Producer 向某一台 Broker 发送了 METADATA 请求,尝试获取集群的元数据信息——这就是前面提到的 Producer 能够获取集群所有信息的方法。
社区的官方文档中提及 KafkaProducer 类是线程安全的。
KafkaProducer 实例创建的线程和前面提到的 Sender 线程共享的可变数据结构只有 RecordAccumulator 类,故维护了 RecordAccumulator 类的线程安全,也就实现了 KafkaProducer 类的线程安全。
RecordAccumulator 类它主要的数据结构是一个 ConcurrentMap。TopicPartition 是 Kafka 用来表示主题分区的 Java 对象,本身是不可变对象。而 RecordAccumulator 代码中用到 Deque 的地方都有锁的保护,所以基本上可以认定 RecordAccumulator 类是线程安全的。
纵然 KafkaProducer 是线程安全的,也不赞同创建 KafkaProducer 实例时启动 Sender 线程的做法。
在对象构造器中启动线程会造成 this 指针的逃逸。理论上,Sender 线程完全能够观测到一个尚未构造完成的 KafkaProducer 实例。当然,在构造对象时创建线程没有任何问题,但最好是不要同时启动它。
2.更新元数据后
当 Producer 更新了集群的元数据信息之后,如果发现与某些 Broker 当前没有连接,那么它就会创建一个 TCP 连接。
场景一:当 Producer 尝试给一个不存在的主题发送消息时,Broker 会告诉 Producer 说这个主题不存在。此时 Producer 会发送 METADATA 请求给 Kafka 集群,去尝试获取最新的元数据信息。
场景二:Producer 通过 metadata.max.age.ms
参数定期地去更新元数据信息。该参数的默认值是 300000,即 5 分钟,也就是说不管集群那边是否有变化,Producer 每 5 分钟都会强制刷新一次元数据以保证它是最及时的数据。
3.在消息发送时
当要发送消息时,Producer 发现尚不存在与目标 Broker 的连接,也会创建一个。
三、关闭TCP连接的时机
Producer 端关闭 TCP 连接的方式有两种:
- 一种是用户主动关闭;
- 一种是 Kafka 自动关闭。
1.用户主动关闭
这里的主动关闭实际上是广义的主动关闭,甚至包括用户调用 kill -9 主动“杀掉”Producer 应用。当然最推荐的方式还是调用 producer.close() 方法来关闭。
2.Kafka 自动关闭
这与 Producer 端参数 connections.max.idle.ms
的值有关。默认情况下该参数值是 9 分钟,即如果在 9 分钟内没有任何请求“流过”某个 TCP 连接,那么 Kafka 会主动帮你把该 TCP 连接关闭。
用户可以在 Producer 端设置 connections.max.idle.ms=-1
禁掉这种机制。
一旦被设置成 -1,TCP 连接将成为永久长连接。当然这只是软件层面的“长连接”机制,由于 Kafka 创建的这些 Socket 连接都开启了 keepalive,因此 keepalive 探活机制还是会遵守的。
注意:在第二种方式中,TCP 连接是在 Broker 端被关闭的,但其实这个 TCP 连接的发起方是客户端,因此在 TCP 看来,这属于被动关闭的场景,即 passive close。被动关闭的后果就是会产生大量的 CLOSE_WAIT 连接,因此 Producer 端或 Client 端没有机会显式地观测到此连接已被中断。
极客时间《Kafka 核心技术与实战》学习笔记Day8 - http://gk.link/a/11UOV