面试官：你是如何诊断“Kafka”消息发送到瓶颈在哪里的？

2021-08-09 本文已影响0人废柴程序员

在消息发送端遇到性能瓶颈时是否有办法正确地评估瓶颈在哪呢？如何针对性地进行调优呢？

1、Kafka 消息发送端监控指标

其实Kafka早就为我们考虑好了，Kafka提供了丰富的监控指标，并提供了JMX的方式来获取这些监控指标，在客户端提供的监控指标如下图所示：

image.png

主要的监控指标分类如下：

Kafka Producer相关的指标比较多，这边不一一罗列。

producer-metrics是发送端一个非常重要的监控项，如下图所示：

image

其重点项说明如下：

实践指导：个人觉得这两个参数非常有必要进行采集，如果该值远小于batch.size设置的值，如果吞吐量不达预期，可以适当调大linger.ms。

batch-split-rate：Kafka提供了对大的ProducerBatch分割成小的机制，即如果客户端的ProducerBatch如果超过了服务端允许的最大消息大小，将会触发在客户端分割重新发送，该值记录每秒切割的速率
batch-split-total：Kafka 发生的 split 次数。

温馨提示：按照笔者对这部分源码的阅读，我觉得ProducerBatch的split的意义不大，因为新分配的ProducerBatch的容量会等于batch.size，未超过该大小，则该Batch不会被分隔，笔者认为该功能大概率无法完成实际的切割意图。

实践指导：如果该值不为0，则表示服务端，客户端设置的消息大小不合理，客户端设置的batch.szie大小应该小于服务端设置的 max.message.bytes，默认值100W字节(约等于1M)

实战指导：如果缓存区剩余字节数持续较低，需要评估缓存区大小是否合适，Sender线程遇到了瓶颈，从而考虑网络、Brorker是否遇到瓶颈。

实战指导：如果该值持续大于0，说明发送存在瓶颈，可以适当降低linger.ms的值，让消息有机会得到更加及时的处理。

Kafka在消息发送端除了上述指标外，还有一些通用类的监控指标，这类指标的统计维度包括：消息发送者、节点、TOPIC三个维度。

image

主要的维度说明如下：

接下来说明的指标，分别以不同的维度进行统计，但其表示的含义表示一样，故接下来统一说明。

实战指导：latency-avg与max可以反应消息发送的延迟性能，如果延迟过高，说明Sender线程发送消息存在瓶颈，建议该值与linger.ms进行比较，如果该值显著小于linger.ms，则为了提高吞吐率，可适当调整batch.size的大小。

实战指导：如果该值迟迟小于max.request.size，说明客户端消息积压的消息不多，如果从其他维度表明遇到了瓶颈，可以适当linger.ms，batch.size，可有效提高吞吐。

虽然Kafka内置了众多的监控指标，但这些指标默认是存储在内存中，既然是存放在内存中，为了避免监控数据无休止地增加内存触发内存溢出，通常监控数据的存储基本是基于滑动窗口，即只会存储最近一段时间内的监控数据，进行滚动覆盖。

故为了更加直观地展示这些指标，因为需要定时将这些信息进行采集，统一存储在其他数据库等持久化存储，可以根据历史数据绘制曲线，希望实现的效果如下图所示：

image

基本的监控采集系统架构设计如下图所示：

image

mq-collect应该是放在生产者SDK中，通过mq-collect类库异步定时将采集信息上传的到时序数据库InfluxDB,然后通过mq-portal门户展示页面，对每一个生产客户端按指标进行可视化展示，实现监控数据的可视化，从而为性能优化提供依据。