【大数据】集群 zk 连接数过多问题排查
2019-03-06 本文已影响0人
yqfang
【大数据】集群 zk 连接数过多问题排查
背景:
周末接受到信总报警,说我们查询 hbase 的服务日志爆了,回头看应用日志,发现一直在报 zk 的连接问题
image.png
到集群上看了下 801 主机 zk 连接数量居然达到了 2040,查看下 zk 的 maximum client connect 配置为 2000
超过了最大连接数,自然会报错。
image.png
登陆应用主机,输入
netstat -an | grep -I 2181
检查和 zk 的连接
发现确实上千
思考了一下查询 hbase 什么时候会和 zk 建立连接?
每次建立 Hbase 连接的时候会去建立 zk 的连接,Hbase 连接应该是单例的类,检查代码发现
image.png
Connection 为方法参数,这样势必会造成 connection 每次创建完不释放的问题
改为静态变量问题解决:
image.png