DSP kafka集群演化和遇到的问题
2016-12-14 本文已影响26人
谁是2071
从一条千兆网线到四条
从单个RAID1盘到多个不做raid盘,吞吐量有所提高,但是磁盘容易不均衡,容易挂掉
因为业务的topic有大有小,而kafka一般是按partition个数均衡的,所以一般是预先分配好大的topic,让分布均衡,再接着用小的。
有出现过一个问题,一个topic的很多partition落在同一个盘上。
kafka同一机器内的磁盘没做容量的balance,所以容易倾斜。有时需要手动移动到其他盘。这时需要停掉那台机器的服务,再移动。更改元数据文件。
磁盘尽量比单个partition大很多倍,这样好分配
大的topic的partition数量尽量是总磁盘个数的倍数
数据有顺序要求的,需要写到同一个partition上
kafka只对磁盘和网卡要求高,cpu和内存等要求不高,所以集群扩容可以优先加网卡和磁盘大小
网卡的模式从mode0改为mode6,避免丢包
机器的最大文件句柄数要相应的调大
kafka 0.10.0.0有一个bug是kafka服务停掉后,log文件日期被刷新到最新的,无法过期删掉