如何才能做到监控全覆盖?
2022-06-18 本文已影响0人
有点胖的瘦子
都说70%的故障与变更有关,但是100%的故障与监控覆盖度有关!
没有做到全面监控的后果
发生故障后才发现,又被客户投诉,结果运维最后才知道,一检查才发现又有地方没有被告警覆盖到
机器系统都挂了,运维还不知道,这领导能放过我吗?
系统运行缓慢,行将崩溃,能否提前发现?否则,又一个锅!
所以说,不能不做全监控。
做全覆盖会有什么障碍
毕竟不是第一天做运维监控,公司已经积累的这么机器,系统还有一大堆中间件,我不能一一吃透吧,也不可能全部都是事后弥补监控,所以说怎么才能做到事前做好监控配置。
一般情况下对于常见组件,大家都有经验,搞过来比较容易,但是如果是行业组件就比较麻烦,最好能找到行业专业软件。
如果是定制软件,一般情况下就只能遵循类似黄金指标的法则,先建设起来大的监控范围了,再慢慢细化。
做全监控会有什么负面效果?
对所有组件、系统、机器做监控还好说,最多指标多,看不过来,但是告警事无巨细都配置,那么肯定会发生告警泛滥。
首先得做适当的监控告警,行业经验或者黄金指标都很好,其次对于告警压缩要给力,横向+纵向,先干掉一批再说,然后是基于CMDB的关系,再从时间角度压缩掉一批,最后可以依赖规则或者特定算法做进一步精简。
系统已做全监控,还要注意哪些点?
因为各种原因,告警会被临时撤下,结果产生了新的告警存在盲点。所以撤销告警后一定要做提醒,每天晚上对于告警覆盖度也要做统计,日日小心,才能确保没有问题!