开源运维监控平台WGCLOUD之故障告警策略介绍
2021-04-18 本文已影响0人
王逅逅_f6c0
WGCLOUD是国人开源的极简高效运维监控系统,"支持主机各种指标监控(cpu/温度,内存,磁盘容量/IO,硬盘smart监控,系统负载,网卡流量,硬件系统信息等),数据可视化,进程应用监控,大屏可视化展板,服务接口检测,DOCKER监控,公众看板,自动生成网络拓扑图,端口监控,日志文件监控,告警信息推送(默认邮件,可集成钉钉微信短信等),同时集成了WebTerminal堡垒机能力"
下载安装地址:http://www.wgstart.com
监控最基本的工作就是实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理。监控告警在运维工作中至关重要,便于我们及时发现问题,排查问题,把故障损失降到最低
针对这个故障,各方诉求是不同的:
1、业务人员希望尽快恢复系统使用并确保以后不再出现此类问题;
2、运维经理希望进一步优化完善运维中心故障处理流程:优先故障处理过程的时间,提前发现故障,加强监控,完善故障应急方案,长远目标:故障自愈。
这里我们介绍下WGCLOUD的告警策略如何进行配置和优化,一般我们保持默认即可
配置文件server/config/application.yml,在每一项配置上面都加了说明,比如总开关配置,关闭后所有资源都会停止告警
#告警配置,策略优先级按照前后顺序执行,比如告警总开关关闭时,那下面所有告警开关都会失效
mail:
#告警总开关,yes开启,no关闭
allWarnMail: yes
#不需要告警ip集合,多个用逗号,隔开,此主机所有监控资源都不会再告警
blockIps:
#内存告警开关,yes开启,no关闭。总开关开启后,此处设置才会生效。以下开关均遵循此规则。
memWarnMail: yes
#监控主机内存使用率%告警值,超过此值即发送告警
memWarnVal: 99
#CPU告警开关,yes开启,no关闭
cpuWarnMail: yes
#监控主机cpu使用率%告警值,超过此值即发送告警
cpuWarnVal: 99
#CPU温度告警开关,yes开启,no关闭
cpuTemperatureWarnMail: no
#cpu温度告警值℃,超过此值即发送告警
cpuTemperatureWarnVal: 92
#磁盘使用率%告警值,超过此值即发送告警
diskWarnVal: 99
#不需要告警磁盘在此屏蔽,多个盘符用,隔开,如/boot,/dev。支持Ant路径匹配规则,如/dev/**。特殊符号用单引号,如'C:'
diskBlock: /dev
#磁盘使用率告警开关,yes开启,no关闭
diskWarnMail: yes
#主机下线告警开关,yes开启,no关闭
hostDownWarnMail: yes
#进程下线告警开关,yes开启,no关闭
appDownWarnMail: yes
#服务接口告警开关,yes开启,no关闭
heathWarnMail: yes
#数据源连接失败告警开关,yes开启,no关闭
dbDownWarnMail: yes
#日志文件监控告警开关,yes开启,no关闭
fileLogWarnMail: yes
#端口telnet不通告警开关,yes开启,no关闭
portWarnMail: yes
#告警脚本绝对路径(若配置脚本,无论是否配置过邮件,都会执行该脚本),可以为空,参考模板:server/template/sendMsg.sh
warnScript:



