常用告警规则

2023-04-29  本文已影响0人  sknfie

请提供常用告警规则,提供每个告警规则具体的可用的方案

用户可以根据自己的需要配置不同的告警规则。下面是监控系统中常用的告警规则和对应的方案:

  1. CPU使用率过高

方案:根据CPU使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。

  1. 内存使用率过高

方案:根据内存使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。

  1. 磁盘空间不足

方案:根据磁盘使用率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含磁盘使用情况的详细信息。

  1. 网络流量过高

方案:根据网络流量设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含网络流量的详细信息。

  1. HTTP请求错误率过高

方案:根据HTTP请求错误率设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含错误请求的详细信息。

  1. 服务响应时间过长

方案:根据服务响应时间设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含服务响应时间的详细信息。

  1. 数据库连接数过高

方案:根据数据库连接数设定阈值,当超过阈值时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含数据库连接数的详细信息。

  1. 应用程序异常

方案:可以配置应用程序异常的告警规则,当应用程序发生异常时触发告警,可以通过邮件、短信等方式通知相关人员。可以在告警内容中包含异常信息的详细信息。

以上是夜莺Nightingale中常用的告警规则和对应的方案,用户可以根据自己的需求进行相应的配置。

请提供20个Nightingale的常用告警规则,以及每个规则对应的promql指标内容及告警设置参数

好的,以下是20个Nightingale的常用告警规则,以及每个规则对应的PromQL指标内容和告警设置参数:

  1. CPU利用率高告警规则:
  1. 内存利用率高告警规则:
  1. 磁盘使用率高告警规则:
  1. 网络流量高告警规则:
  1. HTTP请求响应时间高告警规则:
  1. 数据库连接数高告警规则:
  1. Redis内存使用率高告警规则:
  1. RabbitMQ队列长度高告警规则:
  1. Elasticsearch节点数低告警规则:
  1. MongoDB连接数高告警规则:

继续

再提供一些常用的Nightingale告警规则和对应的promql指标和告警设置参数:

  1. CPU使用率过高
  1. 内存使用率过高
  1. 磁盘使用率过高
  1. 网络带宽使用率过高
  1. HTTP请求响应时间过长
  1. MySQL慢查询数量过多
  1. Redis命中率过低
  1. Elasticsearch索引写入速率过低
  1. MongoDB慢查询数量过多
  1. ZooKeeper节点数过少
  1. Kafka分区副本不足
  1. Nginx请求数量过大

请接着继续写

  1. CPU使用率过高

PromQL指标:100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

告警设置参数:

  1. 内存使用率过高

PromQL指标:(1 - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100

告警设置参数:

  1. 磁盘空间不足

PromQL指标:(node_filesystem_avail_bytes{mountpoint="/"} * 100) / node_filesystem_size_bytes{mountpoint="/"}

告警设置参数:

  1. 网络流量异常

PromQL指标:sum(rate(node_network_transmit_bytes_total[5m])) + sum(rate(node_network_receive_bytes_total[5m]))

告警设置参数:

  1. TCP连接数过高

PromQL指标:sum by (instance) (max_over_time(tcp_established{job="node"}[5m]))

告警设置参数:

  1. HTTP请求响应时间过长

PromQL指标:sum(rate(http_request_duration_seconds_count{status_code=~"2.."}[1m])) / sum(rate(http_request_duration_seconds_sum{status_code=~"2.."}[1m]))

告警设置参数:

  1. MySQL连接数过高

PromQL指标:mysql_global_status_threads_connected

告警设置参数:

  1. Redis连接数过高

PromQL指标:redis_connected_clients

告警设置参数:

  1. Nginx请求数过高

PromQL指标:sum(rate(nginx_http_requests_total[5m]))

告警设置参数:

上一篇 下一篇

猜你喜欢

热点阅读