我爱编程

本司监控报警现状

2018-03-29  本文已影响0人  Lonely_Acmen

监控报警现状
本司是基于open falcon进行监控报警

  1. 系统资源监控:cpu、mem、io等,都有这些监控和报警数据 — 100%
  2. 业务系统可用性监控(连接层面,进程存活):health接口(有部分服务没有,正在催促加上)、grpc可用性(开发了一个版本,正在部分使用阶段) — 70%
  3. 业务系统业务可用性和监控:服务可用性、耗时等监控的很少 — 20%

急需解决的问题
1.业务可用性的完善:health接口都加上、grpc的探活加上。此处后续需要业务系统也加上容错能力。
2.业务系统的业务可用性和监控,主要是通过日志采集分析来进行监控报警。nginx的接入log和业务log
nginx日志监控:非200的监控报警、不同url的response耗时输出,加了十几个域名,比较重要的域名的耗时统计
业务日志监控:业务日志不规范,输出的日志可读性差,需要研发配合进行日志的梳理,整理日志的输出,给出监控点,抓取对应的日志然后进行统计和报警。
业务异步推送统计打点:集成falcon的包,可以实时的将接口的调用次数和耗时都push到falcon中,从而可以进行耗时统计以及添加报警策略。

监控根据不同的需求分为两种,一种是整体系统的健康程度的监测,一种是trace系统来精准跟踪问题。

上一篇 下一篇

猜你喜欢

热点阅读