本司监控报警现状

2018-03-29 本文已影响0人 Lonely_Acmen

监控报警现状
本司是基于open falcon进行监控报警

系统资源监控：cpu、mem、io等，都有这些监控和报警数据 — 100%
业务系统可用性监控(连接层面，进程存活)：health接口(有部分服务没有，正在催促加上)、grpc可用性(开发了一个版本，正在部分使用阶段) — 70%
业务系统业务可用性和监控：服务可用性、耗时等监控的很少 — 20%

急需解决的问题
1.业务可用性的完善：health接口都加上、grpc的探活加上。此处后续需要业务系统也加上容错能力。
2.业务系统的业务可用性和监控，主要是通过日志采集分析来进行监控报警。nginx的接入log和业务log
nginx日志监控：非200的监控报警、不同url的response耗时输出，加了十几个域名，比较重要的域名的耗时统计
业务日志监控：业务日志不规范，输出的日志可读性差，需要研发配合进行日志的梳理，整理日志的输出，给出监控点，抓取对应的日志然后进行统计和报警。
业务异步推送统计打点：集成falcon的包，可以实时的将接口的调用次数和耗时都push到falcon中，从而可以进行耗时统计以及添加报警策略。

监控根据不同的需求分为两种，一种是整体系统的健康程度的监测，一种是trace系统来精准跟踪问题。

整体健康程度的监测，通过整体服务的资源使用情况，接口的响应耗时来给出
trace系统通过linker可以做到服务间的耗时统计，同时也可以做到trace的串联，但是针对于周边的耗时，比如redis、mysql的或者调用第三方接口的trace根据无法串联起来。考虑通过日志采集的方式来进行trace的组件，或者业务系统集成brave的方式(之前有系统集成过，需要持续的加进去)。
总结
业务监控缺失严重，需要逐渐补充上
k8s的统一调度导致服务本身资源服务查看不是很方便，需要重新规划(k8s升级到1.6，做定向调度)
规划
falcon目标用户更多是运维同时，所以对于研发来说使用可读性稍差，所以后续会有服务树给出，通过服务树关联服务的相关的监控信息。同时会基于服务树提供给研发自己添加监控的能力，一般就是日志监控，给出对应的log正则规则，然后抓取日志，给出报警策略。

本司监控报警现状

猜你喜欢

热点阅读