jaeger

从全链路追踪到云监控实时报警再到报警聚类总结

2019-03-23  本文已影响5人  8e7f75130086

背景

鉴于上面所遇到的问题,我们采取了几个措施:

  1. 工程引入基于OpenTracing标准的全链路追踪
  2. 对全链路采集的日志数据采用flink进行实时计算分析
  3. 针对链路日志的分析结果进行实时报警、提取故障报告及生成系统诊断的异常聚类报告

目标

设计

链路追踪 Tracing Analysis

使用了阿里云提供的链路追踪产品。客户侧的应用程序通过集成链路追踪的多语言客户端 SDK 上报服务调用数据。此处采用了jaeger的客户端进行数据采集。鉴于以下两个问题
①自己提供存储维护成本问题
②针对链路数据的分析问题
我们的实现方案如下:


image.png

链路数据采集技术方案如下:


image.png
实时分析——云监控系统

实时分析主要依赖于阿里云日志服务提供的实时消费功能。
根据对链路数据的分析,我们提供了云监控系统。


image.png
报警聚类

通过对全链路数据的修剪,我们可以提炼出每一次请求异常的根因,即我们提供的每次请求的RCA报告,鉴于此,我们只需要对每次请求的RCA进行聚类分析即可得到最终的异常报警聚合报告。


image.png

效果

实时报警
异常聚类
image.png
上一篇 下一篇

猜你喜欢

热点阅读