Amazing Arch

微服务调用链基本原理与使用

2019-04-13  本文已影响70人  Real_man

分布式系统之后,系统变的错综复杂,一般很难全盘理解整个系统,并且错误比较难定位,需要有调用链监控,快速的帮我们定位监控问题,了解微服务体系。

如果没有应用监控:

任何可能出错的地方都会出错,微服务需要应用监控 —— 康威定律

如何尽早的发现问题?

调用链监控原理

2010年的时候,谷歌发布过Dapper的论文,可以读一下论文。论文地址

image-20190413144942473

当系统出错的时候:

  1. 把traceid收集到一个集合中,包含请求与响应
  2. 通过spanid与parentSpanId恢复成树形调用
  3. 识别超时与出错的节点,进行标记
  4. 把上面的信息与出错节点信息展示出来

现在开源的调用链监控系统:

美团点评Cat

介绍可以参考官方文档,提供了监控,报警。

使用

这里显示的是基于Cat做了一些改造。

报错大盘
  1. 快速发现分钟级异常状况
image-20190413150806244
  1. 点进去查看异常的类型与具体信息
image-20190413151045242
  1. 点击异常概要,查看异常的完整调用链路,点击发生时间,可以看到异常的方法调用链
image-20190413151142727

关于报错大盘的使用,参考我之前的一篇记录:记一次简单排错经历

性能分析
  1. 查看埋点的性能,平均调用时长,最大时长,95%的调用耗时等,可以快速定位性能波动情况
image-20190413151457440
  1. 针对某一时刻的调用,进行分析。
image-20190413151829265
  1. 点击某一点时刻的调用,可以看到分钟级的调用统计,再对某一个调用进行跟踪可以到上面报错分析的调用链。
image-20190413152021381
事件统计
  1. 对上面性能分析中的服务点进去,查看具体某些服务都调用了多少次
image-20190413152544715
服务关系

查看某个系统被那些系统调用过,我们调用了那些系统

image-20190413152756538

某一个服务,可以看到是谁调用的

image-20190413152914032
数据库大盘

查看某些sql调用了多少次,失败次数,可用率,平均耗时之类的

image-20190413153059465
趋势大盘

自定义自己想要看的系统的指标,新建的指标会放在个人面板中

image-20190413153307494
服务状态

查看主机的信息,CPU,内存,网络,JVM,线程池,磁盘等信息,Cat自身不适合做这些监控信息,对于主机的监控也可以选择其他的系统。

image-20190413153352672

有时候错误也可能出现在磁盘问题上,所以这个也要注意下。

生产实践

在cat项目的github站点上,它已经做了一些集成好的埋点,集成地址:https://github.com/dianping/cat/tree/master/integration

埋点:

部署:

最后

主要说了为甚需要调用链监控与调用链监控的好处,简单讲解了调用链监控的原理,最后以一个基于Cat的调用链系统使用做了演示。

参考

上一篇 下一篇

猜你喜欢

热点阅读