云原生技术系列-监控系统Prometheus之列一:基本概念与数

2019-06-22  本文已影响0人  GeekerLou

简介

Prometheus 是一个 Metrics 监控系统,与 Kubernetes 同属 CNCF(Cloud Native Computing Foundation),它已经成为炙手可热的 Kubernetes 生态圈中的核心监控系统,越来越多的项目(如Kubernetes 和 Etcd 等 )都提供了对 Prometheus 的原生支持,从侧面体现了社区对它的认可。可以说,Prometheus是一个云原生监控系统,是当前微服务和容器盛行时代下的监控利器。

Prometheus(简称 Prom) 是新一代的监控系统,配置简单却灵活,对容器、微服务等支持良好。本文主要介绍一下 Prometheus 的基础概念。

初识

Prometheus是什么?

  1. 性能不错的时间序列数据库(DB-Engine排行第四)
  2. 最热门的指标监控基础组件

Prometheus解决什么问题?

指标监控的指标采集、存储、查询、聚合和告警;

Prometheus有什么优势?

  1. 强大的生态体系,大部分常见软件都提供有Prometheus客户端
  2. 成熟的项目,是第二个从CNCF毕业的开源项目
  3. 标准的数据格式,标准化项目OpenMetrics是以Prometheus数据格式作为蓝本

主要特性

Prometheus 核心概念

下面将对 Prometheus 中的数据模型,metric 类型以及 instance 和 job 等概念进行介绍,以便读者在 Prometheus 的配置和使用中可以有一个更好的理解。

数据模型

Prometheus 从根本上存储的所有数据都是时间序列数据(Time Serie Data,简称时序数据)。时序数据是具有时间戳的数据流,该数据流属于某个度量指标(Metric)和该度量指标下的多个标签(Label)。除了提供存储功能,Prometheus 还可以利用查询表达式来执行非常灵活和复杂的查询。

Prometheus 中存储的数据为时间序列,是由 metric 的名字和一系列的标签(键值对)唯一标识的,不同的标签则代表不同的时间序列。

格式:

<metric name>{<label name>=<label value>, …}

,例如:

http_requests_total{method="POST",endpoint="/api/tracks"}

四种Metric类型

Prometheus 客户端库主要提供四种主要的 metric 类型:

计数器(Counter)

计数器是一种累计型的metric度量指标,它是一个只能递增的数值。计数器主要用于统计类似于服务请求数、任务完成数和错误出现次数这样的数据。

例如,查询 http_requests_total{method="get", job="Prometheus", handler="query"}返回 8,10 秒后,再次查询,则返回 14。

计量器(Gauge)

计量器表示一个既可以增加, 又可以减少的度量指标值。计量器主要用于测量类似于温度、内存使用量这样的瞬时数据。

例如:go_goroutines{instance="172.17.0.2", job="Prometheus"}返回值 147,10 秒后返回 124。

直方图(Histogram)

直方图对观察结果(通常是请求持续时间或者响应大小这样的数据)进行采样,并在可配置的桶中对其进行统计。有以下几种方式来产生直方图(假设度量指标为 <basename>):

汇总(Summary)

类似于直方图,汇总也对观察结果进行采样。除了可以统计采样值总和和总数,它还能够按分位数统计。有以下几种方式来产生汇总(假设度量指标为 <basename>):

按分位数,也就是采样值小于该分位数的个数占总数的比例小于 φ,相当于 <basename>{quantile="<φ>"}
采样值总和,相当于 <basename>_sum
采样值总数,相当于 <basename>_count

实例(Instance)和任务(Job)

在 Prometheus 里,可以从中抓取采样值的端点称为实例,为了性能扩展而复制出来的多个这样的实例形成了一个任务。

例如下面的 api-server 任务有四个相同的实例:

job: api-server
instance 1: 1.2.3.4:5670
instance 2: 1.2.3.4:5671
instance 3: 5.6.7.8:5670
instance 4: 5.6.7.8:5671

Prometheus 抓取完采样值后,会自动给采样值添加下面的标签和值:

另外每次抓取时,Prometheus 还会自动在以下时序里插入采样值:

#采样值为 1 表示实例健康,否则为不健康
up{job="[job-name]", instance="instance-id"} 

#采样值为本次抓取消耗时间
scrape_duration_seconds{job="[job-name]", instance="[instance-id]"} 

# 采样值为重新打标签后的采样值个数
scrape_samples_post_metric_relabeling{job="<job-name>", instance="<instance-id>"}

# 采样值为本次抓取到的采样值个数
scrape_samples_scraped{job="<job-name>", instance="<instance-id>"}

参考资料

  1. 普罗米修斯学习笔记
  2. 普罗米修斯中文入门指南
  3. Prometheus 入门与实践
上一篇 下一篇

猜你喜欢

热点阅读