Spring Boot微服务监控告警简单介绍
1 Spring Boot监控机制
在 Spring 2.x 之前,SpringBoot 使用 Actuator 模块进行监控,而在 Spring 2.x 之后,SpringBoot 使用了 Micrometer 进行监控。
Spring Boot Actuator 模块提供了生产级别的功能,比如健康检查,审计,指标收集,HTTP 跟踪等,帮助我们监控和管理 Spring Boot 应用。这个模块是一个采集应用内部信息暴露给外部的模块,上述的功能都可以通过 HTTP 和 JMX 访问。
在 Spring 2.x 之后,Actuator 使用 Micrometer 与这些外部应用程序监视系统集成。这样一来,只需很少的配置即可轻松集成外部的监控系统。
那什么是 Micrometer 呢?
Micrometer 为 Java 平台上的性能数据收集提供了一个通用的 API,应用程序只需要使用 Micrometer 的通用 API 来收集性能指标即可。Micrometer 会负责完成与不同监控系统的适配工作。这就使得切换监控系统变得很容易。
简单地说,actuator 是真正去采集数据的模块,而 Micrometer 更像是一个适配器,将 actuator 采集到的数据适配给各种监控工具。
2 Spring Boot Actuator
作为SpringBoot的四大核心之一,Actuator让你时刻探知SpringBoot服务运行状态信息,是保障系统正常运行必不可少的组件。
spring-boot-starter-actuator提供的是一系列HTTP或者JMX监控端点,通过监控端点我们可以获取到系统的运行统计信息,同时,我们可以自己选择开启需要的监控端点,也可以自定义扩展监控端点。
Actuator通过端点对外暴露的监控信息是JSON格式数据,我们需要使用界面来展示,目前使用比较多的就是Spring Boot Admin或者Prometheus + Grafana的方式;
- Spring Boot Admin实现起来相对比较简单,不存在数据库,不能存储和展示历史监控数据;
-
Prometheus(时序数据库) + Grafana(界面)的方式相比较而言功能更丰富,提供历史记录存储,界面展示也比较美观。
相比较而言,Prometheus + Grafana的方式更为流行一些,现在的微服务及Kubernetes基本是采用这种方式的。但是对于小的项目或者单体应用,Spring Boot Admin会更加方便快捷一些。
2.1 Actuator endpoints
Spring Boot 提供了所谓的 endpoints (下文翻译为端点)给外部来与应用程序进行访问和交互。
打比方来说,/health 端点 提供了关于应用健康情况的一些基础信息。metrics 端点提供了一些有用的应用程序指标(JVM 内存使用、系统CPU使用等)。
这些 Actuator 模块本来就有的端点我们称之为原生端点。根据端点的作用的话,我们大概可以分为三大类:
-
应用配置类:获取应用程序中加载的应用配置、环境变量、自动化配置报告等与Spring Boot应用密切相关的配置类信息。
-
度量指标类:获取应用程序运行过程中用于监控的度量指标,比如:内存信息、线程池信息、HTTP请求统计等。
-
操作控制类:提供了对应用的关闭等操作类功能。
Actuator 提供的所有 endpoint:
此处使用的是SpringBoot 2.2.8
image.png下面介绍几个核心的端点
2.2 /health 端点
当我们开启health的健康端点时,我们能够查到应用健康信息是一个汇总的信息,健康信息包含磁盘空间、redis、DB,如果启用监控的这个spring boot应用确实是连接了redis和mysql DB,那actuator就自动给监控起来了,很方便、很有用。
-
/health原理
Spring boot的健康信息都是从ApplicationContext中的各种HealthIndicator Beans中收集到的,Spring boot框架中包含了大量的HealthIndicators的实现类,当然你也可以实现自己认为的健康状态。默认情况下,最终的spring boot应用的状态是由HealthAggregator汇总而成的,汇总的算法是:
- 设置状态码顺序:setStatusOrder(Status.DOWN, Status.OUT_OF_SERVICE, Status.UP, Status.UNKNOWN)。
- 过滤掉不能识别的状态码。
- 如果无任何状态码,整个spring boot应用的状态是 UNKNOWN。
- 将所有收集到的状态码按照 1 中的顺序排序。
- 返回有序状态码序列中的第一个状态码,作为整个spring boot应用的状态。
//配置 always:对所有用户暴露详细信息
management.endpoint.health.show-details=always
{
"status": "UP",
"details": {
"diskSpace": {
"status": "UP",
"details": {
"total": 250685575168,
"free": 172252426240,
"threshold": 10485760
}
},
"redis": {
"status": "UP",
"details": {
"version": "3.2.11"
}
},
"db": {
"status": "UP",
"details": {
"database": "Mysql",
"hello": "Hello"
}
}
}
}
- 自定义 HealthIndicator
有时候需要提供自定义的健康状态检查信息,你可以通过实现HealthIndicator的接口来实现,并将该实现类注册为spring bean。
你需要实现其中的health()方法,并返回自定义的健康状态响应信息,该响应信息应该包括一个状态码和要展示详细信息。demo 如下
import org.springframework.boot.actuate.health.Health;
import org.springframework.boot.actuate.health.HealthIndicator;
import org.springframework.stereotype.Component;
@Component
public class MyHealthIndicator implements HealthIndicator {
@Override
public Health health() {
int errorCode = check(); // perform some specific health check
if (errorCode != 0) {
return Health.down().withDetail("Error Code", errorCode).build();
}
return Health.up().build();
}
}
2.3 /metrics 端点
/metrics端点用来返回当前应用的各类重要度量指标,比如:内存信息、线程信息、垃圾回收信息、tomcat、数据库连接池等。
image.png image.png除了使用 metrics 端点默认的这些统计指标外,我们还可以实现自定义统计指标。具体实现以后有机会再详细描述
2.4 /heapdump 端点
访问: http://localhost:8080/actuator/heapdump 会自动生成一个 Jvm 的堆文件 heapdump。我们可以使用 JDK 自带的 Jvm 监控工具 VisualVM 打开此文件查看内存快照。
2.5 /threaddump 端点
查看线程的情况。 主要展示了线程名、线程ID、线程的状态、是否等待锁资源、线程堆栈等信息。就是可能查看起来不太直观。
2.6 自定义Endpoint
默认的端点虽然可以满足大多数的需求,但一些特殊的需求还是需要能够支持自定义端点的。
自定义 Endpoint 端点,只需要在我们的新建Bean上使用 @Endpoint 注解即可, Bean 中的方法就可以通过 JMX 或者 HTTP 公开。
// id属性代表新增的端点名称
// 利用@ReadOperation @WritOperation注解,在端点中添加信息
@Component
@Endpoint(id = "myservice")
public class MyServiceEndPoint {
@ReadOperation
public Map getDockerInfo () {
//端点的读操作
return Collections.singletonMap("dockerInfo", "docker start...");
}
@WriteOperation
private void restartDocker(){
System.out.println("docker restarted....");
}
}
image.png
2.8 导入依赖
<!-- spring boot 健康监控 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
3 Promethues + Grafana
3.1 Prometheus介绍
Prometheus: 是一款开源的系统和服务监控系统,属于云原生计算基金会项目。它可以通过设置的时间间隔从配置的目标系统采集指标数据,保存指标数据(时序数据库),评估规则表达式,显示结果,并在检测到指定条件时触发警报。
- 多维数据模型:Prometheus 实现了一个高维数据模型,它从根本上将所有数据存储为时间序列:属于同一指标和同一组标记维度的时间戳值。 除了存储的时间序列,Prometheus 可能会生成临时派生的时间序列作为查询的结果。
- 高效存储:Prometheus 以高效的自定义格式将时间序列存储在内存和本地磁盘上(内置TSDB数据库,同时也提供了远程存储接口),扩展是通过功能分片和联合来实现的。
- PromQL:一种强大且灵活的查询语言,PromQL 允许对收集的时间序列数据进行切片和切块,以生成临时图形、表格和警报。
- 不依赖分布式存储,操作简单:每台服务器的可靠性都是独立的,仅依赖于本地存储。用 Go 编写,所有二进制文件都是静态链接的,易于部署。
- HTTP拉取模型: 通过抓取HTTP端点采集时序数据。
- 通过用于批处理作业的中间网关支持推送时间序列数据。
- 通过服务发现或静态配置发现目标。
- 出色的可视化:Prometheus 有多种数据可视化模式,内置表达式浏览器、Grafana 集成和控制台模板语言。
- 支持分层和水平联合。
3.2 Grafana介绍
虽然Prometheus也支持可视化界面展示,但是界面不美观,更多人选择使用Grafana来展示Prometheus的监控数据。
Grafana:Grafana是一款开源的数据可视化工具。它提供对数据指标的查询、可视化和告警,它可以实现无论数据存储在哪里,都可以与您的团队创建、探索和共享十分美观的仪表盘数据可视化,并培养数据驱动的文化。
- 可视化:具有多种选项的快速灵活的客户端图表。面板插件提供了许多不同的方式来可视化指标和日志。
- 动态仪表板:使用在仪表板顶部显示为下拉列表的模板变量创建动态和可重复使用的仪表板。
- 探索指标:通过即席查询(是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表)和动态钻取探索您的数据。拆分视图并并排比较不同的时间范围、查询和数据源。
- 探索日志:体验从指标切换到带有保留标签过滤器的日志的魔力。快速搜索所有日志或实时流式传输它们。
- 告警:为您最重要的指标直观地定义告警规则。Grafana 将持续评估并向 Slack、PagerDuty、VictorOps、OpsGenie 等系统发送通知。
- 混合数据源:在同一个图中混合不同的数据源!您可以基于每个查询指定数据源。这甚至适用于自定义数据源。
3.3 Prometheus+Grafana
我们使用Docker来安装需要的Prometheus+Grafana,通常情况下,我们会根据业务需求来安装需要的组件,在这里健康监控系统也是这样,如果我们的微服务部署在Docker容器中,那么我们需要安装cAdvisor组件来监控Docker相关数据指标,如果要采集系统环境数据,那么需要安装 Node Exporter 组件,而且告警组件也是和Prometheus分开的,如果需要告警功能,同样需要安装Alertmanager组件,这一连串组件的组合,我们可以使用docker-compose来安装我们需要所有组件。
这里只做简单介绍,不搞这么复杂了。prometheus都可以支持
我们可以在应用端安装下列组件,
- cadvisor用于监控Docker相关数据指标;
- Alertmanager用于告警管理;
- snmp_exporter用于监控网络设备;
- node-exporter用于采集本机数据;
- mysqld_exporter用于监控mysql服务;
更多exporter可在prometheus官网下载
3.3.1 下载安装Prometheus
3.3.2 下载安装Grafana
3.3.3 安装成功后访问链接查看是否成功
- Prometheus: http://192.168.0.10:9090/
- Grafana:http://192.168.0.10:3000/
3.3.4 微服务相关配置及添加Prometheus支持
-
微服务引入prometheus依赖
...... <!-- prometheus微服务监控--> ...... <!-- actuator prometheus 健康检查 --> <dependency> <groupId>io.micrometer</groupId> <artifactId>micrometer-registry-prometheus</artifactId> <version>1.5.14</version> </dependency>
-
开启prometheus抓取端点
# 性能监控端点配置 management: security: enabled: true role: ACTUATOR_ADMIN endpoint: health: show-details: always endpoints: enabled-by-default: true web: base-path: /actuator exposure: include: '*' metrics: tags: application: ${spring.application.name} export: prometheus: enabled: true server: servlet: context-path: /actuator health: mail: enabled: false
3.3.5 配置Prometheus
1、编辑prometheus配置文件prometheus.yml,设置采集微服务端点scrape_configs:
scrape_configs:
- job_name: 'actuator-gitegg'
basic_auth:
username: user
password: password
scrape_interval: 15s
scrape_timeout: 10s
metrics_path: '/actuator/prometheus'
static_configs:
- targets: ['192.168.0.2:80','192.168.0.2:8002']
- basic_auth:设置采集端点的basic认证信息
- metrics_path:设置prometheus采集端点的路径
- static_configs.targets: 设置prometheus采集端点的地址
2、重启prometheus,访问界面status -> targets,查看采集端点状态。
image.png3.3.6 配置Grafana,添加prometheus数据源并展示JVM监控图表
image.png