关于Prometheus监控实践的思考

2022-01-06  本文已影响0人  无聊的上帝op

运维原则(方法论)-监控方向

版本选择

使用场景

集群解决方案

如何实现监控数据采集和展示

监控指标方法论(Google SRE)

Google 在"Sre Handbook"中提出了"四个黄金信号":延迟、流量、错误数、饱和度

常见采集标准

USE 报告问题的原因。RED 报告用户体验,更有可能报告问题的症状。
警报的最佳实践是针对症状而不是原因发出警报,因此应在 RED 仪表板上进行警报。

容量规划

存储空间

磁盘大小=保留时间每秒获取样本数样本大小
样例 一天存储空间 1.63GB=86400 * 1.63 * 12500 / (1024 * 3)

这里用aws-prod环境举例:

样本大小

rate(prometheus_tsdb_compaction_chunk_size_bytes_sum[1h])/rate(prometheus_tsdb_compaction_chunk_samples_sum[1h]) 1.63 bytes 

每秒获取样本数

rate(prometheus_tsdb_head_samples_appended_total[1h]) 1.25w 

采集数据实战经验

自研服务

关键业务

API类

中间件

队列

数据库(关系型,非关系型,缓存)

负载均衡

计算资源(服务器)

上一篇 下一篇

猜你喜欢

热点阅读