一文学会容器云平台稳定性建设
2022-08-29 本文已影响0人
sknfie
一、概述
本文从实战的角度,复盘故障并开始云平台稳定性建设。
二、k8s控制面稳定性建设
1.稳定性改进措施
从监控告警体系、部署架构和业务整改等三个维度进行k8s控制面稳定性建设:
k8s控制面稳定性建设
2.apiserver稳定性建设
apiserver稳定性建设3.etcd稳定性建设
etcd稳定性建设4.kube-controller-manager稳定性建设
controller稳定性建设三、宿主机巡检
1.宿主机故障
- 硬件故障(cpu/内存/磁盘/网络......)
- 组件故障(docker/calico/kubelet......)
2.热点宿主机
- cpu
-
load
浴盆曲线
2.监控告警维护
从故障发现、故障上报、故障自愈、故障自动化处理、故障手动处理等步骤逐级上升处理:
- 检测kubelet是否存活
- 检测dockerd是否存活
- 检测calico agent是否存活
- 检测容器占用磁盘>90%
- 检测可用内存<20%
- 检测load > 60
- 分析dmesg和kmesg日志,提前发现硬件故障
3.热点宿主机治理
- 调度策略
集中调度,减少资源碎片
基于真实负载进行调度 - 重调度
cpu
load - 监控告警
人工审计
一键打散
4.异常pod巡检
- 基于kube-state-metrics
- 基于namespace维度监控告警
Pending
Terminating
ImageError