工作生活

故障分析和处理的过程、工具与方法

2019-07-04  本文已影响0人  逍遥的石头

(1)处理过程

1、确认故障,是否真的是故障、故障的表现是什么等。

2、分析故障影响,影响的对象、影响的范围、影响的程度等。

3、查看应用、系统日志,看日志是否有关联的报错或告警日志。

4、检查监控告警平台是否有告警信息。

5、查看服务器或集群容量和性能指标,主要看是否有容量指标超阀值,性能出现瓶颈等。

6、是否是变更导致了问题。

7、确定故障处理方案,现场如何保护、处理步骤是什么,有什么风险等。

8、处理故障

9,验证故障处理结果

(2)分析方法

1、对比分析

2、排除法

3、历史数据分析

4、趋势分析

5、时序日志分析法

(三)处理方法

1、故障隔离

2、交易降级

3、熔断

4、交易限流

5、服务、进程重启

6、服务器重启

7、变更回退

上一篇 下一篇

猜你喜欢

热点阅读