JAVA运维日常运维行业的易筋经

运维常见错误及问题定位分析

2020-02-06  本文已影响0人  CasonHong97

1、日常监控工作中,最常出现的故障或异常有:


请求超时、应用假死、数据库超时

磁盘空间不足

unavailable by ICMP,IP不通

内存故障,负载高

监控图形有断图情况


2、以上故障或异常会出现的原因:


超时排查网络,看看有没网络异常

具体排查特定的应用有没异常,如假死,数据库超时等

日志等写满了,未及时清理

网络故障或机器宕机。

内存有问题、内存槽有问题,内存是否有泄露的情况

检查是否有异常进程占用CPU或磁盘IO过慢的情况


3、针对以上的故障或异常,是如何解决的? 补充:如何判断故障是系统问题还是硬件问题

使用ping,route,ss,nslookup,tcpdump分析网络网络状态,分析网络故障

使用ls,df,find,lsof等工具可以查找占用磁盘的答文件,分析文件过大的原因

使用特定的命令对特定的服务进行故障分析,如使用curl分析Web服务器故障

使用ps,top等命令分析进程,杀死异常进程

分析是否监控服务器的数据量,可以考虑使用主动监控或分布式监控解决


上一篇 下一篇

猜你喜欢

热点阅读