Linux系统故障排查(笔记)

2022-03-02  本文已影响0人  任总
for i in `rpm -qa`; do rpm -V $i &> /dev/null || echo $i; done

查询RPM版本信息,防止病毒修改

明确故障

找到故障现象直接表现,基本上能找到故障问题。

故障举例:无法通过ssh登录系统?

ssh他是一个用户态的应用程序,来回的传送指令,同时它会用到网络、tcp连接、存储方面的,他自身还有一些认证机制。
查看它发生时间和频率,是不固定的发生,还是固定那个时间段发生,分析是不是业务使用高负载时间段,明确这个故障,源端、客户端有没有其他方法登录ssh。


信息收集

1.ssh -v查看客户端debug信息
2.采集信息分析,有没有可能高负载时候,ssh无法连接


重要日志项
rceslogd服务分拣和转发日志 ,/var/log/secure只存储着sshd服务端的信息,没有客户端日志。
/var/log/dmesg里面存储的是上次启动
sos软件包

sosreport --batch 自动输出的tar包,包含收集来的日志信息

收集的日志分类

收集了有启动、块设备、内核、pci等等的相关日志。


以sos执行的命令,为文件名

这些是sosreport执行的命令,来搜集相关的日志信息。

提出假设
使用各种方法,提出各自问题接近问题的原因。
验证假设
熟悉内部逻辑,开辟新的方向,验证可能的因素。
故障解决
故障排查需要的能力
寻求帮助
案例网站:https://access.redhat.com

man命令

man命令介绍
main文档
查看系统调用类别 系统调用类别main文档

硬件故障

识别硬件命令
模块程序查看

modprobe是加载和卸载内核模块,-r参数是卸载相关联的模块。
dmesg是从启动到当前,系统内核模块存储到缓冲buff内核日志。


排查手段
常见硬件故障的日志形态

启动故障的排查

启动故障举例
启动流程
排查手段

进入单用户模式

红帽7进入单用户模式
确认根目录可读写

进入救援模式

使用镜像启动救援模式,注意镜像版本不得小于当前系统版本


救援模式
修复挂载方式
选择3手动挂载根目录进行修复
挂载启动目录 重新生成initfs
常见启动故障的日志形态
查看启动时候根目录在哪,分别启动那些
查看启动时候lv

文件系统故障

文件系统故障
EXT文件系统结构
XFS文件系统结构
文件系统常用工具 LVM Metadata描述 vg查询
vg内部记录

网络故障

网络故障举例
网络的分层模型
网络不通使用的命令
BROADCACST支持广播、 MULTICAST支持多播、up代表协议开启、 LOWER_UP物理链路已开启

应用故障

应用故障举例
应用运行的环境
上一篇下一篇

猜你喜欢

热点阅读