关于分析应用卡的问题
有时候问题,出现相同现象时,会认为跟上次一样的问题,而采取的解决方案也跟以前是一样的!
不然,但问题出现时,其实要冷静的采取解决方案。
出现 内部系统域名访问慢: 假设 mm.mm 很慢,要怎么解决?
1、首先检查应用是否有问题,(经过检查, 有些应用已挂;重启应用,过了半小时立马又挂了)
2、通过检查nginx的访问,检查是否存在大量访问的,导致出现问题?
( 经过,检查确实存在大量访问,然后进行查看操人员是怎么进行操作(以前都是这样操作的),然后巡问了一下开发,最近有没有进行更新代码,都没有进行更新过。 通过开启防火墙,进行禁止此ip访问,暂时可以访问,但那些业务都无法使用(是不可行的),进行对那几台机进行重装系统,并杀毒。)
3、经过几天后,又重新开始瘫痪的现象出现,都惊动了boss了! 实在受不了,进行tcpdump 抓包看看什么情况。
( 一抓一分析发现存在很大的问题,就是TCP连接的问题,经过进行kernel 调优处理后,问题得以解决。)
######################################################################
但,没过几天又出现了无法访问的情况。
ping 出现丢包现象,慢慢的排查发现是系统把包丢掉;查看系统dmesg 查看,发现table full
因为是Redhat 4的iptable的存在问题,导致iptable table full 的问题,所以,直接 service iptables stop
当然解决是:
net.netfilter.nf_conntrack_max=655350
net.netfilter.nf_conntrack_tcp_timeout_established=200
但是Redhat 4 版本没有查到有,所以,只能进行 停止作用,问题得以解决。可以做其他的实验,来解决生产上的问题了。