linux的系统工具（持续更新）

2018-06-21 本文已影响10人飞翔的Tallgeese

昨晚上课，老师表示一个合格的DBA首先是一个中级的SA

提到了SA的一些工具（用来诊断系统/MySQL的问题）

参考文档1（下载）：Linux Performance Analysis and Tools.pdf

参考文档2（下载）：system preformence中文翻译版：性能之巅洞悉系统、企业与云计算

#######################################

架构

sysbench：172.17.100.107

MySQL：172.17.100.100

#######################################

iostat

iostat的部署

yum install sysstat -y

在107上通过sysbench对100写入数据

sysbench搭建参考：sysbench的搭建使用

sysbench --mysql-host=172.17.100.100 --mysql-port=3306 --mysql-user=tpcc --mysql-password=tpcc --test=/usr/local/sysbench/sysbench/tests/db/oltp.lua --oltp_tables_count=20 --oltp-table-size=10000000 --rand-init=on prepare

在100上启动iostat查看效果

iostat -d -m 10 1000 （-d表示展示磁盘使用情况，-c则是针对cpu，-m表示单位为MB，每10秒显示一行结果，显示1000行）

iostat -dxm 5（每5秒采集一次数据，一直显示）

关注点

w/s：每秒写入次数

r/s：每秒读次数

wMB/s：每秒写入量（MB）

await：IO平均处理时间+IO平均排队时间，该值也是一个综合指标，并不能完全反映磁盘性能（比如说排队时间很长）；但这个指标很重要，反映了用户发起IO请求的平均延迟

svctm：并不是一个独立的事项，不能单独反映问题，直接无视

%util：并不能反映io的饱和度，即使是100%也不能表示io资源被用完

该参数参考文档：iostat指标算法详解

#######################################

iftop

iftop的部署：iftop的部署

常用命令

常规显示eth0的各项流量统计

eg.

iftop -i eth0

-F过滤某个段（只显示该段）

eg.

iftop -F 172.17.100.0/24

iftop -F 172.17.100.107/255.255.255.0

-P把端口也显示出来（相当于后面在界面上点击D和S）

iftop -P

进入iftop界面后常用的敲击指令

S：显示本端端口

D：显示远端端口

T：显示总流量

l（小写的L）：输入过滤选项，比如输入过滤的IP，就只显示这个IP了

L：变化刻度

界面上关注的指标

=>表示发送数据

<=表示接收数据

TX：发送

RX：接收

peak：峰值

rate：2s，20s，40s之前的流量情况

-------------------------

PS：这个iftop的截图是我在做压测的run阶段截取的，sysbench部署在107上，而压测数据库为100，在我前期导入数据的prepare阶段，显示100为接收状态，当我进行到run阶段的时候，这里确显示数据流向为发送状态了

prepare为数据的导入，所以很好理解数据从107发送过来，100接收

但是run阶段为什么是100在往107发送呢？这个还没有想清楚，或许后面写tcpdump的时候，我会来复盘一下

#######################################

uptime

显示当前时间

启动时长（那个19:42表示已经启动了19个小时42分钟了）

当前用户总连接数（这个应该是指的登陆到该服务器的用户连接数，我试过用mysql从远端连接本地，显示的用户数仍然是1）

后面3个是系统分时段（1、5、15分钟）的平均负载，可以看到系统负载增减的一个趋势

#######################################

top

上面uptime显示的内容其实在top的第一行就全部体现了，所以上面的命令可以说是real尴尬

top的用法挺多，个人常见的3个操作

M：按内存使用率从高到低排序

P：按CPU使用率从高到低排序

1：显示所有CPU的使用情况

#######################################

htop

htop的部署：htop的部署

关于top和htop几个参数的意义，我就从别处粘贴过来了

PID：进行的标识号

USER：运行此进程的用户

PRI：进程的优先级

NI：进程的优先级别值，默认的为0，可以进行调整

VIRT：进程占用的虚拟内存值

RES：进程占用的物理内存值

SHR：进程占用的共享内存值

S：进程的运行状况，R表示正在运行、S表示休眠，等待唤醒、Z表示僵死状态

%CPU：该进程占用的CPU使用率

%MEM：该进程占用的物理内存和总内存的百分比

TIME+：该进程启动后占用的总的CPU时间

COMMAND：进程启动的启动命令名称

老实说可能是我比较愚钝，在我看来top和htop差不多，可能htop对内存,CPU通过类似进度条的展示让人感觉更直观一点

个人通常关注的几个指标

PID、VIRT、RES、CPU%、MEM%、command

关于VIRT、RES

VIRT表示进程申请的内存，而不是实际使用的内存；比如说进程申请了1G，但是当前使用了300M，那么VIRT显示为1G

VIRT=RES+swap out

RES和上面的VIRT相反，套用前面的例子，RES显示为300M；RES不包括swap out出的内存

排序查看方式与前面的top类似，不再赘述

#######################################

vmstat

常用指令

vmstat 1（每1秒实时刷新vmstat的结果）

r: 运行队列中进程数量，这个值也可以判断是否需要增加CPU。（长期大于1）

b: 等待IO的进程数量。

swpd: 使用虚拟内存大小，如果swpd的值不为0，但是SI，SO的值长期为0，这种情况不会影响系统性能。

free: 空闲物理内存大小。

buff: 用作缓冲的内存大小。

cache: 用作缓存的内存大小，如果cache的值大的时候，说明cache处的文件数多，如果频繁访问到的文件都能被cache处，那么磁盘的读IO bi会非常小。

#######################################

strace

常用参数

-T：记录各系统调用花费时间（图1的最后一列）

-tt：时分秒.微秒

-ttt：与tt精度一致，但是显示格式为unix格式；我个人而言喜欢用tt

-r：以第一个系统调用计时（图1的第一列）

-o：输出到文件

-p：pid（图1中的1419是mysqld的pid）

图1

如上图所示，T是一个较为常用的参数，通常看到的数值都是0.0....，如果在调试时发现一些T值大于1甚至更高，那么就需要关注一下了

此外对于一些报错的行，肯定是要重点关注的

在执行命令时，需要把需要调试的进程名写进去，比如这里我需要调试mysqld，就得写进去，只写pid是不能出现结果的。

通常不会让结果直接在屏幕上直接显示，而是导入到某个log里，再通过其他方式查看

写法如下

strace -Tr -tt -o putout.log 进程名 -p pid

之前用strace观测过mysql启动的过程，目前还没有太多的解决mysql故障的案例

追踪mysql语句的指令

strace -f -F -ff -o mysqld-strace -s 1024 -p mysql_pid

find ./ -name "mysqld-strace*" -type f -print |xargs grep -n "SELECT.*FROM"

#######################################

ltrace

strace是系统层面的调试，ltrace是用户层面的调试，方法和参数与strace近乎一致

#######################################

tcpdump

常用参数

-c：抓包数

-i：网口

-nn：把端口显示为数字（而非服务名）

-vvv：输出的详细信息

-XX：输出包头部

-q：打印输出

-s：设置抓包的长度，默认65535（Byte）

port：端口

tcpdump对mysql抓包

tcpdump -i eth0 -q -s 65535 -nn -vvv -XX -c 1000 port 3306 > dmp.log

然后结合pt-query-digest进行分析

pt-query-digest --type tcpdump dmp.log > report.log

linux的系统工具（持续更新）

iostat

iftop

uptime

top

htop

vmstat

strace

ltrace

tcpdump

猜你喜欢

热点阅读