iostat对磁盘IO情况实时监控

2019-07-12 本文已影响0人 LearnBigData

kafka集群搭建完成后，对集群进行压测。这样的话，就需要实时查看kafka集群机器的IO情况。那怎么办呢？其实linux是有一个命令来做这个事儿的。这个命令就是iostat。下面将详细介绍一下这个命令。

用途
iostat用于输出CPU和磁盘I/O相关的统计信息。

iostat.png

如果%iowait的值过高，表示硬盘存在I/O瓶颈
如果%idle值高，表示CPU较空闲
如果%idle值高但系统响应慢时，可能是CPU等待分配内存，应加大内存容量。
如果%idle值持续低于10，表明CPU处理能力相对较低，系统中最需要解决的资源是CPU。

2、深层理解
iostat数据来自哪里呢？？？其实这些数据来自/proc/diskstats

diskstats.png

指标讲解可以参照这个：https://www.kernel.org/doc/Documentation/iostats.txt
我们以红色方框的这条数据为例来讲解：
8：主设备号；
16：从设备号
sdb：设备名
从第4个数据开始，是一系列指标信息：
974：(rd_ios) 读操作的次数
0：(rd_merges)合并读操作的次数。如果两个读操作读取相邻的数据块，那么可以被合并成1个。
686058：(rd_sectors)读取的扇区数量
36129：(rd_ticks)读操作消耗的时间（以毫秒为单位）。每个读操作从__make_request()开始计时，到end_that_request_last()为止，包括了在队列中等待的时间。
1231707：(wr_ios)写操作的次数
41463：(wr_merges)合并写操作的次数
996643025：(wr_sectors)写入的扇区数量
3166420811：(wr_ticks)写操作消耗的时间（以毫秒为单位）
0：(in_flight): 当前未完成的I/O数量。在I/O请求进入队列时该值加1，在I/O结束时该值减1。注意：是I/O请求进入队列时，而不是提交给硬盘设备时。
27884188：(io_ticks)该设备用于处理I/O的自然时间(wall-clock time)
3166454597：(time_in_queue)对字段#10(io_ticks)的加权值

参数讲解
1）常用参数讲解
-x：输出扩展信息。

iostat-x.png

在sdb这块磁盘上：
❉每秒向磁盘上写3M【3164.76kb】左右数据(wkB/s值)
❉每秒有8次IO操作(r/s+w/s)，其中以写操作为主体
❉平均每次IO请求等待时间(await)为2516.95毫秒，处理时间为19.14毫秒
❉等待处理的IO请求队列(avgqu-sz)中，平均有20.51个请求驻留

-d：仅显示磁盘统计信息，与-c选项互斥

iostat-d.png

-k：以K为单位显示每秒的磁盘请求数,默认单位块

iostat-k.png

-c：仅显示CPU统计信息，与-d选项互斥

iostat-c.png

2）其他参数讲解
-m：用“mbytes/秒”代替“块/秒”显示统计信息

iostat-m.png

-t：显示终端和CPU的信息

iostat-t.png

-N：显示磁盘阵列(LVM) 信息

iostat-N.png

-h：可读性更好的NFS目录信息统计

iostat-h.png

实践
（1）iostat -d -k 1 10
查看TPS和吞吐量信息(磁盘读写速度单位为KB)，每1s刷新，刷新10次结束

iostat-d-k-1-10.png

指标解释：
kB_read/s：每秒从驱动器读入的数据量,单位为K.
kB_wrtn/s：每秒向驱动器写入的数据量,单位为K
kB_read：读入的数据总量,单位为K.
kB_wrtn：写入的数据总量,单位为K.
rrqm/s：将读入请求合并后,每秒发送到设备的读入请求数.
wrqm/s：将写入请求合并后,每秒发送到设备的写入请求数.

（2）iostat -x -d -k 1 10
查看磁盘统计信息及扩展信息(磁盘读写速度单位为KB)，每1s刷新，刷新10次结束

iostat-x-d-k-1-10.png

在sdb这块磁盘上，第2s时：
❉每秒向磁盘上写24M【24064.00kb】左右数据(wkB/s值)
❉每秒有47次IO操作(r/s+w/s)，全部是写入操作
❉平均每次IO请求等待时间(await)为4100.83ms，处理时间为21.30ms
❉等待处理的IO请求队列(avgqu-sz)中，平均有90.33个请求驻留
来一个简单的计算：%util = (r/s+w/s) * (svctm/1000)
上图中：%util =(0+47) * (21.30/1000) = 1.0011
与图中显示的结果是一致的。

指标解释：
rrqm/s：每秒对该设备的读请求被合并次数，文件系统会对读取同块(block)的请求进行合并；
wrqm/s：每秒对该设备的写请求被合并次数。
rsec/s：每秒完成的读次数；
wsec/：每秒完成的写次数。
rKB/s：每秒读数据量(kB为单位)；
wKB/s：每秒写数据量(kB为单位)；
avgrq-sz：平均每次IO操作的数据量(扇区数为单位)
avgqu-sz：平均等待处理的IO请求队列长度，队列长度越短越好。
await：每一个IO请求的处理的平均时间（单位是微秒毫秒）。这里可以理解为IO的
响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。这个时间包括了队列时间和服务时间，也就是说，一般情况下，await大于svctm，它们的差值越小，则说明队列时间越短，反之差值越大，队列时间越长，说明系统出了问题。
svctm：表示平均每次设备I/O操作的服务时间（以毫秒为单位）。如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢。
%util：在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8 秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度。一般地，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）。

参考博客：
https://www.cnblogs.com/gaoyuechen/p/8075421.html
https://blog.csdn.net/bingtang5/article/details/84611839
https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858810.html

iostat对磁盘IO情况实时监控

猜你喜欢

热点阅读