blktrace工具定位硬盘时延高问题

2022-12-14 本文已影响0人小御茶

先贴一个工具介绍，如下

Blktrace简介

blktrace是一个针对Linux内核中块设备IO层的跟踪工具，用来收集磁盘IO信息中当IO进行到块设备层（block）时的详细信息（如IO请求提交、入队、合并、完成等信息），是由Linux内核块设备层的维护者开发的，目前已经集成到内核2.6.17及其后内核版本中。blktrace可以获取IO请求队列的各种详细的情况，包括进行读写的进程名称、进程号、执行时间、读写的物理块号、块大小等。 blktrace工作原理

（1）blktrace测试时会分配物理机上逻辑CPU数量个线程，并且每一个线程绑定一个逻辑CPU来收集数据。（2）blktrace在debugfs挂载的路径（默认/sys/kernel/debug）下每个线程产生一个文件，然后调用ioctl函数，通过系统调用交由内核处理，由内核经由debugfs文件系统往文件描述符写入数据。（3）blktrace需要结合blkparse使用，由blkparse来解析blktrace产生的特定格式的二进制数据。（4）blkparse仅打开blktrace产生的文件，从文件里面取数据进行解析展示。

下面先描述怎么使用工具判断问题的，最后再罗列整理下这个工具的其它用途，平时也没用过，也不大熟悉它的其它功能和各个参数，就是这次学到了这种定位判断方法

用这个工具可以很好的定位硬盘时延高的相关问题，比如本次涉及到这个工具的使用是因为遇到了现场nvme盘带宽和利用率异常的问题，如下图。应客户要求服务器厂商参与问题定位