使用file layouts来提升cephfs的读性能
前言
这里想介绍下,如何使用cephfs的FILE LAYOUTS功能来提升cephfs的读性能。
我们都知道ceph客户端在读数据的时候,ceph客户端通过crush算法算出自己所需的数据在哪个osd上,然后直接和这个osd通讯来获取数据。我们就利用这个很cool特性再结合cephfs的FILE LAYOUTS功能来提升集群的读性能。
总体思路就是让每个内核客户端(以下简称KC)的主本数据放在自己所在节点的osd上,这样读的时候就直接和本机上的osd通信读取数据,就不用跑到其他节点上去读取数据,从而避免在和其他节点通讯时的网络消耗。
注意FILE LAYOUTS这种方式有几个限制:
- KC需要挂载到集群的节点上
- 不能在多个KC上同时对同一个目录配置不同的FILE LAYOUTS(如果要实现需要自己改代码)
好了,下面就开始动手操作了。
环境介绍
下面把实验环境的操作系统版本及其内核版本、ceph的版本、以及搭建的ceph测试集群环境给出来,以供参考。如果你的环境和我下面给出的环境不一致也没关系。只要对比你环境在配置之前和配置之后的性能数据就可以了。
操作系统版本
[root@ceph01 ~]# cat /etc/redhat-release
CentOS Linux release 7.5.1804 (Core)
操作系统内核版本
[root@ceph01 ~]# uname -a
Linux ceph01 4.17.3-1.el7.elrepo.x86_64 #1 SMP Tue Jun 26 10:14:25 EDT 2018 x86_64 x86_64 x86_64 GNU/Linux
ceph版本
[root@ceph01 ~]# ceph -v
ceph version 10.2.10 (5dc1e4c05cb68dbf62ae6fce3f0700e4654fdbbe)
测试集群初始环境
我们用ceph01、ceph02这两个节点(虚拟机)快速搭建一个单mon,单mds和4个osd的测试集群,用作下面的测试。
集群整体情况如下:
[root@ceph01 ~]# ceph -s
cluster caf6dbda-86e7-4c4c-b8f7-a9a12d0a39b0
health HEALTH_OK
monmap e5: 1 mons at {ceph01=192.168.10.20:6789/0}
election epoch 24, quorum 0 ceph01
fsmap e69: 1/1/1 up {0=ceph01=up:active}
osdmap e438: 4 osds: 4 up, 4 in
flags sortbitwise,require_jewel_osds
pgmap v167598: 256 pgs, 3 pools, 3618 MB data, 916 objects
7529 MB used, 84563 MB / 92093 MB avail
256 active+clean
[root@ceph01 ~]# ceph osd tree
ID WEIGHT TYPE NAME UP/DOWN REWEIGHT PRIMARY-AFFINITY
-1 0.05799 root default
-2 0.02899 host ceph01
0 0.01500 osd.0 up 1.00000 1.00000
1 0.01500 osd.1 up 1.00000 1.00000
-3 0.02899 host ceph02
2 0.01500 osd.2 up 1.00000 1.00000
3 0.01500 osd.3 up 1.00000 1.00000
创建metadata和data池,然后创建名称叫做cephfs的ceph文件系统
[root@ceph01 ~]# ceph fs ls
name: cephfs, metadata pool: metadata, data pools: [data ]
然后在ceph01挂载cephfs的内核客户端,然后在集群目录里面创建一个testdir测试目录
[root@ceph01 ~]# mkdir /mycephfs
[root@ceph01 ~]# mount -t ceph 192.168.10.20:/ /mycephfs/
[root@ceph01 ~]# mkdir /mycephfs/testdir/
ok,初始的环境我们准备好了,下面开始配置。
获取基准性能数据
因为我们要看配置FILE LAYOUTS之前和配置FILE LAYOUTS之后的效果,所以在配置之前,需要先获取当前环境的性能,你根据你的实际情况来获取,你可能是通过CIFS、NFS或其他方式将cephfs给到客户端的,比如如果是CIFS,那就是在CIFS客户端用IO测试工具获取一组读数据,记录下来,之后配置好FILE LAYOUTS,再用相同的方式获取一组读数据,就可以对比了。
配置和测试过程
因为我们等下需要用到setfattr和getfattr命令,所以如果你的环境里面没有这两个命令的话,使用下面的命令安装下就好了:
[root@ceph01 ~]# yum install -y attr
配置crushmap
获取当前的crushmap如下:
# begin crush map
tunable choose_local_tries 0
tunable choose_local_fallback_tries 0
tunable choose_total_tries 50
tunable chooseleaf_descend_once 1
tunable chooseleaf_vary_r 1
tunable straw_calc_version 1
# devices
device 0 osd.0
device 1 osd.1
device 2 osd.2
device 3 osd.3
# types
type 0 osd
type 1 host
type 2 chassis
type 3 rack
type 4 row
type 5 pdu
type 6 pod
type 7 room
type 8 datacenter
type 9 region
type 10 root
# buckets
host ceph01 {
id -2 # do not change unnecessarily
# weight 0.029
alg straw
hash 0 # rjenkins1
item osd.0 weight 0.015
item osd.1 weight 0.015
}
host ceph02 {
id -3 # do not change unnecessarily
# weight 0.029
alg straw
hash 0 # rjenkins1
item osd.2 weight 0.015
item osd.3 weight 0.015
}
root default {
id -1 # do not change unnecessarily
# weight 0.058
alg straw
hash 0 # rjenkins1
item ceph01 weight 0.029
item ceph02 weight 0.029
}
# rules
rule replicated_ruleset {
ruleset 0
type replicated
min_size 1
max_size 10
step take default
step chooseleaf firstn 0 type host
step emit
}
# end crush map
修改之后的crushmap如下:
# begin crush map
tunable choose_local_tries 0
tunable choose_local_fallback_tries 0
tunable choose_total_tries 50
tunable chooseleaf_descend_once 1
tunable chooseleaf_vary_r 1
tunable straw_calc_version 1
# devices
device 0 osd.0
device 1 osd.1
device 2 osd.2
device 3 osd.3
# types
type 0 osd
type 1 host
type 2 chassis
type 3 rack
type 4 row
type 5 pdu
type 6 pod
type 7 room
type 8 datacenter
type 9 region
type 10 root
# buckets
host ceph01 {
id -2 # do not change unnecessarily
# weight 0.029
alg straw
hash 0 # rjenkins1
item osd.0 weight 0.015
item osd.1 weight 0.015
}
host ceph02 {
id -3 # do not change unnecessarily
# weight 0.029
alg straw
hash 0 # rjenkins1
item osd.2 weight 0.015
item osd.3 weight 0.015
}
root default {
id -1 # do not change unnecessarily
# weight 0.058
alg straw
hash 0 # rjenkins1
item ceph01 weight 0.029
item ceph02 weight 0.029
item ceph03 weight 0.029
}
root root_ceph01 {
id -5 # do not change unnecessarily
# weight 0.029
alg straw
hash 0 # rjenkins1
item ceph01 weight 0.029
}
root root_ceph02 {
id -6 # do not change unnecessarily
# weight 0.029
alg straw
hash 0 # rjenkins1
item ceph02 weight 0.029
}
# rules
rule replicated_ruleset {
ruleset 0
type replicated
min_size 1
max_size 10
step take default
step chooseleaf firstn 0 type host
step emit
}
rule main_is_ceph01 {
ruleset 1
type replicated
min_size 1
max_size 10
step take root_ceph01
step chooseleaf firstn 1 type host
step emit
step take root_ceph02
step chooseleaf firstn -1 type host
step emit
}
# end crush map
配置存储池
创建1个池
[root@ceph01 ~]# ceph osd pool create mainisceph01 64 64
# 设置主本全部放在ceph01这个节点上
[root@ceph01 ~]# ceph osd pool set mainisceph01 crush_ruleset 1
将池加入到cephfs的数据池集合
[root@ceph01 ~]# ceph fs add_data_pool cephfs mainisceph01
[root@ceph01 ~]# ceph fs ls
name: cephfs, metadata pool: metadata, data pools: [data mainisceph01]
配置FILE LAYOUTS
在ceph01节点上执行
[root@ceph01 ~]# setfattr -n ceph.dir.layout.pool -v mainisceph01 /mycephfs/cifs
好了,这就配置好了,可以使用ceph osd map命令试试看对象的映射分布情况
[root@ceph01 ~]# for i in `seq 1 100`;do ceph osd map mainisceph01 obj$i;done
osdmap e472 pool 'mainisceph01' (17) object 'obj1' -> pg 17.6cf8deff (17.3f) -> up ([0,3], p0) acting ([0,3], p0)
osdmap e472 pool 'mainisceph01' (17) object 'obj2' -> pg 17.3f1ee208 (17.8) -> up ([0,2], p0) acting ([0,2], p0)
osdmap e472 pool 'mainisceph01' (17) object 'obj3' -> pg 17.61f68bb1 (17.31) -> up ([0,2], p0) acting ([0,2], p0)
osdmap e472 pool 'mainisceph01' (17) object 'obj4' -> pg 17.a8759770 (17.30) -> up ([0,3], p0) acting ([0,3], p0)
osdmap e472 pool 'mainisceph01' (17) object 'obj5' -> pg 17.666934a3 (17.23) -> up ([0,2], p0) acting ([0,2], p0)
···
可以看到对象主本都是在osd.0上,osd.0是在ceph01上,这样读取数据的时候就不用去其他节点读取数据了,也就减少了数据在网络中的传输时间,从而提升读性能。
总结
最后我们把主要步骤整理下:
- 修改crushmap,控制池里面对象的主副本分布;
- 创建存储池并设置对应的rule;
- 将存储池加入到cephfs的data池集合;
- KC上面对需要配置FILE LAYOUTS的目录设置对应的pool;
前面也提到了,这种配置方式有一些限制,比如不能在多个KC上同时对同一个目录配置不同的pool(如果要实现需要自己改代码)。这里只是提供一种思路。实际测试读性能大概会提升40%左右。y