谈谈压测

2018-05-14  本文已影响117人  玩家翁伟

面试的时候,很多后端或者QA的候选人都会跟我讲说有过压力测试的经验,但在我细问之后,极少有候选人能够把压力测试细节讲清楚。

这里整理一下我认为做压力测试时需要注意的一些细节。

环境

首先环境是非常重要的,需要尽可能跟生产环境靠近。

比方说,使用同样的nginx版本,php的话需要启用fpmzend-optimizer等等,参数配置也最好跟生产环境保持一致。

当然,php的版本更加需要保持一致,不能说线上是跑5.3,而测试环境却是php 7;除非是要测试不同php版本的性能。

网络也需要注意,测试机跟服务器之间是什么网络连接?100M还是千兆的网线?也同样需要跟生产环境尽可能保持一致。

我曾经看过有人直接在自己的笔记本上跑压测的客户端,然后笔记本使用的wifi;这直接就变成是在测试wifi的性能了。

当然,也可以考虑直接在服务器本机上面跑压测程序,这样就可以规避掉网络层的,更有针对的去看服务器应用的性能;但那就要注意压测程序本身是否会占用过多的CPU、内存等资源而影响到服务器应用。

在测试高并发的场景下,也要注意修改linux的open files limit:

ulimit -n

命令可以显示file descriptors的值,这值默认是1024;也就是说,最多只能开1024个并发连接;一般情况下够用。

如果需要测试C10K甚至更高的并发场景时,这个值就必须修改了;关于ulimit命令的详细使用,可以参考这里

工具

最常见的web压测工具是ab - apache benchmark;我偶尔会拿ab来做简单的快速测试。但做严格的测试时,ab就会显得非常不合适

首先,ab是单线程程序,只能利用单一CPU,在给性能好的服务器端应用做压测时,往往跑ab的测试机负荷满了;而服务器应用的性能还绰绰有余。

这在测试默认启用多核的go程序是非常常见的。

建议至少使用techempower所用的wrk替代ab;wrk默认可以利用单一CPU的多个核。

其次,ab仅能是对单一url进行压测,而当我们仅仅只是反复测试单一URL时,出来的测试结果往往不能提现真实的压力场景。

比方说,应用程序反复查询、返回同一个账号的资料,跟随机查询、返回十万个用户是不一样的;前者的返回结果很容易就被数据库、应用给“缓存”掉。而对于被严重“缓存”的性能测试结果,并不能很好的反应真实场景下的性能表现。

如果要模拟真实的压测场景,我会推荐使用siegesiege的有多个参数方便模拟真实压力场景:

wrk也支持使用lua脚本去生成压测的请求,siege上面能做的,wrk肯定也可以通过自己编写脚本去实现。

瓶颈

我会认为,压测的目的是在于找到系统的瓶颈,一定是要确定系统某个方面达到瓶颈了,压力测试才算是基本完成。

当我们说系统可以支撑某某压力时,一定要同时能够清楚的说出系统的瓶颈是在哪里;也就是说,当瓶颈得到改善的时候,系统的性能可以得到提高。

对于web应用,系统的瓶颈往往会是数据库;系统满负荷运作的时候,数据库的CPU或者是磁盘IO是否跑满了?

如果没有,那么很可能是说明瓶颈是在别的地方;如果是在应用,那么应用服务器的CPU、内存、IO等等也应该有所体现。

找到系统的瓶颈,是需要反复做不同测试、优化,然后分析出来的。

对于一些性能有高要求的公司,比方说七牛云,据说他们只接受网络IO这一瓶颈,压测的时候,是一定要把千兆网卡跑满,才算是性能达标;如果网卡没跑满,那就说明瓶颈是在别的地方,要去不断优化,直到网卡的物理限制成为系统的瓶颈。

延迟与吞吐

延迟latency与吞吐thoughput,是两个相关,但其实独立的概念。

最理想的系统是低延迟,高吞吐;但有时高延迟的系统,吞吐是可以超过低延迟的系统的。

最后

偶已经离开一线开发好几年,上述都是根据我差不多5年前的记忆写的,一定会有错漏之处,还望读者指正哈!问天这里先谢过大家。

上一篇 下一篇

猜你喜欢

热点阅读