一次缓存性能问题排查

2019-04-29 本文已影响3人测试帮日记

点击链接加入QQ群229390571（免费公开课、视频应有尽有）：https://jq.qq.com/?_wv=1027&k=5rbudQa

概述

以下分享的都跳过了很多坑，包括redis、tomcat环境配置、机器硬件配置等等问题（与线上保持一致，或者硬件性能减配系数，例如线上：8C16G，压测：4C8G，系数简单相差2倍），直接把挖掘瓶颈的主要思路搬出台面。

压测数据分析

全局图预览

通过对某直播观看页面进行高并发压测，在APM监控中发现一个有趣的地方：

上图中两个红框中的数据（接近10s），相隔大概30分钟就发生，16:20左右，系统撑不住服务出现异常不可用，怀着好奇的心态，追查方法调用的栈，如下图所示：

该方法耗时多久呢？首先搞清楚Call Tree里面的一些概念：

可见这个sql查询方法耗时14秒多，为什么呢？APM里面已经显示了sql语句，在mysql中执行查询发现执行时间很快，那么问题出在哪里呢？只能继续深挖！

通过对比同样的url，请求响应毫秒级的情况下，发现数据如下图所示：

从redis获取到数据后，并没有再执行sql查询了，通过这个分析，我们决定追踪代码还原真相（不懂代码的测试不是好开发）：

可以看到缓存失效之后，直接查询数据库了

解决方案

SQL优化：优先级低

从数据分析来看，sql优化的用处不大，并不是返回了大量数据缺少索引，此次可以跳过。

缓存并发：优先级高

出现场景：当网站并发访问高，一个缓存如果失效，可能出现多个进程同时查询DB，同时设置缓存的情况，如果并发确实很大，这也可能造成DB压力过大，还有缓存频繁更新的问题。

处理方法：对缓存查询加锁，如果KEY不存在，就加锁，然后查DB入缓存，然后解锁；其他进程如果发现有锁就等待，然后等解锁后返回数据或者进入DB查询。

经验总结

1、善用监控工具，例如APM，进行链路监控、服务器性能、方法调用顺序观察

2、追踪方法栈和相关日志

3、深入排查代码挖本质