《高性能Mysql》-查询优化

2020-03-31 本文已影响0人陈菲TW

优化性能需要查询优化、索引优化、库表结构优化这三辆马车齐头并进。这篇文章主要围绕查询优化，要对查询进行优化首先需要了解查询是如何被执行的，这一点在Mysql的逻辑架构一文中已经阐述了。

一、查询的生命周期

性能是完成某任务的时间度量，也就是响应时间；优化查询性能就是提高查询的响应速度。响应时间包括执行时间和等待时间，等待时间又包括等待IO和等待锁的时间。那么查询的时间都花在哪儿了呢？我们可以通过show full processlist查看线程状态进而查看查询的生命周期：

1）Sleep：等待客户端发送请求；2）Query：正在执行查询，或者正在返回结果给客户端；3）Locked：在服务器层等待表锁，等待InnoDB的行锁并不会在此显示；4）analysing & statistices：正在收集存储引擎统计信息，生成执行计划；5）Copying to temp table(on disk)：正在执行查询并把结果复制到临时表，在group by、文件排序和union等操作出现；6）sorting result：正在排序；7）Sending data：在多个状态间传送数据，或者正在生成结果集，或者向客户端返回数据；

二、查询优化的思路

优化我们的查询语句需要考虑以下几个点：

1）客户端是否向数据库请求了不需要的数据：1. 可使用limit减少返回的行；2. 可通过避免使用select * 减少返回的列，但有时select * 配合缓存总体性能也不错；3. 通过缓存避免重复查询相同的数据。

2）通过日志中记录的扫描行数和返回行数，查看服务端是否扫描了不需要的数据。理想情况下，扫描行数等于返回行数；但联表查询时扫码多行才能连结为一行返回，扫描行数会明显大于返回行数。Where条件对应的3种处理方式，扫描行数从少到多依次是：1. 索引作为查询条件，在存储引擎层完成；2. 索引覆盖扫描(using index)，服务层直接从索引中过滤掉不需要的数据；3. 服务层过滤不满足条件的记录(using where)。

3）单行访问速度慢，最好读取的数据块包含尽可能多需要的数据行；小查询性能不是问题：mysql采用线程缓存，使得建立/断开连接更高效；现代网速也很给力。

三、重构查询的方式

1）切分查询：删除过期数据时通常采用切分删除方式，例如每月执行一次任务，删除最近一个月过期的数据，而不是每年执行一次，删除该年过期的数据。区别在于锁定更少数据，从而减轻对其他线程的阻塞。

2）分解关联查询：词条表tag、微博表post、关联表tag_post，查找‘mysql’词条对应的微博；可以用联表查询，也可以拆分成3条查询：首先查询‘mysql’对应的tagId，然后查询tagid对应的post ids，最后找到post。拆分的好处在于：1. 缓存效率更高；2. 减少锁竞争；3. 更容易对数据库拆分，更容易做到高性能和可扩展，例如tag和post可以存储在不同数据库服务器；4. 查询本身效率的提升，如用in代替关联查询；5. 减少扫描行数。

四、Mysql对低效查询的处理方式

典型的低效查询如联表查询，子查询，聚合查询等。

1）Union查询：先将单个查询结果放到临时表，再从临时表读取数据做union。建议把where、limit、order by等子句下沉到union的子查询，以便优化器利用这些子句进行优化。

2）from中的嵌套子查询：先执行子查询并把结果放在临时表；

3）联表查询的排序：建议order by中所有的列来自于同一张表；如果order by中所有列来自第一个表，则查询第一张表时就进行排序，执行计划显示using filesort；否则mysql把查询结果放到临时表，在关联查询结束后进行排序，执行计划显示using temporary using filesort。

4）group by和distinct：mysql对两种查询用相同的方式处理。最有效的优化方式是索引，如选用主键作为group by的列(分组列)；不使用索引则使用临时表或文件排序来做分组。避免在select中使用非分组列。使用group by时，自动按照分组字段进行排序，可以在group by中指定asc/desc；也可以指定order by null告诉mysql不要排序。

5）自定义变量：通过set @var := (select * from tbl)设置自定义变量，并通过select * from tbl where col in @var等方式引用变量。变量采用动态类型，无法预设类型，只能通过赋值决定类型；使用未定义变量会在语法检查阶段报错。变量在一个连接内有效；使用变量的查询不能用缓存；不能在使用表名/列名的位置使用变量。

6）Left outer join：左表为准，左表行对应右表有值，则返回(left, right)，否则返回(left, null)；right join会被mysql等价改写为left join。

7）Count聚合函数：count(列名)用于统计某个列值的数量，count(*)用于统计行数

8）文件排序优化：当查询列和排序列的总大小超过maxLengthForSortData、或涉及blob字段排序时，时采用two pass算法。否则，仍然使用single pass算法为所有参与排序的行创建固定大小的缓冲。必须排序blob/text时，推荐用前缀排序。

五、查询优化案例

5.1 用mysql构建一个队列表

需求：用数据表维护任务对列，包含未处理任务、已处理任务和正在处理任务；调用方在数据表中查找未处理记录，更新为正在处理，处理完成后更新为已处理。

问题和解决方案：1）伴随队列表越来越大，找到未处理记录的速度变慢；解决方法是把已处理记录归档到历史表，从而始终保持对列列表很小；2）终极解决方案是把对列从数据库迁移出来，用redis或者rabbitMQ实现

5.2 计算两点之间到距离

需求：地图应用中需要查找某个点附近所有的停车场；或者社交网站中查找周边用户。

问题和解决方案：查询条件是一个复杂的计算方式，不仅无法使用索引，还会消耗CPU时间。把精确计算公式转化为估算，使用lat between valueA and valueB的方式使用索引；如果能把between优化为in则可以进一步优化，因为索引只能支持最多一个范围查找；把基于估算筛选出的少量数据再利用精算进行过滤。