11、mysql分库分表

2022-08-10  本文已影响0人  wuqingfeng

1. 数据切分

关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。
数据库分布式核心内容是数据切分(Sharding),以及切分后对数据的定位、整合。
数据切分根据其切分类型,可以分为两种方式:垂直(纵向)切分和水平(横向)切分。

1.1 垂直(纵向)切分

切分方式:垂直分表是基于数据库中的"列"进行,某个表字段较多,可以新建一张扩展表,或者将不经常用或字段长度较大的字段拆分出去到扩展表中。

垂直切分的优点

垂直切分的缺点

1.2 水平(横向)切分

平切分分为库内分表和分库分表。

1.2.1 水平切分的优点:

1.2.2 水平切分的缺点:

1.2.3 典型分片规则

典型分片规则有按照数值范围分片和按照数值取模分片,具体如下:

1.2.3.1 按照数值范围

优点:

1.2.3.2 按照数值取模

一般采取根据hash值取模的方式。例如:将 Customer 表根据 cusno 字段切分到4个库中,余数为0的放到第一个库,余数为1的放到第二个库,以此类推。这样同一个用户的数据会分散到同一个库中,如果查询条件带有cusno字段,则可明确定位到相应库去查询。
优点:

2. 分库分表带来的问题

分表可能带来事务一致性、跨节点关联查询 join 、跨节点分页/排序/函数、自增ID不可用、数据迁移扩容困难等问题。

3. 分库分表时机

进行分库分表时,最好能够遵循如下原则:

4. 案例分析

4.1 业务场景

以用户中心为例,对分库分表进行分析。
用户表包含的属性和描述如下:

User(uid, login_name, passwd, sex, age, nickname)
uid为用户ID,  主键
login_name, passwd, sex, age, nickname,  用户属性

在实施分库分表之前,对业务场景需求进行梳理:

  1. 用户登录:通过login_name/phone/email查询用户信息,1%请求属于这种类型
  2. 用户信息查询:登录之后,通过uid来查询用户信息,99%请求属这种类型

4.2 水平切分方法选择

当数据量大到单表难以承受的时候,需要对表进行水平切分。一般水平切分方法有根据数值范围和根据数值取模。
根据数值范围对表进行水平切分的优势是扩容简单,如果容量不够,只要增加新db即可。劣势是请求量不均匀,一般新注册的用户活跃度会比较高,所以新的user-db2会比user-db1负载高,导致服务器利用率不平衡。
根据数值取模优势是数据量和请求量分布均均匀。劣势是扩容麻烦。

4.3 非uid查询方法

水平切分后,对于按uid查询的需求能很好的满足,可以直接路由到具体数据库。而按非uid的查询,例如login_name,就不知道具体该访问哪个库了,此时需要遍历所有库,性能会降低很多。
用户侧可以使用建立非uid属性到uid的映射关系的方案解决该问题;运营侧可以使用前台与后台分离的方案来解决该问题。

4.3.1 建立非uid属性到uid的映射关系

4.3.2 前台与后台分离

对于用户侧,主要需求是以单行查询为主,需要建立login_name/phone/email到uid的映射关系,可以解决这些字段的查询问题。
而对于运营侧,很多批量分页且条件多样的查询,这类查询计算量大,返回数据量大,对数据库的性能消耗较高。此时,如果和用户侧公用同一批服务或数据库,可能因为后台的少量请求,占用大量数据库资源,而导致用户侧访问性能降低或超时。
这类业务最好采用"前台与后台分离"的方案,运营侧后台业务抽取独立的service和db,解决和前台业务系统的耦合。由于运营侧对可用性、一致性的要求不高,可以不访问实时库,而是通过binlog异步同步数据到运营库进行访问。在数据量很大的情况下,还可以使用ES搜索引擎或Hive来满足后台复杂的查询方式。

5. 相关中间件

站在巨人的肩膀上能省力很多,目前分库分表已经有一些较为成熟的开源解决方案:

上一篇 下一篇

猜你喜欢

热点阅读