Mysql的聚簇索引

2019-01-28 本文已影响0人 luckyboy2

聚簇索引并不是一种单独的索引类型，而是一种数据存储方式。InnoDB的聚簇索引实际上是在同一个结构中保存了B-Tree索引和数据行。一个表只能有一个聚簇索引。

InnoDB中，叶子页包含了行的全部数据，但是节点页只包含了索引列。InnoDB通过主键聚集数据。

优点：

1. 可以把相关数据保存在一起。例如实现电子邮箱时，可以根据用户的id，来聚集数据，这样只要从磁盘读取少数的数据页就能获取某个用户的全部邮件。如果没有使用聚簇索引，则每封邮件都可能导致一次磁盘IO。

2. 数据访问更快。将索引和数据保存在同一个B-Tree中。

3. 使用覆盖索引扫描的查询可以直接使用页节点的主键值。

缺点：

1. 聚簇索引最大限度的提高了IO密集型应用的性能，但是如果数据都在内存中，就没什么优势了。

2. 插入的速度严重依赖于插入顺序。按照主键插入是数据加载到InnoDB表中最快的。（但是高并发时，主键的上界会成为‘热点’，同时并发插入时，间隙锁竞争比较严重）

3. 更新聚簇索引列的代价很高，会强制InnoDB将每个更新的行数据移动到新的位置。

4. 插入的时候可能会导致“也分裂”的问题。如果插入到某个已满的页中，存储引擎会讲该页分裂成两个页面来容纳改行，会导致表占用更多的磁盘空间。

5. 聚簇索引可能导致全表扫描变慢，尤其是航比较稀疏，页分裂导致数据存储不连续。

6. 二级索引可能比想象的要大，因为在二级索引中叶子节点包含了引用行的主键列。

7. 二级索引访问需要两次索引查找，而不是一次。二级索引需要先找到叶子节点获得对应的主键值，然后根据这个值去聚簇索引中查找对应的行。InnoDB的自适应哈希索引能够减少这样的重复工作。

InnoDB的二级索引，存储不是“行指针”，而是主键值，并以此作为指向行的“指针”。这样会使二级索引占用更多的空间，换来的好处是，InnoDB在移动行时无需更新二级索引中的这个“指针”。