ElasticSearch分布式
关于ES是如何使用的,可以参考ElasticSearch关于数据的操作。
对于ES的使用者而言,不需要了解这节的内容仍然可以很好地利用ES从事工作生产。这节介绍ES的分布式是对更高级使用者的拓展,当然相对于ES的强大的功能,这节分布式内容仍然属于基础入门。了解更多内容需要前往官网进一步学习。
分片(shard)
在ElasticSearch关于数据的操作中简单提到过分片,这里重新详细介绍一下。ES文档存储在各个分片之中,每个分片保存所有数据中的一小片。分片分为主分片(primary shard)和复制分片(replica shard),在分布式集群中主分片和对应的复制分片存放在不同的节点(node),防止服务器宕机造成数据丢失。一个分片本身是一个lucene实例,是一个完整成熟的搜索引擎。
路由到分片
在操作数据时,ES根据简单取模的算法路由到相应的分片上:
ES的路由算法--摘自ES官网
其中routing是任意字符串,默认是_id也可以自定义,哈希之后生成一个数字除以主分片数量等到的余数就是指定文档所在的分片。
关于这个公式:
-
公式中可以看到指定的routing将会决定数据在分片中是否均匀分配,所以是hash函数将设定的routing值打乱,这样就防止因为使用ES程序的原因导致的数据集中在某些分片上,而其他分片相对空闲,也就是防止出现热点。——现实中,hash函数经常在类似的取模的算法中使用,例如Redis集群模式查询key也是基于槽数的取模。
-
主分片存储量越多,存储容量就越大。不是分片越多存储量越大,而是主分片存储量越多才越大。如果大多数的分片都是复制分片,那么对于系统容量提提升没有任何帮助。可以理解为MySql中的主从数据库,数据库的容量由主数据库决定。
-
解释为什么在ES中主分片数量只能在创建索引时定义且不能修改,因为如果修改,那么之前路由的分配就会失效,文档再也不能找到了。在ES中主分片数量一经确定就不能改变,复制分片数量可以随着系统的拓展而不断改变。
主分片和复制分片的交互
按照请求的读写类型划分:
-
写请求:新建、索引和删除请求都必须在主分片上完成之后才能复制到相应的复制分片上。请求需要等到主分片将所有数据同步到复制分片成功后,返回客户端成功标志,一旦成功返回给用户,文档在主分片和副本分片都是可用的。
-
读请求:检索文档,即可以通过主分片也可以通过复制分片处理。为了负载均衡,会轮询所有节点,均匀处理请求。因此复制分片越多,能处理的搜索吞吐量越大。当然因为在写请求时需要数据从主分配同步到复制分片上,那么当文档被检索时,被检索的文档可能仅存在于主分片上但是没有复制到副本分片上,这时如果访问的是复制分片可能会报告文档不存在,但是访问主分片可能成功返回文档。
批量请求
当批量请求到来时,请求节点(接受请求的节点称为请求节点)知道每个文档所在的分片,把批量请求分解成每个分片的批量请求,发送给各个节点,等到参与的节点返回结果后,整理成一个完整的响应返回给客户端。