Elasticsearch原理学习（三）Elasticsearc

2021-04-11 本文已影响0人我犟不过你

一、核心概念

一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。
一个索引相当于数据库，是多个相似文档的集合。必须通过索引才能进行搜索，使用使用能够极大的提升查询速度，类似于词典里面的目录。

在一个索引中，可以定义一种或多种类型。通常会为具有相同字段的文档定义一个类型，是索引上的一个逻辑分区。在不同的elasticsearch中，类型发生了不同的变化。

一个文档是可以被索引的一个基本单元，相当于数据库中的一条数据。
一个index或type中，可以存在任意多个文档。

相当于数据库表的字段，每个字段有不同的类型。

Mapping是对处理数据时的方式和规则作出一定的限制。如字段的类型、默认值、分析器、是否被索引等。
按照最优的映射规则处理数据可以对性能有很大的提升。

分片的存在是为了解决单个索引大量文档的存储问题、以及搜索是响应慢等问题。从而将一个索引划分成了多份，每一份就称之为分片。每个分片也是一个功能完善的“索引”，这个“索引”可以被放置到集群的任意节点上。

分片存在的重要原因有以下两个：
1）允许水平分割扩展容量。
2）允许在分片之上进行分布式的，并行的操作，从而提高其吞吐量。

上面所说的分片其实指的是lucene的索引，一个分片就是一个lucene索引。一个elasticsearch索引就是一个lucene索引的集合。当进行查询时，会将查询请求发送到每一个属于当前elasticsearch索引的分片上，然后将每个分片得到的结果进行合并返回。

在一个网络 / 云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch 允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片(副本)。

副本存在的两个重要原因：
1）提高可用性：注意的是副本不能与主/原分片位于同一节点。
2）提高吞吐量：搜索操作可以在所有的副本上并行运行。

将分片分配给某个节点的过程，包括分配主分片或者副本。如果是副本，还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。

如下图所示是一个三节点的集群，分片为3，副本是1。其中P表示分片，P0是主分片;R表示副本，R0是主分片副本。

系统架构.png

一个运行中的 Elasticsearch 实例称为一个节点，而集群是由一个或者多个拥有相同cluster.name 配置的节点组成，它们共同承担数据和负载的压力。当有节点加入集群中或者从集群中移除节点时，集群将会重新平均分布所有的数据。

如下所示，模拟一个写请求的数据同步过程：

数据同步

流程：
1）当一个写请求发送到node1，当然可能是任意节点。
2）node1节点会计算当前数据写入到哪个分片上，此处我们假设写入到node2的P1分片上。
3）P1分片会将数据同步到它的副本R1上。
4）当所有的操作完成后，每个步骤会返回结果到响应中。

注意：究竟同步几个副本就返回成功是可以设置的。