Elasticsearch原理学习(三)Elasticsearc
一、核心概念
1.1 索引(Index)
一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。
一个索引相当于数据库,是多个相似文档的集合。必须通过索引才能进行搜索,使用使用能够极大的提升查询速度,类似于词典里面的目录。
1.2 类型(Type)
在一个索引中,可以定义一种或多种类型。通常会为具有相同字段的文档定义一个类型,是索引上的一个逻辑分区。在不同的elasticsearch中,类型发生了不同的变化。
版本 | Type |
---|---|
5.x | 支持多种Type |
6.x | 只有一种Type |
7.x | 默认不在支持自定义的索引类型,默认类型为_doc |
1.3 文档(Document)
一个文档是可以被索引的一个基本单元,相当于数据库中的一条数据。
一个index或type中,可以存在任意多个文档。
1.4 字段(Field)
相当于数据库表的字段,每个字段有不同的类型。
1.5 映射(Mapping)
Mapping是对处理数据时的方式和规则作出一定的限制。如字段的类型、默认值、分析器、是否被索引等。
按照最优的映射规则处理数据可以对性能有很大的提升。
1.6 分片(Shards)
分片的存在是为了解决单个索引大量文档的存储问题、以及搜索是响应慢等问题。从而将一个索引划分成了多份,每一份就称之为分片。每个分片也是一个功能完善的“索引”,这个“索引”可以被放置到集群的任意节点上。
分片存在的重要原因有以下两个:
1)允许水平分割扩展容量。
2)允许在分片之上进行分布式的,并行的操作,从而提高其吞吐量。
上面所说的分片其实指的是lucene的索引,一个分片就是一个lucene索引。一个elasticsearch索引就是一个lucene索引的集合。当进行查询时,会将查询请求发送到每一个属于当前elasticsearch索引的分片上,然后将每个分片得到的结果进行合并返回。
1.7 副本(Replicas)
在一个网络 / 云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch 允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片(副本)。
副本存在的两个重要原因:
1)提高可用性:注意的是副本不能与主/原分片位于同一节点。
2)提高吞吐量:搜索操作可以在所有的副本上并行运行。
1.8 分配(Allocation)
将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。
二、系统架构
如下图所示是一个三节点的集群,分片为3,副本是1。其中P表示分片,P0是主分片;R表示副本,R0是主分片副本。 系统架构.png一个运行中的 Elasticsearch 实例称为一个节点,而集群是由一个或者多个拥有相同cluster.name 配置的节点组成, 它们共同承担数据和负载的压力。当有节点加入集群中或者从集群中移除节点时,集群将会重新平均分布所有的数据。
如下所示,模拟一个写请求的数据同步过程: 数据同步流程:
1)当一个写请求发送到node1,当然可能是任意节点。
2)node1节点会计算当前数据写入到哪个分片上,此处我们假设写入到node2的P1分片上。
3)P1分片会将数据同步到它的副本R1上。
4)当所有的操作完成后,每个步骤会返回结果到响应中。
注意:究竟同步几个副本就返回成功是可以设置的。