java学习快到碗里来Java编程语言爱好者

Elasticsearch原理学习(三)Elasticsearc

2021-04-11  本文已影响0人  我犟不过你

一、核心概念

1.1 索引(Index)

一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。
一个索引相当于数据库,是多个相似文档的集合。必须通过索引才能进行搜索,使用使用能够极大的提升查询速度,类似于词典里面的目录。

1.2 类型(Type)

在一个索引中,可以定义一种或多种类型。通常会为具有相同字段的文档定义一个类型,是索引上的一个逻辑分区。在不同的elasticsearch中,类型发生了不同的变化。

版本 Type
5.x 支持多种Type
6.x 只有一种Type
7.x 默认不在支持自定义的索引类型,默认类型为_doc

1.3 文档(Document)

一个文档是可以被索引的一个基本单元,相当于数据库中的一条数据。
一个index或type中,可以存在任意多个文档。

1.4 字段(Field)

相当于数据库表的字段,每个字段有不同的类型。

1.5 映射(Mapping)

Mapping是对处理数据时的方式和规则作出一定的限制。如字段的类型、默认值、分析器、是否被索引等。
按照最优的映射规则处理数据可以对性能有很大的提升。

1.6 分片(Shards)

分片的存在是为了解决单个索引大量文档的存储问题、以及搜索是响应慢等问题。从而将一个索引划分成了多份,每一份就称之为分片。每个分片也是一个功能完善的“索引”,这个“索引”可以被放置到集群的任意节点上。

分片存在的重要原因有以下两个:
1)允许水平分割扩展容量。
2)允许在分片之上进行分布式的,并行的操作,从而提高其吞吐量。

上面所说的分片其实指的是lucene的索引,一个分片就是一个lucene索引。一个elasticsearch索引就是一个lucene索引的集合。当进行查询时,会将查询请求发送到每一个属于当前elasticsearch索引的分片上,然后将每个分片得到的结果进行合并返回。

1.7 副本(Replicas)

在一个网络 / 云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch 允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片(副本)。

副本存在的两个重要原因:
1)提高可用性:注意的是副本不能与主/原分片位于同一节点。
2)提高吞吐量:搜索操作可以在所有的副本上并行运行。

1.8 分配(Allocation)

将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。

二、系统架构

如下图所示是一个三节点的集群,分片为3,副本是1。其中P表示分片,P0是主分片;R表示副本,R0是主分片副本。 系统架构.png

一个运行中的 Elasticsearch 实例称为一个节点,而集群是由一个或者多个拥有相同cluster.name 配置的节点组成, 它们共同承担数据和负载的压力。当有节点加入集群中或者从集群中移除节点时,集群将会重新平均分布所有的数据。

如下所示,模拟一个写请求的数据同步过程: 数据同步

流程:
1)当一个写请求发送到node1,当然可能是任意节点。
2)node1节点会计算当前数据写入到哪个分片上,此处我们假设写入到node2的P1分片上。
3)P1分片会将数据同步到它的副本R1上。
4)当所有的操作完成后,每个步骤会返回结果到响应中。

注意:究竟同步几个副本就返回成功是可以设置的。

上一篇下一篇

猜你喜欢

热点阅读