Elasticsearch学习篇第二章：Elasticsearc

2020-09-04 本文已影响0人 thinking2019

部分原理图

1.索引分片的备份，同一个数据分片不会存在同一个节点上

2.数据写入原理，包含“近实时索引”和“持久化变更”两步

3.结构与mysql的比较

核心组成/介绍

1.shard 索引分片，包含主分片（primary）、索引副本（Replicas）

将数据划分为较小的分片，达到负载、容错、高并发、高可用的目的

2.**metadata **元数据，包含三个部分（_index、_type、_id）

_index：文档存储的地方，类似于关系型数据库里的“数据库”
_type：对象的类，他们数据结构相同
_id：文档的唯一标识
_source: 字段存储代表文档体的JSON字符串

3.倒排索引 正排索引（根据key查找value），倒排索引（根据value查找key，其中value是是经过分词处理）

4.Tokenizer 分词器，将字符流拆分成单个token （通常是单个单词），并输出一个token流

5.routing****路由，默认是_id，可以自定义，通过固定计算公式查找分片

// 路由出单个shard -- 容易造成负载不均衡
shard_num = hash(_routing) % num_primary_shards
// 路由出一组shard 
shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards    
// 组成部分
num_primary_shards    主分片数量
routing_partition_size 路由出shard的数量

6.脑裂现象集群中选举出多个Master节点，使得数据更新时出现不一致

# 原因
网络问题：网络延迟导致一些节点访问不到master，认为master挂掉了从而选举出新的master，并对master上的分片和副本标红，分配新的主分片
节点负载：访问量较大时可能会导致ES停止响应（假死状态）造成大面积延迟，此时其他节点得不到主节点的响应认为主节点挂掉了，会重新选取主节点
内存回收：当data节点上的ES进程占用的内存较大，引发JVM的大规模内存回收，造成ES进程失去响应

# 解决方法
1.discovery.zen.ping_timeout：设置节点状态的响应时间
2.discovery.zen.minimum_master_nodes：主节点资格并互相连接的节点的最小数
3.候选主节点和数据节点进行角色分离，减少对主节点“已死”的误判

7.master选举

1.对所有可以成为master的节点（node.master: true）根据nodeId字典排序，
每次选举每个节点都把自己所知道节点排一次序，
然后选出第一个（第0位）节点，暂且认为它是master节点
2.某个节点的投票数达到一定的值（可以成为master节点数n/2+1）并且该节点自己也选举自己，那这个节点就是master。
否则重新选举一直到满足上述条件

8.上图2中refresh/flush过程 -- 近实时搜索

# 请求步骤1
根据routing路由选择某一个节点后
# 步骤2 refresh步骤
es将请求的数据写入到内存缓冲区（Momery Buffer）
默认每过1秒就会将内存缓冲区写入文件系统缓冲区（Filesystem Cache）
清空内存缓冲区
# 步骤3 flush步骤
在写入内存缓冲区的同时写入到translog文件中
默认每过30分钟会translog写入到磁盘中
删除旧的translog，新建新的translog

9.文档删除和修改

1.es的文档是不可变的
2.文档删除其实都是假删除，文档修改是新建新的文档
3.es中.del文件会标记删除文档/旧文档
4.搜索时会将删除/旧文档都查询出来，结果会被.del里面的文件过滤掉
5.合并 段(segement) 时，不会将删除/旧文档写入新段中

10.上述段(segement)的补充

Lucene索引是由多个段组成
段本身是一个功能齐全的倒排索引
搜索请求而言，索引中的所有段都会被搜索

11.怎么保证读写一致

1.通过版本号来使用乐观锁并发控制
2.写入时：一致性级别支持quorum(默认)/one/all,默认大部分可用时才运行写操作
  int(  (primary  +  number_of_replicas)  /  2  )  +  1
  number_of_replicas:复制分片的数量
3.读取时：同步--主分片和副本分片都完成后才会返回
  异步：设置搜索请求参数_preference为primary来查询主分片

简单配置

elasticsearch.yml

cluster.name: es_online_cluster
node.name: ${HOSTNAME}
# 节点是否存储数据
node.data: true
# 节点是否具有成为主节点的资格
node.master: true
path.data: /data/elasticsearch/es_data
path.logs: /data/elasticsearch/es_logs
bootstrap.memory_lock: true
network.host: 10.81.90.235
# 配置有机会参与选举为master的节点
discovery.zen.ping.unicast.hosts: ["10.81.90.235:9300", "10.81.160.31:9300", "10.81.71.23:9300"]
#设置这个集群,有多少个节点有master候选资格,如果集群较大官方建议为2-4个
discovery.zen.minimum_master_nodes
# 设置是否可以通过正则或者_all删除或者关闭索引库，默认true表示必须需要显式指定索引库名称
action.destructive_requires_name: true

后台启动命令

/usr/local/elasticsearch-6.3.2/bin/elasticsearch -d

下篇讲elasticsearch的java应用

Elasticsearch学习篇第二章：Elasticsearc

部分原理图

核心组成/介绍

简单配置

猜你喜欢

热点阅读