ELASTICSEARCH 写入速度优化

2021-01-07  本文已影响0人  lily_佳忆

提升ES的写入速度可以从以下几方面入手:

translog flush 间隔调整

默认设置下,translog 的持久化策略为:每个请求都flush,对应配置项为:index.translog.durability: request
这会很大程度影响 es 写入速度,但写操作确很可靠,不会丢失数据。如果可以接受一定几率的数据丢失,可以调整 translog 持久化策略为周期性和一定大小

index.translog.durability: asyncindex.translog.sync_interval: 120s 
index.translog.flush_threshold_size: 1024mb
index.translog.flush_threshold_period: 120m

索引刷新间隔调整: refresh_interval

默认情况下,索引的refresh_interval为1秒,意味着数据写入1秒后就可以被搜索到。
每次索引的 refresh 会产生一个新的 lucene 段,这会导致频繁的 segment merge 行为,如果不需要这么高的搜索实时性,可以降低索引refresh周期,如:
index.refresh_interval: 120s

磁盘间的任务均衡

如果部署方案是为 path.data 配置多个路径来使用多块磁盘, es 在分配 shard 时,落到各磁盘上的shard可能并不均匀,这种不均匀可能会导致某些磁盘繁忙,利用率达到100%,这种不均匀达到一定程度可能会对写入性能产生负面影响。

es 在处理多路径时,优先将shard分配到可用空间百分比最多的磁盘,因此短时间内创建的 shard 可能被集中分配到这个磁盘,即使可用空间是99%和98%的差别。

es 增加了两种策略

节点间的任务均衡

为了在节点间任务尽量均衡,数据写入客户端应该把bulk请求轮询发送到各个节点,当使用java api 或者rest api 的bulk接口发送数据时,客户端将会轮询的发送的集群节点。
当client.transport.sniff为true,列表为所有数据节点;否则,列表为初始化客户端对象时添加进去的节点。
观察bulk 请求在不同节点上的处理情况,通过 cat 接口观察 bulk 线程池和队列情况,是否存在不均:_cat/thread_pool

索引过程调整和优化

  1. 自动生成 doc ID

分析 es 写入流程可以看到,写入 doc 时如果是外部指定了 id,es 会先尝试读取原来doc的版本号, 判断是否需要更新,使用自动生成 doc id 可以避免这个环节.

  1. 调整字段 Mappings

字段的 index 属性设置为: not_analyzed,或者 no。

对字段不分词,或者不索引,可以节省很多运算,降低 CPU 占用。尤其是 binary 类型,默认情况下占用 CPU 非常高,而这种类型根本不需要进行分词做索引。

单个 doc 在建立索引时的运算复杂度,最大的因素不在于 doc 的字节数或者说某个字段 value 的长度,而是字段的数量。例如在满负载的写入压力测试中,mapping 相同的情况下,一个有10个字段,200字节的 doc, 通过增加某些字段 value 的长度到500字节,写入 es 时速度下降很少,而如果字段数增加到20,即使整个 doc 字节数没增加多少,写入速度也会降低一倍。

  1. 使用不同的分析器:analyzer

不同的分析器在索引过程中运算复杂度也有较大的差异。

优化这些设置可以一定程度节省 CPU

上一篇 下一篇

猜你喜欢

热点阅读