es 知识点记录

2018-08-07  本文已影响0人  右左君

es 知识点

[TOC]

数据写入过程

Lucene 把每次生成的倒排索引,叫做一个段(segment)。然后另外使用一个 commit 文件,记录索引内所有的 segment。而生成 segment 的数据来源,则是内存中的 buffer。

1、数据写入 --> 进入ES内存 buffer (同时记录到translog)--> 生成倒排索引分片(segment)

2、将 buffer 中的 segment 先同步到文件系统缓存中,然后再刷写到磁盘

ES实时检索

由于在buffer中的索引片先同步到文件系统缓存,再刷写到磁盘。
在检索时可以直接检索文件系统缓存的segment,保证了实时性。

把内存中的数据转换成segment的过程,称refresh。在 Elasticsearch 中,默认 1 秒执行一次。

refresh_interval 参数可修改刷新缓存的时间间隔

ES 同步到磁盘失败:数据恢复-flush过程

由于Elasticsearch 在把数据写入到内存 buffer 的同时,其实还另外记录了一个 translog日志,如果在这期间故障发生时,Elasticsearch会从commit位置开始,恢复整个translog文件中的记录,保证数据的一致性。

等到真正把 segment 刷到磁盘,且 commit 文件进行更新的时候, translog 文件才清空。

副本分片的存储过程

默认情况下ES通过对每个数据的id值进行哈希计算,对索引的主分片取余,就是数据实际应该存储的分片ID。

由于取余这个计算,完全依赖于分母,所以导致 ES 索引有一个限制,索引的主分片数,不可以随意修改。因为一旦主分片数不一样,所以数据的存储位置计算结果都会发生改变,索引数据就完全不可读了。

控制字段的存储选项

ES底层使用Lucene存储数据,主要包括行存(StoreFiled)、列存(DocValues)和倒排索引(InvertIndex)三部分。 大多数使用场景中,没有必要同时存储这三个部分,可以通过下面的参数来做适当调整:

StoreFiled: 行存,其中占比最大的是source字段,它控制doc原始数据的存储。在写入数据时,ES把doc原始数据的整个json结构体当做一个string,存储为source字段。查询时,可以通过source字段拿到当初写入时的整个json结构体。 所以,如果没有取出整个原始json结构体的需求,可以通过下面的命令,在mapping中关闭source字段或者只在source中存储部分字段,数据查询时仍可通过ES的docvaluefields获取所有字段的值。
注意:关闭source后, update, updatebyquery, reindex等接口将无法正常使用,所以有update等需求的index不能关闭source。

# 关闭 _source
PUT my_index 
{
    "mappings":{
        "my_type":{
            "_source":{
                "enabled":false
            }
        }
    }
}

doc_values:控制列存。
ES主要使用列存来支持sorting, aggregations和scripts功能,对于没有上述需求的字段,可以通过下面的命令关闭docvalues,降低存储成本。

PUT my_index
{
    "mappings":{
        "my_type":{
            "properties":{
                "session_id":{
                    "type":"keyword",
                    "doc_values":false
                }
            }
        }
    }
}

index:控制倒排索引。
ES默认对于所有字段都开启了倒排索引,用于查询。对于没有查询需求的字段,可以通过下面的命令关闭倒排索引。

{
    "mappings":{
        "my_type":{
            "properties":{
                "session_id":{
                    "type":"keyword",
                    "index":false
                }
            }
        }
    }
}

all:ES的一个特殊的字段,ES把doc的所有值拼接成一个字符串后,做分词,然后保存倒排索引,用于支持整个json的全文检索。
这种需求适用的场景较少,可以通过下面的命令将all字段关闭,节约存储成本和cpu开销。(ES6.0+以上的版本不再支持_all字段,不需要设置)

# 关闭 all
PUT my_index 
{
    "mappings":{
        "my_type":{
            "_all":{
                "enabled":false
            }
        }
    }
}

fieldnames:用于exists查询,来确认doc里面某个字段是否存在。没有需求,可以将其关闭。

# 关闭 all
PUT my_index 
{
    "mappings":{
        "my_type":{
            "_field_names":{
                "enabled":false
            }
        }
    }
}

上一篇下一篇

猜你喜欢

热点阅读