es 知识点记录

2018-08-07 本文已影响0人右左君

es 知识点

[TOC]

数据写入过程

Lucene 把每次生成的倒排索引，叫做一个段(segment)。然后另外使用一个 commit 文件，记录索引内所有的 segment。而生成 segment 的数据来源，则是内存中的 buffer。

1、数据写入 --> 进入ES内存 buffer (同时记录到translog）--> 生成倒排索引分片（segment）

2、将 buffer 中的 segment 先同步到文件系统缓存中，然后再刷写到磁盘

ES实时检索

由于在buffer中的索引片先同步到文件系统缓存，再刷写到磁盘。
在检索时可以直接检索文件系统缓存的segment，保证了实时性。

把内存中的数据转换成segment的过程，称refresh。在 Elasticsearch 中，默认 1 秒执行一次。

refresh_interval 参数可修改刷新缓存的时间间隔

ES 同步到磁盘失败：数据恢复-flush过程

由于Elasticsearch 在把数据写入到内存 buffer 的同时，其实还另外记录了一个 translog日志，如果在这期间故障发生时，Elasticsearch会从commit位置开始，恢复整个translog文件中的记录，保证数据的一致性。

等到真正把 segment 刷到磁盘，且 commit 文件进行更新的时候， translog 文件才清空。

副本分片的存储过程

默认情况下ES通过对每个数据的id值进行哈希计算，对索引的主分片取余，就是数据实际应该存储的分片ID。

由于取余这个计算，完全依赖于分母，所以导致 ES 索引有一个限制，索引的主分片数，不可以随意修改。因为一旦主分片数不一样，所以数据的存储位置计算结果都会发生改变，索引数据就完全不可读了。

控制字段的存储选项

ES底层使用Lucene存储数据，主要包括行存（StoreFiled）、列存（DocValues）和倒排索引（InvertIndex）三部分。大多数使用场景中，没有必要同时存储这三个部分，可以通过下面的参数来做适当调整：

StoreFiled：行存，其中占比最大的是source字段，它控制doc原始数据的存储。在写入数据时，ES把doc原始数据的整个json结构体当做一个string，存储为source字段。查询时，可以通过source字段拿到当初写入时的整个json结构体。所以，如果没有取出整个原始json结构体的需求，可以通过下面的命令，在mapping中关闭source字段或者只在source中存储部分字段，数据查询时仍可通过ES的docvaluefields获取所有字段的值。
注意：关闭source后， update, updatebyquery, reindex等接口将无法正常使用，所以有update等需求的index不能关闭source。

# 关闭 _source
PUT my_index 
{
    "mappings":{
        "my_type":{
            "_source":{
                "enabled":false
            }
        }
    }
}

doc_values：控制列存。
ES主要使用列存来支持sorting, aggregations和scripts功能，对于没有上述需求的字段，可以通过下面的命令关闭docvalues，降低存储成本。

PUT my_index
{
    "mappings":{
        "my_type":{
            "properties":{
                "session_id":{
                    "type":"keyword",
                    "doc_values":false
                }
            }
        }
    }
}

index：控制倒排索引。
ES默认对于所有字段都开启了倒排索引，用于查询。对于没有查询需求的字段，可以通过下面的命令关闭倒排索引。

{
    "mappings":{
        "my_type":{
            "properties":{
                "session_id":{
                    "type":"keyword",
                    "index":false
                }
            }
        }
    }
}

all：ES的一个特殊的字段，ES把doc的所有值拼接成一个字符串后，做分词，然后保存倒排索引，用于支持整个json的全文检索。
这种需求适用的场景较少，可以通过下面的命令将all字段关闭，节约存储成本和cpu开销。（ES6.0+以上的版本不再支持_all字段，不需要设置）

# 关闭 all
PUT my_index 
{
    "mappings":{
        "my_type":{
            "_all":{
                "enabled":false
            }
        }
    }
}

fieldnames：用于exists查询，来确认doc里面某个字段是否存在。没有需求，可以将其关闭。

# 关闭 all
PUT my_index 
{
    "mappings":{
        "my_type":{
            "_field_names":{
                "enabled":false
            }
        }
    }
}