Elasticsearch - 文档的基本操作

2018-02-14  本文已影响0人  zhchenxin

注:此文档仅适用于 Elasticsearch > 5.0 版本

Index API

index api 用于在指定的索引和类型下添加或修改文档。例如:

PUT twitter/tweet/1
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

路径 twitter/tweet/1 中包含了三部分信息,其中,twitter 表示索引名称,tweet 表示类型名称,1表示文档的 id ,文档的 id 是可选的。

如果 id 不存在,表示新增一个文档,并为这个文档分配一个 id

如果 id 存在,并且这个 id 对应的文档在 Elasticsearch 中存在,则表示更新文档,这时的更新表示全量更新,直接替换。如果 id 对应的文档在 Elasticsearch 中不存在,则会在 Elasticsearch 中创建新的文档,文档的 idpath 上的 id

在 Elasticsearch 中,索引、类型、ID 组合定位一个文档。也就是说,不同类型下,ID 是可以重复的。

Create API

Create API 也用于创建文档,与 index API 不同,Create API只用于创建文档,没有更新文档的功能。并且,Create API 必须提供 id ,当相同id的文档已经存在时,Elasticsearch 会返回 409 Conflicat 响应码。

PUT twitter/tweet/1/_create
{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elasticsearch"
}

Get API

GET API 非常简单,它通过索引名称、类型名称、ID这三个信息获取制定文档:

GET twitter/tweet/1

返回的信息中包含了文档的一些元数据,以及 _source 属性。

{
    "_index" : "twitter",
    "_type" : "tweet",
    "_id" : "1",
    "_version" : 1,
    "found": true,
    "_source" : {
        "user" : "kimchy",
        "date" : "2009-11-15T14:12:12",
        "likes": 0,
        "message" : "trying out Elasticsearch"
    }
}

如果将 GET 请求变成 DELETE 请求,则表示删除文档。

DELETE twitter/tweet/1

Update API

在 index API 中,我们已经可以进行更新文档操作了。但是使用 index API 时,更新操作是全量更新的,如果我只想更新文档的一个字段,那么就需要使用 Update API 来进行增量更新。

POST /website/blog/1/_update
{
    "views": 1
}

乐观并发控制

在数据库中,我们一般使用事务来处理冲突的情况。在 Elasticsearch 中,我们一般使用乐观锁的方式来避免冲突。

在前面的例子中,我们可能注意到文档都有一个 _version 的元信息,这个信息表示文档的版本号,当文档被修改时,版本号递增。Elasticsearch 就是利用 _version 做的乐观锁。

在更新文档时,我们可以指定 _version 版本,

PUT twitter/tweet/1?version=2
{
    "message" : "elasticsearch now has versioning support, double cool!"
}

上面的例子表示文档只有版本号为 2 时,更新才能成功。如果更新失败,Elasticsearch 会返回 409 Conflict HTTP 响应码,以及一个错误提示的相应体。当冲突发生时,可以使用新的数据重新更新,或者将相关情况告诉用户。

Bulk API

bulk API 允许在单个步骤中进行多次 createindexupdatedelete 请求。 如果你需要索引一个数据流比如日志事件,它可以排队和索引数百或数千批次。

bulk 与其他请求的请求体格式不同,如下所示:

POST /_bulk
{ "delete": { "_index": "website", "_type": "blog", "_id": "123" }} 
{ "create": { "_index": "website", "_type": "blog", "_id": "123" }}
{ "title":    "My first blog post" }
{ "index":  { "_index": "website", "_type": "blog" }}
{ "title":    "My second blog post" }
{ "update": { "_index": "website", "_type": "blog", "_id": "123", "_retry_on_conflict" : 3} }
{ "doc" : {"title" : "My updated blog post"} } 

这种格式类似一个有效的单行 JSON 文档 ,它通过换行符(\n)连接到一起。注意两个要点:

delete 动作不能有请求体,它后面跟着的是另外一个操作。

bulk 请求的每个子请求都是独立执行,因此某个子请求的失败不会对其他子请求的成功与否造成影响。 如果其中任何子请求失败,则返回值的最顶层的 error 标志被设置为 true ,并且在相应的请求报告出错误明细:

{
   "took": 3,
   "errors": true, 
   "items": [
      {  "create": {
            "_index":   "website",
            "_type":    "blog",
            "_id":      "123",
            "status":   409, 
            "error":    "DocumentAlreadyExistsException 
                        [[website][4] [blog][123]:
                        document already exists]"
      }},
      {  "index": {
            "_index":   "website",
            "_type":    "blog",
            "_id":      "123",
            "_version": 5,
            "status":   200 
      }}
   ]
}

整个批量请求都需要由接收到请求的节点加载到内存中,因此该请求越大,其他请求所能获得的内存就越少。 批量请求的大小有一个最佳值,大于这个值,性能将不再提升,甚至会下降。 但是最佳值不是一个固定的值。它完全取决于硬件、文档的大小和复杂度、索引和搜索的负载的整体情况。一个好的批量大小在开始处理后所占用的物理大小约为 5-15 MB。

Scroll

scroll 查询 可以用来对 Elasticsearch 有效地执行大批量的文档查询,而又不用付出深度分页那种代价。

启用游标查询可以通过在查询的时候设置参数 scroll 的值为我们期望的游标查询的过期时间。 游标查询的过期时间会在每次做查询的时候刷新,所以这个时间只需要足够处理当前批的结果就可以了,而不是处理查询结果的所有文档的所需时间。 这个过期时间的参数很重要,因为保持这个游标查询窗口需要消耗资源,所以我们期望如果不再需要维护这种资源就该早点儿释放掉。 设置这个超时能够让 Elasticsearch 在稍后空闲的时候自动释放这部分资源。

GET /old_index/_search?scroll=1m 
{
    "query": { "match_all": {}},
    "sort" : ["_doc"], 
    "size":  1000
}

size 指的是每次返回的文档个数,这个字段作用于每个分片,实际上每次返回的文档个数最大为 size * number_of_primary_shards

这个查询的返回结果包括一个字段 _scroll_id, 它是一个base64编码的长字符串。 现在我们能传递字段 _scroll_id_search/scroll 查询接口获取下一批结果:

GET /_search/scroll
{
    "scroll": "1m", 
    "scroll_id" : "cXVlcnlUaGVuRmV0Y2g7NTsxMDk5NDpkUmpiR2FjOFNhNnlCM1ZDMWpWYnRROzEwOTk1OmRSamJHYWM4U2E2eUIzVkMxalZidFE7MTA5OTM6ZFJqYkdhYzhTYTZ5QjNWQzFqVmJ0UTsxMTE5MDpBVUtwN2lxc1FLZV8yRGVjWlI2QUVBOzEwOTk2OmRSamJHYWM4U2E2eUIzVkMxalZidFE7MDs="
}

参考资料:

  1. Elasticsearch: 权威指南
  2. Elasticsearch 官方文档
上一篇 下一篇

猜你喜欢

热点阅读