五十七、Elasticsearch初识搜索引擎-scoll技术滚

2017-07-11 本文已影响116人编程界的小学生

场景：如果一次性要查出来比如10w条数据，那么性能会很差，此时一般会采取scroll滚动查询，一批一批的查，直到所有数据都查询完处理完。

使用scroll滚动搜索，可以先搜索一批数据，然后下次在搜索一批数据，以此类推，直到搜索全部的数据出来。

scoll搜索会在第一次搜索的时候，保存一个当时的视图快照，之后只会基于该旧的试图快照提供数据搜索，如果这个期间数据变更，是不会让用户看到的

采用基于_doc进行排序的方式，性能较高。

每次发送scroll请求，我们还需要指定一个scroll参数，指定一个时间窗口，每次搜索请求只要在这个时间窗口内能完成就可以了。

案例讲解
先看下我们一共有多少条数据
GET /test_index/test_type/_search

返回结果：

{
  "took": 9,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": 1,
    "hits": [
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "10",
        "_score": 1,
        "_source": {
          "test_field1": "test1",
          "test_field2": "updated test2"
        }
      },
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "1",
        "_score": 1,
        "_source": {
          "test_field1": "test1",
          "test_field2": "test2"
        }
      },
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "11",
        "_score": 1,
        "_source": {
          "num": 0,
          "tags": []
        }
      }
    ]
  }
}

一共3条数据

现在我们基于scroll去搜索，在1m内每次搜索1条

GET /test_index/test_type/_search?scroll=1m
{
  "query": {
    "match_all": {}
  },
  "sort": ["_doc"],
  "size": 1
}

size决定了返回条数

返回结果

{
  "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAK_cFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv3RZyckZPbkNCM1J3cUtPeGFJZXlMblV3AAAAAAAAr94WcnJGT25DQjNSd3FLT3hhSWV5TG5VdwAAAAAAAK_fFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv4BZyckZPbkNCM1J3cUtPeGFJZXlMblV3",
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": null,
    "hits": [
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "10",
        "_score": null,
        "_source": {
          "test_field1": "test1",
          "test_field2": "updated test2"
        },
        "sort": [
          0
        ]
      }
    ]
  }
}

获取的结果会有一个scroll_id，下一次在发送scroll请求时，必须带上这个scroll_id，因为只有这样，才会去查询上一次scroll生成的快照。

GET /_search/scroll
{
    "scroll": "1m", 
    "scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAK_cFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv3RZyckZPbkNCM1J3cUtPeGFJZXlMblV3AAAAAAAAr94WcnJGT25DQjNSd3FLT3hhSWV5TG5VdwAAAAAAAK_fFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv4BZyckZPbkNCM1J3cUtPeGFJZXlMblV3"
}

返回结果

{
  "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAALAxFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACwMBZyckZPbkNCM1J3cUtPeGFJZXlMblV3AAAAAAAAsDIWcnJGT25DQjNSd3FLT3hhSWV5TG5VdwAAAAAAALAzFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACwNBZyckZPbkNCM1J3cUtPeGFJZXlMblV3",
  "took": 65,
  "timed_out": false,
  "terminated_early": true,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": null,
    "hits": [
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "1",
        "_score": null,
        "_source": {
          "test_field1": "test1",
          "test_field2": "test2"
        },
        "sort": [
          0
        ]
      }
    ]
  }
}

发现第二条出来了，以此类推。但是这期间要是有新数据插入，他是不会被查询到的，因为他查询的是旧的快照。

scroll，看起来挺像分页的，但是其实使用场景不一样。分页主要是用来一页一页搜索，给用户看的；scroll主要是用来一批一批检索数据，让系统进行处理的

若有兴趣，欢迎来加入群，【Java初学者学习交流群】：458430385，此群有Java开发人员、UI设计人员和前端工程师。有问必答，共同探讨学习，一起进步！
欢迎关注我的微信公众号【Java码农社区】，会定时推送各种干货：

qrcode_for_gh_577b64e73701_258.jpg

五十七、Elasticsearch初识搜索引擎-scoll技术滚

猜你喜欢

热点阅读