如何使用Elasticsearch实现对动态字段的搜索

2020-03-11  本文已影响0人  bysir

需求如下:在Blog中保存着一串标签,标签名由用户自定义,如TagSex,其值也是可以自由输入的字符串,现需要根据这个动态的标签名和值筛选出这一篇Blog。

你可能使用Mysql实现一个类似Elasticsearch倒排索引一样的关联tag和blog的关联表, 但如果还需要支持其他条件的筛选+排序那想一想都觉得复杂.

那我们换成Elasticsearch来实现吧.

Elasticsearch版本: 6.8

方案1:使用ES Object类型存储tags

索引(类似mysql的表)的Mapping(类似mysql的字段)如下

{
  "blog": {
    "mappings": {
      "blog": {
        "dynamic_templates": [
          {
            "keywords": {
              "match": "*",
              "mapping": {
                "type": "keyword"
              }
            }
          }
        ],
        "properties": {
          "id": {
            "type": "long"
          },
          "tags": {
            "type": "object",
          },
          "publish_time": {
            "type": "long"
          },
          "user_id": {
            "type": "long"
          },
          "sort": {
            "type": "long"
          }
        }
      }
    }
  }
}

其他字段就不用多说, 我们来关注tags字段, tags类型是Object类型, 其可以存放任意字段.

也可以使用nested
类型, 不过nested用途是优化数组, 用来替换Object用途不大.

多个tag就可以存放在这个Object里面:

{
  "id": 1,
  "tags": {
    "green": "hellooo",
    "blue": "wooorld"
  }
}

或是还可以支持像这样的多个value:

{
  "id": 1,
  "tags": {
    "green": ["hellooo", "oo"],
    "blue": "wooorld"
  }
}

在搜索时, 直接使用普通的query语句即可:

{
  "query": {
    "term": {
      "tags.blue": "wooorld"
    }
  },
  "size": 20
 }

当然, 事情没这么简单, 你还需要考虑这几个问题:

下面的方案2就会解决key太多的问题,不过你觉得方案1也可行的话,我们就继续来解决第二个问题:如何将动态添加的字段类型固定为keyword?

当动态添加字段的时候Elasticsearch默认会自动推断类型, 如string就会使用text类型存储.

如果需要修改这个逻辑就需要使用到dynamic templates.

在这个案例中, 我们需要对动态添加的tags字段进行精确搜索, 而不是全文搜索, 所以需要使用到keyword类型, 那么就可以这样写dynamic_templates:

PUT blog_index
{
  "mappings": {
    "blog": {
      "dynamic_templates": [
        {
          "keywords": {
            "match": "*",
            "mapping": {
              "type": "keyword"
            }
          }
        }
      ]
    }
  }
}

现在动态的向tags对象里添加字段都将作为keyword类型存储。

方案2:将tags存储为字符串数组

key的多少会不会影响ES的性能笔者也没找到资料,抱歉也太多时间去验证,有兴趣的可以自己试验一下,不过猜测这对ES的性能影响很小,但如果你觉得太多的key不美观或者担心性能,那可以使用另一种方案:

设置tags字段的类型的Array,然后将tag和value拼接起来放在tags里,在搜索时就可以使用term-query来查询

document:

{
  "id": 1,
  "tags": ["tagAbc=blue"]
}

如果一个tag有多个值,那么可以这样存储:
{
"id": 1,
"tags": ["tagAbc=blue", "tagAbc=green"]
}

其中=作为tagKey和value的分隔符,可根据项目需要而定。
同样在搜索的时候也需要拼接key和value:

query:

{  
  "query": {
    "term": {
       "tags":  "tagAbc=blue"
     }
  }
}

这种方案的优点是不会生成太多的key,性能稳定,麻烦的是在存储到ES之前需要先处理一次(不过实际上不算什么问题)。

参考

https://stackoverflow.com/questions/34556585/supporting-query-on-dynamic-columns-in-elastic-search

上一篇下一篇

猜你喜欢

热点阅读