如何使用Elasticsearch实现对动态字段的搜索
需求如下:在Blog中保存着一串标签,标签名由用户自定义,如TagSex,其值也是可以自由输入的字符串,现需要根据这个动态的标签名和值筛选出这一篇Blog。
你可能使用Mysql实现一个类似Elasticsearch倒排索引一样的关联tag和blog的关联表, 但如果还需要支持其他条件的筛选+排序那想一想都觉得复杂.
那我们换成Elasticsearch来实现吧.
Elasticsearch版本: 6.8
方案1:使用ES Object类型存储tags
索引(类似mysql的表)的Mapping(类似mysql的字段)如下
{
"blog": {
"mappings": {
"blog": {
"dynamic_templates": [
{
"keywords": {
"match": "*",
"mapping": {
"type": "keyword"
}
}
}
],
"properties": {
"id": {
"type": "long"
},
"tags": {
"type": "object",
},
"publish_time": {
"type": "long"
},
"user_id": {
"type": "long"
},
"sort": {
"type": "long"
}
}
}
}
}
}
其他字段就不用多说, 我们来关注tags字段, tags类型是Object类型, 其可以存放任意字段.
也可以使用nested
类型, 不过nested用途是优化数组, 用来替换Object用途不大.
多个tag就可以存放在这个Object里面:
{
"id": 1,
"tags": {
"green": "hellooo",
"blue": "wooorld"
}
}
或是还可以支持像这样的多个value:
{
"id": 1,
"tags": {
"green": ["hellooo", "oo"],
"blue": "wooorld"
}
}
在搜索时, 直接使用普通的query语句即可:
{
"query": {
"term": {
"tags.blue": "wooorld"
}
},
"size": 20
}
当然, 事情没这么简单, 你还需要考虑这几个问题:
- 每当tags中有新的字段, ES都会建立新的mapping key, 过多的key是否会影响ES的性能?
- 新字段的类型是应该被固定为keyword, 因为用不着全文索引。
下面的方案2就会解决key太多的问题,不过你觉得方案1也可行的话,我们就继续来解决第二个问题:如何将动态添加的字段类型固定为keyword?
当动态添加字段的时候Elasticsearch默认会自动推断类型, 如string就会使用text
类型存储.
如果需要修改这个逻辑就需要使用到dynamic templates.
在这个案例中, 我们需要对动态添加的tags字段进行精确搜索, 而不是全文搜索, 所以需要使用到keyword类型, 那么就可以这样写dynamic_templates:
PUT blog_index
{
"mappings": {
"blog": {
"dynamic_templates": [
{
"keywords": {
"match": "*",
"mapping": {
"type": "keyword"
}
}
}
]
}
}
}
现在动态的向tags对象里添加字段都将作为keyword类型存储。
方案2:将tags存储为字符串数组
key的多少会不会影响ES的性能笔者也没找到资料,抱歉也太多时间去验证,有兴趣的可以自己试验一下,不过猜测这对ES的性能影响很小,但如果你觉得太多的key不美观或者担心性能,那可以使用另一种方案:
设置tags字段的类型的Array,然后将tag和value拼接起来放在tags里,在搜索时就可以使用term-query来查询
document:
{
"id": 1,
"tags": ["tagAbc=blue"]
}
如果一个tag有多个值,那么可以这样存储:
{
"id": 1,
"tags": ["tagAbc=blue", "tagAbc=green"]
}
其中=
作为tagKey和value的分隔符,可根据项目需要而定。
同样在搜索的时候也需要拼接key和value:
query:
{
"query": {
"term": {
"tags": "tagAbc=blue"
}
}
}
这种方案的优点是不会生成太多的key,性能稳定,麻烦的是在存储到ES之前需要先处理一次(不过实际上不算什么问题)。
参考
https://stackoverflow.com/questions/34556585/supporting-query-on-dynamic-columns-in-elastic-search