写点什么

Elasticsearch 查询及聚合类 DSL 语句宝典

  • 2022-12-27
    北京
  • 本文字数:2197 字

    阅读完需:约 7 分钟

Elasticsearch查询及聚合类DSL语句宝典

作者:京东科技 纪海雨

前言

随着使用 es 场景的增多,工作当中避免不了去使用 es 进行数据的存储,在数据存储到 es 当中以后就需要使用 DSL 语句进行数据的查询、聚合等操作,DSL 对 SE 的意义就像 SQL 对 MySQL 一样,学会如何编写查询语句决定了后期是否能完全驾驭 ES,所以至关重要,本专题主要是分享常用的 DSL 语句,拿来即用。

一、match

如果 match 查询数字,日期,布尔值或者 not_analyzed 的字符串时,会精确匹配搜索值,不做分词解析;如果 match 查询全文本,会对查询词做分词解析,然后搜索。

比如对 keyword 类型的 tag 查询,"京东总部"不会分词,必须完全相等的词才会被搜索出来

{a  "query": {    "match": {        "content" : {            "tag" : "京东总部"        }    }  }}
复制代码

比如"宝马多少马力"会被分词为"宝马 多少 马力", 所有有关"宝马 多少 马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。并且根据 lucene 的评分机制(TF/IDF)来进行评分

{  "query": {    "match": {        "content" : {            "query" : "宝马多少马力"        }    }  }}
复制代码

二、match_phrase

如果想要精确匹配所有同时包含"宝马 多少 马力"的文档,就要使用 match_phrase 了

{  "query": {    "match_phrase": {        "content" : {            "query" : "宝马多少马力"        }    }  }}
复制代码

三、mult_match

如果我们希望两个字段进行匹配,其中一个字段有这个文档就满足的话,使用 multi_match

{  "query": {    "multi_match": {        "query" : "我的宝马多少马力",        "fields" : ["title", "content"]    }  }}
复制代码

四、term

关键字精确匹配,不分词解析。注意 term 包含(contains) 操作,而非 等值(equals)判断。如果文档包含 full_text 及其他词,也会命中返回。

使用 term 要确定的是这个字段是否“被分析”(analyzed),默认的字符串是被分析的。

比如下面的例子,其中的 full_text 是被分析过的,所以 full_text 的索引中存的就是[quick, foxes],而 extra_value 中存的是[Quick Foxes!]

PUT my_index{  "mappings": {    "my_type": {      "properties": {        "full_text": {          "type":  "string"        },        "exact_value": {          "type":  "string",          "index": "not_analyzed"        }      }    }  }}
PUT my_index/my_type/1{ "full_text": "Quick Foxes!", "exact_value": "Quick Foxes!" }
复制代码

请求不出数据的,因为 full_text 分词后的结果中没有[Quick Foxes!]这个分词

GET my_index/my_type/_search{  "query": {    "term": {      "full_text": "Quick Foxes!"    }  }}
复制代码

五、terms

指定多值精确匹配,如果字段包含了指定值中的任何一个值,那么文档满足条件。类似 sql 中的 in

{    "terms": {        "tag": [            "search",            "full_text",            "nosql"        ]    }}
复制代码

六、range

数字/时间的区间查询,操作符:

gt > greater than

gte >=

lt < litter than

lte <=

{  "query":{    "range": {        "age": {            "gte":  20,            "lt":   30        }    }  }}
复制代码

七、wildcard

通配符索引。* 表示全匹配,? 表示单一匹配。扫描所有倒排索引,性能较差

{   "query": {     "wildcard": {       "companyName": "*京东*"     }   } }
复制代码

八、regexp

正则索引。扫描所有倒排索引,性能较差

{     "query": {         "regexp": {             "postcode": "W[0-9].+"         }     } }
复制代码

九、组合多查询(bool 查询)

bool 查询后面可以跟这四种匹配模式

•must 必须匹配

•must_not 必须不匹配

•should 匹配任意,等价 or

•filter 必须匹配:过滤模式

比如我们想要请求"content 中带宝马,但是 tag 中不带宝马"这样类似的需求,就需要用到 bool 联合查询。

{    "query":{        "bool":{            "must":{                "term":{                    "content":"宝马"                }            },            "must_not":{                "term":{                    "tags":"宝马"                }            }        }    }}
复制代码

十、聚合

聚合包含一下两种:

1、 指标聚合(Metric Aggregation):一些数学运算,可以对文档字段进行统计分析

•输出一个值

▪min

▪max

▪sum

▪avg

▪ value_count 统计某字段有值的文档数

▪ cardinality 某字段值去重计数

•输出多个值

▪stats

▪percentiles

▪percentile_ranks

2、桶聚合(Bucket Aggregation) :一些列满足特定条件的文档的集合,相当于 sql 的 groupby

•terms 对某个字段统计每个不同的内容,以及出现文档的个数

•range 某个范围内文档的个数

默认聚合范围是全文,但是如果有 query 查询,那么聚合的范围就是 query 查询的结果。

value_count 统计某字段有值的文档数

{  "size": 0,   "aggs": {    "count": {      "value_count": {        "field": "companyName"      }    }  }}
复制代码

指定查询语句进行统计

{  "query": {    "term": {      "companyName": "安徽科达智慧能源科技有限公司"    }  },  "aggs": {    "count": {   //自定义名称      "terms": {        "field": "companyName"      }    }  }}
复制代码



以上就是本期分享的 DSL 语句,小伙伴们结合自己的使用查询场景进行操练起来吧。

发布于: 刚刚阅读数: 4
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
Elasticsearch查询及聚合类DSL语句宝典_数据库_京东科技开发者_InfoQ写作社区