【ES实战】Elasticsearch中模糊匹配类的查询

Elasticsearch中模糊匹配类的查询


Elasticsearch中模糊类查询主要有以下

  • Wildcard Query:通配符查询
  • Prefix Query:前缀匹配查询
  • Regexp Query:正则匹配查询
  • Fuzzy query :模糊查询
  • text类型同时配置keyword类型,同时支持全文搜索和精确查询

使用前,性能需要进行验证

通配符查询

通配符支持*?*可以代表任何字符序列,包含空字符; ?可以代表任一字符。

示例

GET /_search
{
    "query": {
        "wildcard" : { "user" : "ki*y" }
    }
}

前缀匹配查询

查询到匹配字段包含以给定开头的词的文档

示例

GET gudong20250423001/_search
{ "query": {
    "prefix" : { "message" : "中国" }
  }
}

正则匹配查询

示例

GET gudong20250423001/_search
{ "query": {
    "prefix" : { "message" : "中*北" }
  }
}
GET gudong20250423001/_search
{
    "query": {
        "regexp":{
            "message": {
                "value": "中*北",
                "flags" : "INTERSECTION|COMPLEMENT|EMPTY"
            }
        }
    }
}

以下是支持的正则表达式语法(Lucene正则表达式引擎与perl不兼容,但支持更小范围的操作符)

标准的正则操作

  • Anchoring 锚定正则表达式

    用来说明这是个正则表达式,使用 ^ 表示开头或 $ 表示结尾。

  • Allowed characters 允许使用的字符

    表达式中可以使用任何 Unicode 字符,但某些字符是保留字符,必须转义。标准的保留字符有:

    . ? + * | { } [ ] ( ) ” \

    如果启用了可选功能(见下文),这些字符也可能被保留:

    # @ & < > ~

    任何保留字符都可以用反斜杠\*转义,包括字面反斜杠字符:\\

    此外,任何字符(双引号除外)在被双引号包围时都按字面解释:john“@smith.com”

  • Match any character匹配任何字符

    .点可以匹配任何字符

    For string "abcde":

    ab... # match a.c.e # match

  • One-or-more 匹配一次或多次

    加号 + 可用来重复前面的最短模式一次或多次

    For string "aaabbb":

    a+b+ # match

    aa+bb+ # match

    a+.+ # match

    aa+bbb+ # match`

  • Zero-or-more 匹配0次或多次

    星号 * 可用来匹配前面最短模式的零次或多次。

    For string "aaabbb":

    a*b* # match

    a*b*c* # match

    .*bbb.* # match

    aaa*bbb* # match

  • **Zero-or-one **匹配0次或1次

    问号 ? 可用来匹配前面最短模式的零次或1次。

    For string "aaabbb":

    aaa?bbb? # match

    aaaa?bbbb? # match

    .....?.? # match

    aa?bb? # no match

  • Min-to-max匹配最小次数与最大次数

    大括号 {} 可用于指定前面最短模式重复的最少次数和(可选)最多次数。

    {x,y},x代表最小匹配次数,y代表最多匹配次数,y可选

    {5} 最少重复匹配5次

    {2,5} 最少重复匹配2次,最多重复匹配5次

    {2,} 最少重复匹配2次

    For string “aaabbb”:

    a{3}b{3} # match

    a{2,4}b{2,4} # match

    a{2,}b{2,} # match

    .{3}.{3} # match

    a{4}b{4} # no match

    a{4,6}b{4,6} # no match

    a{4,}b{4,} # no match`

  • Grouping 分组匹配

    括号() 可以用来组成子句型。

    For string "ababab":

    (ab)+ # match

    ab(ab)+ # match

    (..)+ # match

    (...)+ # no match

    (ab)* # match

    abab(ab)? # match

    ab(ab)? # no match

    (ab){3} # match

    (ab){1,2} # no match

  • Alternation

    管道符号 | 充当 OR 运算符。如果左侧或右侧的模式匹配,则匹配成功。交替适用于最长的模式,而不是最短的模式。

    For string "aabb":

    aabb|bbaa # match

    aacc|bb # no match

    aa(cc|bb) # match

    a+|b+ # no match

    a+b+|b+a+ # match

    a+(b|c)+ # match

  • Character classes

    方括号[]括起来的潜在字符范围可以表示为字符类。

    ^ 表示否定字符类。

    -表示一个字符范围,除非它是第一个字符或用反斜杠转义。

    The allowed forms are:

    [abc] # ‘a’ or ‘b’ or ‘c’

    [a-c] # ‘a’ or ‘b’ or ‘c’

    [-abc] # ‘-’ or ‘a’ or ‘b’ or ‘c’

    [abc\-] # ‘-’ or ‘a’ or ‘b’ or ‘c’

    [^abc] # any character except ‘a’ or ‘b’ or ‘c’

    [^a-c] # any character except ‘a’ or ‘b’ or ‘c’

    [^-abc] # any character except ‘-’ or ‘a’ or ‘b’ or ‘c’

    [^abc\-] # any character except ‘-’ or ‘a’ or ‘b’ or ‘c’

    For string abcd:

    ab[cd]+ # match

    [a-d]+ # match

    [^a-d]+ # no match

特殊运算符操作

flags 代表正则的支持特殊运算符的类型,取值元素有ALLCOMPLEMENTINTERSECTIONINTERVALANYSTRING

flags 参数默认为 ALL。不同的标志组合(用 |连接)可用于启用/禁用特定运算符:

{
    "regexp": {
        "username": {
            "value": "john~athon<1-5>",
            "flags": "COMPLEMENT|INTERVAL"
        }
    }
}
  • Complement

    Complement模式下,最短的表达式,如果紧跟着转折号~,就会被否定的意思

    For instance, "ab~cd" means:

    • a 开头
    • b 开头
    • 后跟任意长度的字符串,除了 c 以外的任何字符串
    • d 结尾

    For the string "abcdef":

    ab~df # match

    ab~cf # match

    ab~cdef # no match

    a~(cb)def # match

    a~(bc)def # no match

    Enabled with the COMPLEMENT or ALL flags.

  • Interval

    Interval模式下,使用<>代表数据范围区间

    For string: "foo80":

    foo<1-100> # match

    foo<01-100> # match

    foo<001-100> # no match

    Enabled with the INTERVAL or ALL flags.

  • Intersection

    该模式下,双引号 “&” 连接两个表达式,两个表达式必须匹配。

    For string "aaabbb":

    aaa.+&.+bbb # match

    aaa&bbb # no match

    Using this feature usually means that you should rewrite your regular expression.Enabled with the INTERSECTION or ALL flags.

  • Any string

    符号 “@” 匹配整个字符串。这可以与上面的交集和补码结合起来,表达 “除了…之外的所有内容”。

    For instance:

    @&~(foo.+) # anything except string beginning with “foo”

    Enabled with the ANYSTRING or ALL flags.

模糊化查询

模糊查询会生成在模糊度指定的最大编辑距离内的匹配术语,然后检查术语字典,找出索引中实际存在的已生成术语。最终查询最多使用 max_expansions 匹配词。

示例

GET /_search
{
    "query": {
       "fuzzy" : { "user" : "ki" }
    }
}

GET /_search
{
    "query": {
        "fuzzy" : {
            "user" : {
                "value": "ki",
                "boost": 1.0,
                "fuzziness": 2,
                "prefix_length": 0,
                "max_expansions": 100
            }
        }
    }
}
参数名解释
fuzziness最大编辑距离. 默认 AUTO. 详细见Fuzziness章节
prefix_length不会被 “模糊化 ”的初始字符数。这有助于减少必须检查的术语数量。默认为 0
max_expansions模糊化查询将扩展到的术语的最大数量 Defaults to 50.
transpositionsWhether fuzzy transpositions (abba) are supported. Default is false.

Fuzziness

在查询 text or keyword 字段时,“模糊度 ”被解释为Levenshtein Edit Distance–一个字符串要与另一个字符串相同而需要更改的一个字符的数量。

Levenshtein Edit Distance(莱文斯坦编辑距离)表示两个字符串之间,一个字符串转换成另一个字符串需要最少编辑操作的次数,编辑操作分为插入一个字符,删除一个字符。

fuzziness 参数可指定为:

参数值说明
0, 1, 2数字值, 最大允许的Levenshtein编辑距离(或编辑次数)
AUTO根据词条长度生成编辑距离。可选择提供低距离和高距离参数 AUTO:[low],[high]。如果未指定,默认值为 3 和 6,相当于 AUTO:3,6,长度为:**0...2必须完全匹配3...5允许一次编辑>5**允许两次编辑AUTO通常是 fuzziness的首选值。

text类型同时配置keyword类型

一个字段同时是keyword和text,同时支持全文搜索和精确查询

示例

新建索引

PUT gudong20250423002
{
  "settings:": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  },
  "mappings": {
    "_doc": {
      "properties": {
        "message": {
          "type": "keyword",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        }
      }
    }
  }
}

PUT gudong20250423002
{
  "settings:": {
    "number_of_shards": 1,
    "number_of_replicas": 1
  },
  "mappings": {
    "_doc": {
      "properties": {
        "message": {
          "type": "keyword"
        }
      }
    }
  }
}

写入数据

POST gudong20250423001/doc
{"message":"中国江苏省南京市江北新区"}

POST gudong20250423002/doc
{"message":"中国江苏省南京市江北新区"}

查询效果

GET gudong20250423001/_search
{
  "query": {
    "bool": {
      "filter": [{ "match": { "message": "中国" } }]
    }
  }
}


{
    "took": 2,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
    },
    "hits": {
        "total": 1,
        "max_score": 0,
        "hits": [
            {
                "_index": "gudong20250423001",
                "_type": "doc",
                "_id": "AZZhpkVj-8S4QQ2j15fP",
                "_score": 0,
                "_source": {
                    "message": "中国江苏省南京市江北新区"
                }
            }
        ]
    }
}
GET gudong20250423002/_search
{
  "query": {
    "bool": {
      "filter": [{ "match": { "message": "中国" } }]
    }
  }
}

{
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
    },
    "hits": {
        "total": 0,
        "max_score": null,
        "hits": []
    }
}

字段单纯配置keyword类型,则不支持模糊匹配(实际应该分词了,然后进行的匹配)

彩蛋

增加date类型字段的format,5.4支持,6.X不支持。

PUT my_index
{
  "mappings": {
    "doc": {
      "properties": {
        "date": {
          "type":   "date",
          "format": "yyyy-MM-dd HH:mm:ss"
        }
      }
    }
  }
}

PUT my_index/_mapping/doc
{
      "properties": {
        "date": {
          "type":   "date",
          "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis||yyyy-MM-dd HH:mm:ss.SSS||yyyy-MM-dd HH:mm:ss.S"
        }
  }
}
### 回答1: 好的,Elasticsearch 中的模糊查询可以通过使用模糊查询(Fuzzy Query)和通配符查询(Wildcard Query)来实现。 1. 模糊查询(Fuzzy Query):模糊查询是指在搜索时根据查询条件中的一个词来匹配文档中的一个或多个词,而不是完全匹配该查询条件。模糊查询可以通过使用 “fuzzy” 查询来实现,例如: ``` GET /my_index/_search { "query": { "fuzzy": { "title": { "value": "quick" } } } } ``` 在上面的查询中,会匹配包含 “quick” 以及似于 “quack”、“quicker”、“quickest” 等单词的文档。 2. 通配符查询(Wildcard Query):通配符查询是指在搜索时使用通配符来匹配文档中的一个或多个词。通配符查询可以通过使用 “wildcard” 查询来实现,例如: ``` GET /my_index/_search { "query": { "wildcard": { "title": { "value": "qu*" } } } } ``` 在上面的查询中,会匹配包含以 “qu” 开头的单词的文档,如 “quick”、“quality”、“question” 等。 需要注意的是,使用模糊查询和通配符查询会影响搜索性能,因此在使用时需要谨慎。同时,Elasticsearch 中还有其他型的查询,可以根据具体情况选择使用。 ### 回答2: ElasticSearch是一个开源的搜索引擎,拥有强大的全文搜索和分析能力。在ElasticSearch中,模糊查询是一种常见的查询型,用于找到与指定的搜索词或短语相似或相关的文档。 在ElasticSearch中,模糊查询可以通过使用通配符、模糊匹配、近似匹配和相似度匹配等方式实现。通配符查询可以使用通配符符号(*或?)匹配多个字符或单个字符。模糊匹配则使用模糊符号(~)指示查询应该接受的编辑距离,从而找到与搜索词相似但不完全匹配的文档。 另外,近似匹配允许搜索在单词之间添加或删除字符,以便更好地匹配查询词。相似度匹配则是利用TF-IDF算法计算词项的相对权重,从而找到与搜索词相似度最高的文档。 为了进行模糊查询,需要使用ElasticSearch提供的查询DSL语句。在查询语句中,可以使用模糊查询子句(fuzzy)指定需要进行模糊查询的字段和搜索词,以及匹配的模糊程度等参数。 不过需要注意的是,模糊查询可能会导致查询时间延长和性能下降,特别是在大数据集下。因此,在使用模糊查询时,需要权衡查询的结果精确性和查询性能之间的平衡。 总而言之,ElasticSearch的模糊查询提供了灵活的搜索功能,可以帮助用户找到与搜索词相似或相关的文档。但在使用模糊查询时,需要根据具体情况选择合适的查询方式,并注意查询性能的优化。 ### 回答3: Elasticsearch是一个开源的搜索引擎,它提供了丰富的查询功能,包括模糊查询。模糊查询是一种在搜索过程中允许存在一定的匹配误差的查询方式。 在Elasticsearch中,我们可以使用模糊查询来处理那些可能存在拼写错误或者其他差异的搜索请求。使用模糊查询可以找到与搜索关键词相似的文档,即使这些文档可能与搜索关键词不完全匹配。 Elasticsearch提供了多种方式来实现模糊查询。其中一种方式是使用模糊匹配查询(fuzzy match query)。通过指定一个最大编辑距离(max_edit_distance),我们可以控制模糊查询的容忍度。编辑距离指的是将一个词语转换成另一个词语所需要的最少操作次数(插入、删除、替换)。 另一种实现模糊查询的方式是使用通配符查询(wildcard query)。通配符查询支持在搜索关键词中使用通配符符号(*或?),表示匹配任意字符(*)或者匹配单个字符(?)。 另外,通过使用编辑距离相似度(edit distance similarity)计算,Elasticsearch还可以为搜索结果打分。这意味着匹配度较高的文档将排在搜索结果列表的前面。 综上所述,Elasticsearch的模糊查询功能可以帮助我们处理那些可能存在一定误差的搜索请求,提高搜索的准确性和召回率。通过合理选择最大编辑距离、使用通配符和应用编辑距离相似度计算,我们可以灵活地控制模糊查询的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

顧棟

若对你有帮助,望对作者鼓励一下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值