ElasticSearch 模糊查询-脚本

最新推荐文章于 2024-08-20 20:16:33 发布

普希托夫

最新推荐文章于 2024-08-20 20:16:33 发布

阅读量291

点赞数

CC 4.0 BY-SA版权

文章标签： elasticsearch 正则表达式

本文链接：https://blog.csdn.net/weixin_50622904/article/details/119970048

本文介绍了ElasticSearch中实现模糊查询的三种方法：wildcard查询使用通配符进行匹配，regexp查询支持正则表达式，以及prefix查询针对前缀的检索。这些查询方式对于keyword类型的数据支持尤为有效。

ElasticSearch 模糊查询-脚本

模糊查询-脚本的三种方法
wildcard查询:会对查询条件进行分词。还可以使用通配符? (任意单个字符)和* (0个或多个字符)

regexp查询?正则查询

prefix查询:前缀查询

wildcard查询

wildcard查询：会对查询条件进行分词。还可以使用通配符 ?（任意单个字符）和 * （0个或多个字符）

"*华*"  包含华字的
"华*"   华字后边多个字符
"华?"  华字后边多个字符
"*华"或"?华" 会引发全表（全索引）扫描 注意效率问题

# wildcard 查询。查询条件分词，模糊查询
GET goods/_search
{
  "query": {
    "wildcard": {
      "title": {
        "value": "华*"
      }
    }
  }
}

正则查询

\W：匹配包括下划线的任何单词字符，等价于 [A-Z a-z 0-9_]   开头的反斜杠是转义符

+号多次出现

(.)*为任意字符
正则查询取决于正则表达式的效率

GET goods/_search
{
  "query": {
    "regexp": {
      "title": "\\w+(.)*"
    }
  }
}

前缀查询

对keyword类型支持比较好

# 前缀查询 对keyword类型支持比较好
GET goods/_search
{
  "query": {
    "prefix": {
      "brandName": {
        "value": "三"
      }
    }
  }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

普希托夫

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

Python ElasticSearch一站式教程(高级操作篇）

feizuiku0116的博客

01-13

8881

不懂基础的可以查看>>>>Python ElasticSearch一站式教程（基础篇）一、函数介绍 es.search()：按照指定规则查询 index：要查询数据的索引 size：查询所少条数据 from_：从指定索引开始查询 filter_path：添加过滤路径，显示指定字段(默认显示所有字段信息) query：要查询数据的规则 query={‘match_all’:{}}：查询所有语句 query={‘match’:{‘name’:‘杨晨’}}：检索指定字段 match

ElasticSearch（8）其他查询（脚本）：这个是重点

учёба

12-27

1659

matchAll查询 matchAll查询:查询所有文档语法： GET 索引名称/_search{ "query":{ "match_all":{} } } 查询出来的结果，默认情况下，es一次展示10条数据但是一般通过from和size来控制分页 { "took" : 0, //时间，第一次执行比较慢，后面就会越来越快，因为执行的结果会缓存到内存里面去 "timed_out" : false,//超时没有 "_shards" : {//分片信息，集群。。 "

参与评论您还未登录，请先登录后发表或查看评论

es基于ik分词器“长”关键字wildcard匹配不到数据

2401_84408092的博客

04-18

924

query”:{“bool” : {“must” : [“bool” : {“name” : {鸿运”,],],关键词为“鸿运”可以搜索到数据，但是“鸿运物流”却搜索不到。二、问题分析。

elasticsearch 中term与match区别

sxf_123456的博客

12-19

1万+

elasticsearch 中term与match区别 term是精确查询 match是模糊查询 term查询 term是代表完全匹配，也就是精确查询，搜索前不会再对搜索词进行分词，所以我们的搜索词必须是文档分词集合中的一个。比如说我们要找标题为北京奥运的所有文档 $curl -XGET http://localhost:9200/index/doc/_search?pr

elasticsearch 精确,模糊查询实例

iteye_6322的博客

09-19

3090

实例 http://www.bubuko.com/infodetail-648214.html GET _search { "query": { "match_all": {} } } PUT /useraudit POST /useraudit/t_unparticiple_test/_mapping { "t_unparticiple_te...

09-16

Elasticsearch 8.10.0 是一个高度可扩展的开源全文搜索引擎，适用于各种规模的企业，用于实时数据搜索、分析和存储。Windows 版本的 Elasticsearch 为 Windows 操作系统的用户提供了在本地运行和管理 Elasticsearch ...

05-25

8. **查询和分析**：Elasticsearch支持复杂的查询语法，如布尔查询、短语匹配、模糊匹配等。其内置的分析器如标准分析器、英文分析器等，可处理文本数据的预处理。 9. **分布式特性**：作为分布式搜索引擎，Elastic...

elasticsearch-8.5.2-windows-x86-64.zip

11-23

3. 全文搜索：Elasticsearch利用Lucene的分词技术，支持复杂的全文搜索查询，如短语匹配、模糊匹配和近似搜索。 4. 可扩展性：通过添加更多的节点到集群，Elasticsearch可以水平扩展以处理更大的数据量和更高的查询...

Elasticsearch——spring-boot-starter-data-elasticsearch详解

smart_an的专栏

07-28

2520

Spring Data Elasticsearch是Spring Data项目下的一个子模块。查看 Spring Data的官网：http://projects.spring.io/spring-data/Spring Data 的使命是给各种数据访问提供统一的编程接口，不管是关系型数据库（如MySQL），还是非关系数据库（如Redis），或者类似Elasticsearch这样的索引数据库。从而简化开发人员的代码，提高开发效率。

elasticsearch-windows-linux-analysis-ik.zip

07-01

使用IK分词器后，用户可以利用Elasticsearch的强大功能，如模糊搜索、短语匹配、同义词搜索等，对中文文本进行高效检索。同时，由于IK分词器支持热更新词典，因此在业务中可以动态调整分词规则，适应不断变化的需求...

ES使用Ngram分词器实现wildcard高性能替代方案

一个人的人生

05-03

5965

## 3.1 Ngram定义 Ngram是一种基于统计语言模型的算法。 Ngram的基本思想：是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

Elasticsearch 警惕使用 wildcard 检索！然后呢？

铭毅天下Elasticsearch

03-25

1万+

1、wildcard 检索定义wildcard 检索可以定义为：支持通配符的模糊检索。类似 Mysql 中的 like 模糊匹配，如下所示：Elasticsearch 中的 wildcar...

ES 模糊查询 wildcard 的替代方案探索

东境物语

08-20

6409

Wildcard 是一种支持通配符的模糊检索方式。在 Elasticsearch 中，它使用星号 * 代表零个或多个字符，问号?代表单个字符。其使用方式多样，例如可以通过 {"wildcard": {"field_name": "value"}} 的形式进行查询。适用场景通常包括召回率要求高的业务场景，当基于分词的全文检索无法满足需求，如基础词库不完备或分词粒度不精确时，Wildcard 可以发挥作用。然而，Wildcard 也存在一些可能的风险和局限性。

Elasticsearch模糊查询之Wildcard

刘皇叔说Java的博客

07-29

2281

{“wildcard” : { “LPR.keyword” : { “wildcard” : “${Keyword}”} }},你的示例中使用了 wildcard 查询，它适用于模糊搜索，允许使用通配符（* 和?）来匹配字段值。你使用了 keyword 子字段来确保精确匹配，这是一个常见的做法，因为 keyword 字段不会进行分词，可以直接用于通配符查询。

elasticsearch使用wildcard多字段模糊搜索

chengxuxuan的博客

04-29

5977

elasticsearch使用wildcard多字段模糊搜索匹配0个或多个字符 ? 匹配任意字符 * 匹配0个或多个字符 1.wildcard 单条件搜索 index 索引 type 类型。 GET /index/type/_search { "size": 20, "from": 0, "query": { "bool": { "should": [{ "wildcard": { "name": "*java* } }] } }

Elasticsearch全文检索对比：match、match_phrase、wildcard

qq_28834355的博客

10-14

3572

文章目录matchmatch_phrasequery_stringwildcardsuggest match 根据定义的分词器（默认standard）对搜索词进行拆分，根据拆分结果逐个进行匹配。特点是可以查出大量可能相关联的数据，但是准确率低。 PUT my_index/_doc/1?refresh { "message": "this is a test" } PUT my_index/_doc/2?refresh { "message": "this is a dog" } PUT my_ind

[Elasticsearch] 部分匹配 (二) - 通配符及正则表达式查询

最新发布

08-08

<think>我们正在处理用户关于在Elasticsearch中使用Painless脚本实现模糊查询的问题。根据用户需求，我们需要提供一个Painless脚本的模糊查询示例。注意：Elasticsearch的模糊查询通常通过查询DSL（如fuzzy query）实现，但用户明确要求使用Painless脚本。然而，我们需要澄清：Painless脚本通常用于script query（脚本查询）或script_score查询中，而不是直接用于实现标准的模糊查询。但是，我们可以通过脚本自定义相似度计算，比如使用Levenshtein距离或其他字符串相似度算法。不过，请注意：在脚本中实现模糊匹配可能会影响性能，因为脚本计算是逐文档进行的，且不会利用倒排索引的优势。因此，我们建议在可能的情况下优先使用Elasticsearch内置的fuzzy查询。但既然用户要求Painless脚本示例，我们将提供一个。思路： 1. 使用Painless脚本计算两个字符串的Levenshtein编辑距离（或Damerau-Levenshtein距离）。 2. 设置一个阈值（最大编辑距离），当编辑距离小于等于该阈值时，认为匹配。但是，在脚本查询中，我们需要返回一个布尔值（true/false）表示是否匹配。注意：Levenshtein距离的计算在Painless中需要自己实现，因为Painless没有内置该函数。我们将实现一个简单的Levenshtein距离计算函数，然后在脚本中调用。示例场景：假设我们有一个字段"text_field"，我们希望用脚本查询来模糊匹配用户输入的一个词（例如"kimchy"，但可能拼写错误）。步骤： 1. 在脚本中定义Levenshtein距离计算函数。 2. 比较文档字段值与用户输入的词的编辑距离。 3. 如果编辑距离小于等于指定的最大距离（如2），则返回true，否则false。但是，请注意：如果字段是text类型且经过分析（例如分词），那么字段值可能是多个词项。而我们的模糊匹配通常针对单个词项。因此，这个示例假设我们是在一个keyword类型的字段上操作（即整个字段作为一个字符串），或者我们针对的是text字段中的一个分词（这需要更复杂的处理，比如在脚本中访问该字段的terms集合，然后遍历每个词项）。为了简化，我们假设字段是keyword类型（未分词），或者我们使用了一个未分词的子字段（如.keyword）。示例脚本查询结构： ```json { "query": { "bool": { "filter": { "script": { "script": { "source": """ // 定义Levenshtein距离计算函数 int levenshtein(String s, String t) { int n = s.length(); int m = t.length(); // 如果其中一个长度为0，则返回另一个的长度（即需要插入所有字符） if (n == 0) return m; if (m == 0) return n; int[][] d = new int[n+1][m+1]; for (int i = 0; i <= n; i++) d[i][0] = i; for (int j = 0; j <= m; j++) d[0][j] = j; for (int i = 1; i <= n; i++) { char s_i = s.charAt(i-1); for (int j = 1; j <= m; j++) { char t_j = t.charAt(j-1); int cost = (s_i == t_j) ? 0 : 1; d[i][j] = Math.min( Math.min(d[i-1][j]+1, d[i][j-1]+1), d[i-1][j-1] + cost ); } } return d[n][m]; } // 获取文档字段值（假设字段名为'name'，且为keyword类型） String fieldValue = doc['name.keyword'].value; // 用户输入的搜索词，这里用参数传递 String input = params.search_term; // 最大编辑距离 int maxDistance = params.max_distance; // 计算编辑距离 int distance = levenshtein(fieldValue, input); return distance <= maxDistance; """, "params": { "search_term": "kimchy", // 示例搜索词 "max_distance": 2 // 最大编辑距离 } } } } } } } ``` 注意：这个脚本查询会遍历所有文档，计算每个文档的字段值与搜索词的编辑距离，性能开销很大，不推荐在大数据集上使用。替代方案：如果必须使用模糊查询，建议使用Elasticsearch内置的fuzzy查询，它会利用索引和倒排表，效率更高。例如： ```json { "query": { "fuzzy": { "name": { "value": "kimchy", "fuzziness": 2 } } } } ``` 但用户要求Painless脚本示例，所以我们提供了脚本方式。另外，我们还可以考虑使用脚本在查询时对字段值进行模糊匹配，但同样要注意性能。最后，我们生成相关问题。相关问题： 1. 在Elasticsearch中使用Painless脚本进行模糊查询有哪些性能影响？ 2. 除了Levenshtein距离，还有哪些字符串相似度算法可以在Painless脚本中实现？ 3. 如何优化Painless脚本模糊查询的性能？ 4. Elasticsearch内置的fuzzy查询与使用Painless脚本实现的模糊查询有何区别？</think>### Elasticsearch Painless脚本实现模糊查询示例在Elasticsearch中，使用Painless脚本实现模糊查询需要结合脚本查询（`script_query`）和自定义的字符串相似度算法。以下是一个完整的示例，使用Levenshtein编辑距离实现模糊匹配： ```json GET /your_index/_search { "query": { "bool": { "filter": { "script": { "script": { "source": """ // 计算Levenshtein编辑距离 int levenshtein(String s, String t) { int n = s.length(); int m = t.length(); if (n == 0) return m; if (m == 0) return n; int[][] d = new int[n+1][m+1]; for (int i = 0; i <= n; i++) d[i][0] = i; for (int j = 0; j <= m; j++) d[0][j] = j; for (int i = 1; i <= n; i++) { char s_i = s.charAt(i-1); for (int j = 1; j <= m; j++) { char t_j = t.charAt(j-1); int cost = (s_i == t_j) ? 0 : 1; d[i][j] = Math.min( Math.min(d[i-1][j]+1, d[i][j-1]+1), d[i-1][j-1] + cost ); } } return d[n][m]; } // 获取字段值并比较 String fieldValue = doc[params.field].value; int distance = levenshtein(fieldValue, params.searchTerm); return distance <= params.maxDistance; """, "params": { "field": "title", // 目标字段名 "searchTerm": "kimchy", // 搜索词 "maxDistance": 2 // 最大允许编辑距离 } } } } } } } ``` #### 关键说明： 1. **算法原理**： - 使用Levenshtein编辑距离计算相似度，该算法衡量将一个字符串转换成另一个所需的最少单字符编辑（插入/删除/替换）次数[^3][^4] - 示例中`maxDistance=2`表示最多允许2个字符的差异 2. **参数说明**： - `field`：要搜索的目标字段（需为`keyword`类型） - `searchTerm`：用户输入的搜索词 - `maxDistance`：最大编辑距离阈值 3. **性能建议**： - 此方法会逐文档计算编辑距离，**不适用于大数据集** - 对高基数字段使用`script_score`查询替代`script`过滤，避免全量计算 - 建议结合`term`查询先做初步筛选： ```json "must": [{ "term": {"title.initial": {"value": "k"}} // 首字母过滤 }] ``` #### 替代方案（推荐）：对于生产环境，优先使用Elasticsearch内置的模糊查询，性能更优： ```json { "query": { "fuzzy": { "title": { "value": "kimchy", "fuzziness": "AUTO", // 自动根据词长确定容错 "transpositions": true // 允许相邻字符互换 } } } } ``` > ⚠️ **注意**：Painless脚本查询应作为最后手段，内置查询会利用Lucene索引优化，性能可提升10-100倍[^1][^3] --- ### 相关问题 1. 如何优化Painless脚本模糊查询的性能？ 2. Levenshtein距离与Damerau-Levenshtein距离在模糊查询中有何区别？ 3. Elasticsearch内置的`fuzzy`查询在底层如何利用索引加速？ 4. 对于分词的text字段，如何实现基于分词的模糊匹配？ 5. 在脚本查询中如何处理大小写敏感性问题？ [^1]: Elasticsearch官方文档指出脚本查询应避免全量扫描，优先使用内置查询 [^3]: 模糊查询基于Levenshtein编辑距离实现，但内置查询会利用索引优化 [^4]: 实际应用中需注意脚本查询对集群性能的影响