ElasticSearch中嵌套结构使用

本文介绍如何使用ElasticSearch的嵌套数据结构来存储和查询一对多的数据关系,包括建表语句、数据写入、普通查询及聚合查询等操作,并提供了Java API示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.需求

需求看板查看全国各省的城市,当选中江西省时,可以点进去查看江西省的各大城市;

2.ElasticSearch嵌套数据存储结构

  这个情况呢,可以存两个index,形成一对多的关系来查询;那这里说另一种结构,嵌套结构;
  官网介绍:Nested datatype
  建表语句如下,citys_list就是一个嵌套结构,你可以认为citys_list是一个列表,列表里面的每个元素是一个结构体,结构体里面有两个元素city_id和city_name;

PUT /map_area
{
    "settings": 
    {
        "number_of_replicas": 2,
        "number_of_shards": 1
    },
    "mappings": 
    {
        "properties":
        {
            "province_id":
            {
                "type":"long"
            },
            "province_name":
            {
                "type":"keyword"
            },
            "citys_list":
            {
              "type": "nested",
              "properties": 
              {
                  "city_id":
                 {
                    "type":"long"
                 },
                 "city_name":
                 {
                    "type":"keyword"
                 }
              }
            }
        }
    }
}

3.ElasticSearch嵌套数据写入

POST /map_area/_doc
{
  "province_id":360000,
  "province_name":"江西省",
  "citys_list":[
                   {
                     "city_id":360100
                     ,"city_name":"南昌市"
                   },
                   {
                     "city_id":360700
                     ,"city_name":"赣州市"
                   }
              ]
}

4.ElasticSearch嵌套查询

  普通查询:查询嵌套内的field时,也需要需要加入关键字nested,如查询有赣州市的es文档;

GET /map_area/_search
{
  "query": {
    "nested": {
      "path": "citys_list",
      "query": {
        "match": {
          "citys_list.city_name":"赣州市"
        }
      }
    }
  }
}

# 结果
{
  "took" : 78,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.6931471,
    "hits" : [
      {
        "_index" : "map_area",
        "_type" : "_doc",
        "_id" : "-EERFXgBVEqNSrz8HG4V",
        "_score" : 0.6931471,
        "_source" : {
          "province_id" : 360000,
          "province_name" : "江西省",
          "citys_list" : [
            {
              "city_id" : 360100,
              "city_name" : "南昌市"
            },
            {
              "city_id" : 360700,
              "city_name" : "赣州市"
            }
          ]
        }
      }
    ]
  }
}

  聚合查询

GET /map_area/_search
{
  "size" : 0,
  "aggs": {
    "comments": {
      "nested": { 
        "path": "citys_list"
      },
      "aggs": {
        "age_group": {
          "extended_stats": { 
            "field":    "citys_list.city_id"
          }
        }
      }
    }
  }
}

# 结果
{
  "took" : 145,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "comments" : {
      "doc_count" : 2,
      "age_group" : {
        "count" : 2,
        "min" : 360100.0,
        "max" : 360700.0,
        "avg" : 360400.0,
        "sum" : 720800.0,
        "sum_of_squares" : 2.597765E11,
        "variance" : 90000.0,
        "std_deviation" : 300.0,
        "std_deviation_bounds" : {
          "upper" : 361000.0,
          "lower" : 359800.0
        }
      }
    }
  }
}

5.ElasticSearch嵌套Java API操作

  插入数据

@Service
@Log4j2
public class EsServiceImpl<T> implements EsService<T> {
 
    @Resource
    private RestHighLevelClient restHighLevelClient;
 
    //此处是批量存储
    @Override
    public BulkResponse save(List<T> list,XContentBuilder mapping,String index,String type) {
        BulkResponse bulkResponse = null ;
        if (list != null && list.size() != 0) {
            try {
                EsServiceImpl.log.info("......start to save......");
                //这里就是用的判断index是否存在的方法
                if(isNotExists(index,type)){
                    createIndex(mapping,index,type);
                }
 
                BulkRequest bulkRequest = new BulkRequest();
 
                for (T tt : list) {
                    bulkRequest.add((new IndexRequest(index, type, getESId(tt))).source(JSON.toJSONString(tt), XContentType.JSON));
                }
                bulkResponse = this.restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);
                BulkItemResponse[] responses = bulkResponse.getItems();
                log.info("... insert success {} ",responses.length);
                Arrays.stream(responses).forEach(response->{
                    if(StringUtils.isEmpty(response.getId())){
                        log.info("... response id is empty ...");
                    }
                    if(response.getFailure()!=null){
                        log.info("... response failure ...");
                    }
                });
                if(bulkResponse.hasFailures()){
                    log.info("... save failure {} ..." , bulkResponse.buildFailureMessage());
                }
            }catch (Exception e){
                log.error("... save failure ..." , e);
            }
        }
        return bulkResponse;
    }
 
}

  查询,以match查询为例;

NestedQueryBuilder nq = nestedQuery("citys_list",matchQuery("citys_list.city_id",label),ScoreMode.Total);
<think>嗯,用户想知道如何在Elasticsearch使用嵌套结构来关联文档和图片。首先,我得回忆一下Elasticsearch中的嵌套数据类型。嵌套类型主要用于处理对象数组,让每个对象都能被独立索引,这样查询时可以保持数组内对象的关联性。比如,一个文档可能有多个图片,每个图片有自己的属性,如URL、尺寸、标签等。如果用普通的对象数组,Elasticsearch会把这些对象扁平化,导致查询时可能无法正确匹配内部对象的关系。 接下来,设计映射结构是关键。用户需要定义一个嵌套类型的字段,比如“images”,里面包含图片的各种属性。例如,在创建索引时,需要明确指定这个字段的类型为“nested”,这样Elasticsearch才会正确处理这些嵌套对象。如果用户已经有数据,可能需要重新索引,特别是如果之前用的是普通对象的话。 然后是数据写入部分。可以通过Logstash同步数据,或者在应用程序中直接使用Elasticsearch的API插入文档。插入时,每个图片的信息作为嵌套对象放在“images”数组里。查询的时候,需要使用嵌套查询,比如nested查询,指定路径为“images”,并在内部使用具体的查询条件,比如匹配标签或尺寸。这样能确保查询正确地从每个嵌套对象中筛选出符合条件的文档。 不过,用户可能还需要考虑嵌套结构的优缺点。根据引用[2],嵌套文档的更新成本较高,因为修改任何一个字段都需要重新索引整个嵌套文档。如果图片信息经常变动,或者嵌套文档很大,这可能会影响性能。此外,嵌套文档的数量限制也要注意,太多嵌套可能导致性能下降。如果图片数量非常大,可能需要考虑其他方案,比如父子文档或者单独索引图片,再通过join字段关联。但根据引用[3],嵌套文档在少量数据时查询更快,资源开销更小,所以如果图片数量不多,嵌套结构还是更好的选择。 用户的应用场景也很重要。如果主要是根据图片属性进行过滤或聚合,嵌套结构合适。但如果需要频繁更新图片信息,可能需要评估性能影响。另外,父子文档虽然更新更灵活,但查询性能可能不如嵌套结构,尤其是在处理大量数据时。因此,设计时需要权衡查询效率和更新频率。 可能用户的问题还涉及如何实际实现这样的结构,比如具体的映射定义示例,插入数据的例子,以及查询的DSL怎么写。需要给出具体的代码示例,比如创建索引的PUT请求,插入文档的示例,以及nested查询的示例。同时,提醒用户注意嵌套查询的特殊语法,避免误用普通对象查询导致结果不准确。 最后,用户可能想知道如何同步数据到嵌套结构中,比如使用Logstash。引用[3]提到Logstash可以同步关联表到嵌套文档,可能需要配置pipeline来处理一对多关系,将子表的数据作为嵌套数组插入到父文档中。这部分可能需要更详细的Logstash配置指导,比如使用aggregate过滤器来合并多个SQL查询结果,生成嵌套结构的数据。 总结下来,回答需要涵盖映射设计、数据写入、查询方法、优缺点比较以及可能的优化建议,同时结合引用中的信息,特别是关于嵌套父子文档的区别,以及同步数据的方法。</think>### Elasticsearch嵌套结构与图片关联设计 在Elasticsearch中,通过**嵌套类型(nested type)**可将文档与图片的关联设计为包含多级属性的结构。以下是具体实现步骤: --- #### 一、映射设计 1. **定义嵌套字段** 在索引映射中,将图片相关字段声明为`nested`类型,确保数组中的每个对象独立存储并保留关联性: ```json PUT /documents_with_images { "mappings": { "properties": { "title": { "type": "text" }, "content": { "type": "text" }, "images": { // 嵌套字段 "type": "nested", "properties": { "url": { "type": "keyword" }, "size_kb": { "type": "integer" }, "tags": { "type": "keyword" }, "created_at": { "type": "date" } } } } } } ``` 2. **与普通对象数组的区别** 若未使用`nested`类型,Elasticsearch会将对象数组扁平化(如`images.url`直接作为多值字段),导致无法精确匹配同一子对象内的多个条件[^2]。 --- #### 二、数据写入 1. **插入示例** 通过API插入包含嵌套图片信息的文档: ```json POST /documents_with_images/_doc/1 { "title": "用户手册", "content": "系统操作指南...", "images": [ { "url": "http://example.com/img1.jpg", "size_kb": 2048, "tags": ["封面", "示意图"], "created_at": "2023-01-01" }, { "url": "http://example.com/img2.png", "tags": ["流程图"] } ] } ``` 2. **同步工具支持** 使用Logstash可将关系型数据库中的关联表(如MySQL的主表-图片表)同步为嵌套文档结构[^3]。 --- #### 三、查询方法 1. **嵌套查询(精确匹配)** 查找包含标签为`封面`且大小超过2MB的图片的文档: ```json GET /documents_with_images/_search { "query": { "nested": { "path": "images", "query": { "bool": { "must": [ { "term": { "images.tags": "封面" } }, { "range": { "images.size_kb": { "gte": 2000 } } } ] } } } } } ``` 2. **聚合分析** 统计所有文档中图片标签的频率: ```json GET /documents_with_images/_search { "aggs": { "image_tags": { "nested": { "path": "images" }, "aggs": { "tag_count": { "terms": { "field": "images.tags" } } } } } } ``` --- #### 四、优缺点分析 | **优点** | **缺点** | |---------------------------------------|-----------------------------------------| | 保持子对象独立性,避免误匹配[^1] | 更新单个嵌套字段需重建整个文档,成本较高 | | 查询性能优于父子文档(少量数据时) | 嵌套文档总数受限于`index.mapping.nested_objects`设置 | | 支持复杂查询
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

╭⌒若隐_RowYet——大数据

谢谢小哥哥,小姐姐的巨款

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值