ES 聚合后去重精度丢失问题方案

最新推荐文章于 2025-05-29 08:02:26 发布

yingchenwy

最新推荐文章于 2025-05-29 08:02:26 发布

阅读量4k

点赞数

CC 4.0 BY-SA版权

分类专栏： elastic search 文章标签： elasticsearch 聚合去重

本文链接：https://blog.csdn.net/u010483897/article/details/125256319

elastic search 专栏收录该内容

22 篇文章

订阅专栏

本文探讨了在Elasticsearch中使用cardinality去重遇到误差的问题，并提供了三种解决方案：复合聚合、stats_bucket和scripted_metric。第一种方法通过组合查询减少误差，但代码复杂；第二种方法虽准确但查询时间长；第三种自定义脚本实现快速去重，但可能涉及多分片挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：

统计对某个字段去重后的聚合数据
实现类似 sql：select count(distinct fault_name) from wangqi group by fault_name;

问题：使用 es 的 cardinality 做数据去重会导致结果出现 +-%5误差；

Query:
{
  "size": 0,
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "rpt_dt": {
              "gte": "2022-01-01",
              "lt": "2022-12-13"
            }
          }
        }
      ]
  },
  "aggs": {
    "01": {
      "filter": {
        "terms": {
          "data_sources": [
            "01"
          ]
        }
      },
      "aggs": {
        "01": {
          "cardinality": {
            "field": "mac_id"
          }
        }
      }
    }
  }
}

Return:
{
    "01" : {
      "doc_count" : 10901762,
      "01" : {
        "value" : 1425288
      }
    }
}

方案一：

使用composite 多列聚合类似 mysql select count(commissionamount) from xxx_table group by timeperiod,orgId

Query:
{
  "size": 0,
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "rpt_dt": {
              "gte": "2022-01-01",
              "lt": "2022-12-13"
            }
          }
        }
      ]
    }},
  "aggs": {
    "NAME": {
      "composite": {
        "sources": [
          {
            "fault_name": {
             "terms": {
               "field": "mac_id"
             }
            }
          },
          {
            "mac_id":{
              "terms": {
                "field": "fault_name"
              }
            }
          }
        ]
      }
    }
  }
}

Return：
{
  "key" : {
    "fault_name" : "***",
    "mac_id" : "***"
  },
  "doc_count" : 2
}

通过after key 循环查询所有返回的 fault_name 和 mac_id 排列组合，在python 中进行数量排名，去重数量计算。
优点：
- 聚合+去重结果准确
问题：
- 需要循环查询多次（取决于排列组合数量），代码需要大量改动

方案二：

使用 stats_bucket

扩大es terms 聚合size 上限
PUT test/_settings
{
  "persistent": {
    "search.max_buckets": 2000000
  }
}
GET test/_search?filter_path=aggregations.**.count,aggregations.mac_id.buckets.key,aggregations.mac_id.buckets.key_as_string
{
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "rpt_dt": {
              "gte": "2022-06-01",
              "lt": "2022-06-04"
            }
          }
        }
      ]
    }
  },
  "size": 0,
  "aggs": {
    "mac_id": {
        "terms": {
          "field": "rpt_dt",
          "size": 20
        },
        "aggs": {
            "fault_name": {
                "terms": {
                    "field": "mac_id",
                    "size": 100000000
                  }
            },
            "count": {
                "stats_bucket": {
                    "buckets_path": "fault_name._count"
                  }
            }
        }
    }
  }
}

具体介绍：Stats Bucket Aggregation - elasticsearch中文文档

二级聚合拿到所有二级的桶，使用 stats_bucket 统计所有桶的数量即为去重后的数量；
优点：
- 聚合+去重结果准确，不需要循环查询，代码改动量少
问题：
- 二级聚合拿到所有桶，比较耗时，查询时间为原始方案的 5-6倍

方案三：

使用 scripted_metric 实现自定义聚合

init_script 定义
map_script 操作判断
combine_script 操作返回记录
reduce_script 返回sum值

Query:
{
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "rpt_dt": {
              "gte": "2022-06-01",
              "lt": "2022-06-04"
            }
          }
        }
      ]
    }
  },
  "size": 0,
  "aggs": {
    "mac_id": {
      "terms": {
        "field": "fault_name",
        "size": 10
      }, 
      "aggs": {
        "spu": {
          "scripted_metric": {
            "init_script": {
              "source": "state.numas=new HashMap();",
              "lang": "painless"
            },
            "map_script": {
              "source": """
              if(doc.mac_id.length>=1){
                String houseKey = doc.mac_id.value;
                state.numas.put(houseKey,1);
              }
              """,
              "lang": "painless"
            },
            "combine_script": {
              "source": """
              double item_finish_count=0;
              for(key in state.numas.keySet()){
                item_finish_count+=1;
              }
              return item_finish_count;""",
              "lang": "painless"
            },
            "reduce_script": {
              "source": """double result=0;
               for(e in states){
                if(!Objects.isNull(e)){
                    result+=e;
                }
              }
              return result;""",
              "lang": "painless"
            },
            "params": {
              "close_sum_key": "close_sum3",
              "house_sum_key": "house_sum3"
            }
          }
        }
      }
    }
  }
}

Return:
{
    "key_as_string" : "2022-06-01 00:00:00",
    "key" : 1654041600000,
    "doc_count" : 274282,
    "spu" : {
        "value" : 268144.0
    }
}