Elasticsearch子字段(fields)：解锁字段的多面超能力

前言：为什么需要子字段？

在传统数据库中，一个字段通常只能有一种数据类型和查询方式。但现实业务中，我们经常需要对同一个字段进行多种处理：既要能全文搜索，又要能精确匹配；既要支持中文分词，又要保留原始内容。Elasticsearch的子字段(fields)机制正是为解决这种多维需求而生，让单个字段化身"瑞士军刀"，满足不同场景的查询需求。

一、子字段核心原理解析

1.1 什么是子字段？

子字段是Elasticsearch映射(mapping)中的特殊配置，允许为同一字段值建立多套索引方案。其核心特点：

同源多态：基于同一原始值，衍生不同索引形式
独立配置：每个子字段可指定独立的数据类型和分析器
按需查询：不同业务场景使用不同的子字段路径

1.2 底层实现机制

原始值: "华为Mate60 Pro"

主字段索引:
  text类型 → 分词为: ["华为", "mate60", "pro"]

子字段索引:
  keyword类型 → 保留完整字符串
  pinyin类型 → 拼音转换: ["huawei", "mate60", "pro"]

二、六大实战应用场景

2.1 场景一：精确匹配与全文搜索共存

PUT /products
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text",  // 全文搜索
        "fields": {
          "raw": { 
            "type": "keyword"  // 精确匹配/排序
          }
        }
      }
    }
  }
}

查询示例：

GET /products/_search
{
  "query": {
    "match": { "name": "智能手机" }  // 全文搜索
  },
  "sort": [
    { "name.raw": "asc" }  // 按原始值排序
  ]
}

2.2 场景二：多语言分词支持

"title": {
  "type": "text",
  "analyzer": "ik_max_word",  // 中文分词
  "fields": {
    "en": {
      "type": "text",
      "analyzer": "english"  // 英文分词
    }
  }
}

2.3 场景三：数字与文本双存储

"product_id": {
  "type": "keyword",
  "fields": {
    "numeric": {
      "type": "long"  // 可进行范围查询
    }
  }
}

三、高级配置技巧

3.1 动态模板+子字段自动化

PUT /_index_template/product_template
{
  "template": {
    "mappings": {
      "dynamic_templates": [
        {
          "string_as_text_and_keyword": {
            "match_mapping_type": "string",
            "mapping": {
              "type": "text",
              "fields": {
                "raw": { "type": "keyword" }
              }
            }
          }
        }
      ]
    }
  }
}

3.2 嵌套子字段

"address": {
  "type": "text",
  "fields": {
    "geo": {
      "type": "geo_point",  // 地理坐标
      "ignore_malformed": true
    }
  }
}

3.3 性能优化方案

方案	适用场景	配置示例
doc_values优先	排序/聚合场景	`"type": "keyword", "doc_values": true`
关闭不常用子字段索引	写多读少场景	`"index": false`
使用ignore_above	限制长文本子字段存储	`"ignore_above": 256`

四、生产环境问题诊断

4.1 常见错误排查

问题一：子字段查询无结果

// 错误写法：
GET /_search { "query": { "term": { "title": "华为" } } }

// 正确写法：
GET /_search { "query": { "term": { "title.raw": "华为" } } }

问题二：类型冲突

// 错误日志：
"reason": "Text fields are not optimised for operations..."

// 解决方案：
使用子字段的keyword版本进行聚合/排序

4.2 性能监控指标

# 查看子字段存储开销
GET /_index/your_index/_stats/fielddata?fields=*.raw

# 监控查询负载
GET /_nodes/stats/indices/search?filter_path=**.title.*

五、最佳实践总结

黄金法则：
- 所有需要排序/聚合的text字段都应添加keyword子字段
- 数值型ID建议同时存储keyword和numeric版本
设计流程：
避坑指南：
- 避免过度使用子字段（每个子字段都会增加索引大小）
- 不要在子字段上重复主字段的分词器
- 7.x+版本优先使用multi-fields而非fields语法