Elasticsearch的读写流程解析-CSDN博客

本文链接：https://blog.csdn.net/qq_15758463/article/details/124396565

本文详细介绍了Elasticsearch的读写流程。在读取时，ES根据_id进行路由分发，查询请求会遍历所有相关分片，经过query和fetch两个阶段，返回排序后的结果。而在写入时，数据先存入内存缓冲区Buffer，再定期刷新到Segment文件，最终通过Translog持久化，并定时执行merge和fsync操作确保数据安全。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

读取流程

es是一个分布式的存储和检索系统，在存储的时候默认是根据每条记录的_id字段做路由分发的，ES会把index中的多个document分配到多个不同的分片上，且尽量保持每个分片上document的数量平衡。es服务端是准确知道每个document分布在哪个分片(shard)上的。一个document相当于关系型数据库中的一行数据，它在ES中是最小的数据单位，因此一个document不会被拆分到多个分片上。
当我们读取数据时候，我们不知道那些document会被匹配到，任何一个分片上都有可能，所以一个查询请求必须查询索引的一个或多个分片才能完整的查询到我们想要的结果。找到所有匹配的结果是查询的第一步，来自多个分片上的数据集在分页返回到客户端之前会被合并到一个排序后的list列表，由于需要经过一步取top N的操作，所以读取需要进过两个阶段才能完成，分别是query和fetch。下面我们通过一个简单的举例来形象的说明。

读阶段(query)

当发出一个查询请求的时候，这个查询会被广播到索引里面的每一个分片（主分片或副本分片），每个分片会在本地执行查询请求后会生成一个命中文档的优先级队列。这个队列是一个排序好的top N数据的列表，它的size等于from+size的和，也就是说如果你的from是10，size是10，那么这个队列的size就是20，所以这也是为什么深度分页不能用from+size这种方式，因为from越大，性能就越低。假如有1万条数据记录了各种水果在全国各省市的销量，其中草莓的销量数据如下：
在这里插入图片描述