Kafka存储与分区策略详解-CSDN博客

本文链接：https://blog.csdn.net/syc0616/article/details/118229443

本文详细介绍了Kafka的工作流程，包括消息的offset、分区、文件存储机制、分区策略和数据可靠性。Kafka采用发布订阅模式，消息按Topic分类，每个Partition包含.log和.index文件。文件存储采用分片和索引机制，通过offset查找message。分区策略包括producer如何决定分区，以及不同场景下的分区选择。数据可靠性依赖于副本数据同步策略、ISR、ack应答机制和幂等性，确保消息不丢失或重复。Kafka通过一系列机制保证在故障发生时的数据一致性和恢复。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kafka工作流程

1.Kafka将消息按Topic进行分类，每条message由三个属性组成。

offset：表示message在当前Partition（分区）中的偏移量，是一个逻辑上的值，唯一确定了Partition中的一条message，可以简单的认为是一个id；

MessageSize：表示message内容data的大小；

data：message的具体内容；

2.在整个kafka架构中，生产者和消费者采用发布和订阅的模式，生产者生产消息，消费者消费消息，它俩各司其职，并且都是面向topic的。（需要注意：topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是producer生产的数据）

3.Producer生产的数据会被不断追加到该log文件末端，且每条数据都有自己的offset。

4.消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，这样当出现故障并恢复后，可从这个offset位置继续进行消费，避免漏掉数据或者重复消费。

文件存储机制

文件存储结构及命名规则

在kafka的设计之初，考虑到了生产者生产的消息不断追加到log文件末尾后导致log文件过大的情况，所以采用了分片和索引机制，具体来说就是将每个partition分为多个segment。每个segment对应三个文件：.index文件、.log文件、.timeindex文件。其中.log和.index文件夹下，该文件夹的命名规则为：topic名称+分区序号。

例如，csdn这个topic有2个分区，则其对应的文件夹为csdn-0,csdn-1；

如果我们打开csdn-0这个文件夹，会看到里面的文件如下：