kafka-python 使用指南：从消费者到生产者的完整实践

翟萌耘Ralph

于 2025-06-07 09:21:32 发布

阅读量508

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00300/article/details/148490501

kafka-python 使用指南：从消费者到生产者的完整实践

概述

kafka-python 是一个功能强大的 Python Kafka 客户端库，提供了与 Apache Kafka 交互的完整接口。本文将深入介绍如何使用该库进行消息生产和消费，以及集群管理和主题操作等高级功能。

Kafka 消费者使用详解

基础消费者配置

创建一个基本的 Kafka 消费者非常简单：

from kafka import KafkaConsumer

consumer = KafkaConsumer(
    'my-topic',  # 订阅的主题
    group_id='my-group',  # 消费者组ID
    bootstrap_servers=['localhost:9092']  # Kafka服务器地址
)

消息处理循环

消费者通过迭代器模式获取消息：

for message in consumer:
    print(f"主题:{message.topic} 分区:{message.partition} "
          f"偏移量:{message.offset} 键:{message.key} 值:{message.value}")

高级消费选项

消费位置控制：

# 从最早的消息开始消费，不自动提交偏移量
KafkaConsumer(auto_offset_reset='earliest', enable_auto_commit=False)

消息反序列化：

# JSON格式消息
KafkaConsumer(value_deserializer=lambda m: json.loads(m.decode('ascii')))

# Msgpack格式消息
KafkaConsumer(value_deserializer=msgpack.unpackb)

消费超时设置：

# 1秒后无消息则停止迭代
KafkaConsumer(consumer_timeout_ms=1000)

正则表达式订阅：

consumer = KafkaConsumer()
consumer.subscribe(pattern='^awesome.*')  # 订阅所有以awesome开头的主题

消费者组并行处理

多个消费者可以组成消费者组实现并行处理：

consumer1 = KafkaConsumer('my-topic', group_id='my-group', bootstrap_servers='my.server.com')
consumer2 = KafkaConsumer('my-topic', group_id='my-group', bootstrap_servers='my.server.com')

Kafka 生产者使用详解

基础生产者配置

from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers=['broker1:1234'])

消息发送方式

同步发送：

future = producer.send('my-topic', b'raw_bytes')
try:
    record_metadata = future.get(timeout=10)
    print(f"主题:{record_metadata.topic} 分区:{record_metadata.partition} 偏移量:{record_metadata.offset}")
except KafkaError:
    # 错误处理
    pass

异步发送：

# 批量发送
for _ in range(100):
    producer.send('my-topic', b'msg')

# 带回调的异步发送
def on_success(metadata):
    print(f"消息已发送到{metadata.topic}[{metadata.partition}]@{metadata.offset}")

def on_error(excp):
    print(f"发送失败: {excp}")

producer.send('my-topic', b'raw_bytes').add_callback(on_success).add_errback(on_error)

消息序列化

# JSON序列化
producer = KafkaProducer(value_serializer=lambda m: json.dumps(m).encode('ascii'))
producer.send('json-topic', {'key': 'value'})

# Msgpack序列化
producer = KafkaProducer(value_serializer=msgpack.dumps)
producer.send('msgpack-topic', {'key': 'value'})

生产者配置

# 重试配置
producer = KafkaProducer(retries=5)

# 确保所有消息发送完成
producer.flush()

集群元数据操作

from kafka.cluster import ClusterMetadata

metadata = ClusterMetadata(bootstrap_servers=['broker1:1234'])

# 获取所有broker信息
print(metadata.brokers())

# 获取特定broker信息
print(metadata.broker_metadata('bootstrap-0'))

# 获取主题分区信息
print(metadata.partitions_for_topic("topic"))

# 列出所有主题
print(metadata.topics())

主题管理操作

from kafka import KafkaAdminClient
from kafka.admin import NewTopic

admin = KafkaAdminClient(bootstrap_servers=['broker1:1234'])

# 创建主题
new_topic = NewTopic(name="testtopic", num_partitions=1, replication_factor=1)
admin.create_topics([new_topic])

# 删除主题
admin.delete_topics(['testtopic'])

# 消费者组管理
print(admin.list_consumer_groups())
print(admin.describe_consumer_groups('my-group'))
print(admin.list_consumer_group_offsets('my-group'))