spring-kafka消费出现异常:Commit cannot be completed since the group has already rebalanced 消费者突然hung住停止消费

最新推荐文章于 2024-06-16 17:54:18 发布

fo3hd

最新推荐文章于 2024-06-16 17:54:18 发布

阅读量9.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：消息组件项目遇到过比较棘手的问题

本文链接：https://blog.csdn.net/huangdi1309/article/details/109447899

消息组件同时被 2 个专栏收录

8 篇文章

订阅专栏

项目遇到过比较棘手的问题

3 篇文章

订阅专栏

博客主要讲述线上Kafka出现的两个异常。一是CommitFailedException，因一次性poll拉取消息处理时间长，超max.poll.interval.ms阈值，通过改拉取消息数量和session.timeout.ms解决；二是消息堆积不消费，消费者挂起，最终加大max.poll.interval.ms解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一天发现线上环境大量报kafka异常：CommitFailedException

org.apache.kafka.clients.consumer.CommitFailedException:
 Commit cannot be completed since the group has already rebalanced and assigned the partitions to another member.
 This means that the time between subsequent calls to poll() was longer than the configured max.poll.interval.ms,
 which typically implies that the poll loop is spending too much time message processing.
 You can address this either by increasing the session timeout or by reducing the maximum size of batches returned in poll() with max.poll.records.

后面分析得知出现该异常是因为一次性poll拉取（默认500）消息后处理时间过长，导致两次拉取时间间隔超过了max.poll.interval.ms阈值（默认五分钟）。解决策略可以加大参数：max.poll.interval.ms或者减少一次性拉取的消息数量。我这里是改了拉取消息数量和session.timeout.ms得以解决。
spring配置如下：

spring:
  kafka:
   consumer:
     max-poll-records: 200

我也改了spring.kafka.properties.session.timeout.ms

spring:
  kafka:
   properties:
    session:
      timeout:
        ms: 120000

这个可能不需要改，因为0.10.0.0之后的版本已经由max.poll.interval.ms参数来决定。

案例二：
另外最近线上又出现另外的异常：
消息堆积一直不消费，感觉消费者已经死掉一样。重启服务后开始消费，
但是消费一段时间又停止。
开始尝试增加消费者数量和增加pod（节点）数，但是都不能完全解决，异常依然存在。
通过dump出堆栈信息发现消费则全部处在 WAITING 状态，这个状态是挂起状态，并且是无限期等待：

"kafka-coordinator-heartbeat-thread | CID_alikafka_xxx" #125 daemon prio=5 os_prio=0 tid=0x00007f1aa57fa000 nid=0x86 in Object.wait() [0x00007f1a8af80000]
   java.lang.Thread.State: WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)
        at java.lang.Object.wait(Object.java:502)
        at org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:920)
        - locked <0x00000000e798f558> (a org.apache.kafka.clients.consumer.internals.ConsumerCoordinator)

   Locked ownable synchronizers:
        - None

"kafka-coordinator-heartbeat-thread | CID_alikafka_xxx" #124 daemon prio=5 os_prio=0 tid=0x00007f1aa546b800 nid=0x85 in Object.wait() [0x00007f1a8b081000]
   java.lang.Thread.State: WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)
        at java.lang.Object.wait(Object.java:502)
        at org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:920)
        - locked <0x00000000e798f888> (a org.apache.kafka.clients.consumer.internals.ConsumerCoordinator)

   Locked ownable synchronizers:
        - None

后来经过查看官方文档发现一句话：
https://docs.spring.io/spring-kafka/docs/2.6.3-SNAPSHOT/reference/html/
在这里插入图片描述
消费者被挂起了，因为超过了max.poll.interval.ms默认五分钟，其实罪魁祸首还是拿到消息后业务处理太慢了，这块后续优化掉。
后面加大spring.kafka.properties.max.poll.interval.ms到600000（10分钟）解决。

spring-kafka部分参数介绍

spring.kafka.producer.batch-size 150  一次性拉取消息数

spring.kafka.properties.max.poll.interval.ms  两次poll的间隔默认5分钟

spring.kafka.producer.batch-size  一次性提交大小(默认16384字节)针对消息生产者

spring.kafka.listener.concurrency  消费者数量，平均分配kafka的partition，如24个partition，此值为8，则每个消费者负责3个partition。