一次Hadoop集群宕机事故总结

最新推荐文章于 2025-05-20 16:15:47 发布

sdn_prc

最新推荐文章于 2025-05-20 16:15:47 发布

阅读量5.6k

点赞数 2

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/sdn_prc/article/details/49802673

本文总结了一次因机房中心交换机故障导致的Hadoop集群宕机事件。在HDFS和YARN集群中，由于active NameNode与JournalNodes失去通信，导致HDFS无法进行HA切换；YARN集群的ResourceManager虽能自动切换，但因配置不全，无法正常工作。恢复过程中，active NN和standby NN的启动耗时过长，且未配置RM Restart，使得未完成的任务需要重新提交。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

10月27日下午，机房中心交换机坏掉，导致HDFS集群和MR（YARN）集群宕掉。
当时的日志现在已查不到，只能推断整个集群宕掉的原因。

HDFS和YARN的集群，都是master/slave模式，其中处于master角色的组件有：NameNode，ResourceManager。某种角度，只要master没有挂掉，可以认为集群没有挂掉。
同时，我们的HDFS集群和YARN集群都配置了HA，所以master角色可以认为还包括standby NN和standby RMs。
在HDFS HA集群中，JournalNodes也是很重要的角色，因为JN group一旦挂掉或仅仅无法与NNs通信，NNs都不能正常工作。HDFS HA和YARN HA也都依赖Zookeeper集群。

10月27日下午，交换机坏掉后，active NN与其他所有机器都不能通信，包括JNs，这导致active NN shutdown。因为之前standby NN是stop的状态，所以无法进行HA切换。实际上，即使能切换，standby NN所在的机器与其他集群不能通信。所以，这导致HDFS集群整个挂掉。
一个相关的issue：https://issues.apache.org/jira/browse/HDFS-8298。

因为YARN集群配置了HA（实际之前ops没有配置完整，仅仅是相当于打开了RM HA的开关，其他必要的与RM Restart相关的配置都没有），当天下午交换机坏掉后，active RM与ZK失联，自动切换到standby RM࿰

最低0.47元/天解锁文章