一次Hadoop集群宕机事故总结

本文总结了一次因机房中心交换机故障导致的Hadoop集群宕机事件。在HDFS和YARN集群中,由于active NameNode与JournalNodes失去通信,导致HDFS无法进行HA切换;YARN集群的ResourceManager虽能自动切换,但因配置不全,无法正常工作。恢复过程中,active NN和standby NN的启动耗时过长,且未配置RM Restart,使得未完成的任务需要重新提交。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

10月27日下午,机房中心交换机坏掉,导致HDFS集群和MR(YARN)集群宕掉。
当时的日志现在已查不到,只能推断整个集群宕掉的原因。


HDFS和YARN的集群,都是master/slave模式,其中处于master角色的组件有:NameNode,ResourceManager。某种角度,只要master没有挂掉,可以认为集群没有挂掉。
同时,我们的HDFS集群和YARN集群都配置了HA,所以master角色可以认为还包括standby NN和standby RMs。
在HDFS HA集群中,JournalNodes也是很重要的角色,因为JN group一旦挂掉或仅仅无法与NNs通信,NNs都不能正常工作。HDFS HA和YARN HA也都依赖Zookeeper集群。


10月27日下午,交换机坏掉后,active NN与其他所有机器都不能通信,包括JNs,这导致active NN shutdown。因为之前standby NN是stop的状态,所以无法进行HA切换。实际上,即使能切换,standby NN所在的机器与其他集群不能通信。所以,这导致HDFS集群整个挂掉。
一个相关的issue:https://issues.apache.org/jira/browse/HDFS-8298。


因为YARN集群配置了HA(实际之前ops没有配置完整,仅仅是相当于打开了RM HA的开关,其他必要的与RM Restart相关的配置都没有),当天下午交换机坏掉后,active RM与ZK失联,自动切换到standby RM࿰
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值