10月27日下午,机房中心交换机坏掉,导致HDFS集群和MR(YARN)集群宕掉。
当时的日志现在已查不到,只能推断整个集群宕掉的原因。
HDFS和YARN的集群,都是master/slave模式,其中处于master角色的组件有:NameNode,ResourceManager。某种角度,只要master没有挂掉,可以认为集群没有挂掉。
同时,我们的HDFS集群和YARN集群都配置了HA,所以master角色可以认为还包括standby NN和standby RMs。
在HDFS HA集群中,JournalNodes也是很重要的角色,因为JN group一旦挂掉或仅仅无法与NNs通信,NNs都不能正常工作。HDFS HA和YARN HA也都依赖Zookeeper集群。
10月27日下午,交换机坏掉后,active NN与其他所有机器都不能通信,包括JNs,这导致active NN shutdown。因为之前standby NN是stop的状态,所以无法进行HA切换。实际上,即使能切换,standby NN所在的机器与其他集群不能通信。所以,这导致HDFS集群整个挂掉。
一个相关的issue:https://issues.apache.org/jira/browse/HDFS-8298。
因为YARN集群配置了HA(实际之前ops没有配置完整,仅仅是相当于打开了RM HA的开关,其他必要的与RM Restart相关的配置都没有),当天下午交换机坏掉后,active RM与ZK失联,自动切换到standby RM
当时的日志现在已查不到,只能推断整个集群宕掉的原因。
HDFS和YARN的集群,都是master/slave模式,其中处于master角色的组件有:NameNode,ResourceManager。某种角度,只要master没有挂掉,可以认为集群没有挂掉。
同时,我们的HDFS集群和YARN集群都配置了HA,所以master角色可以认为还包括standby NN和standby RMs。
在HDFS HA集群中,JournalNodes也是很重要的角色,因为JN group一旦挂掉或仅仅无法与NNs通信,NNs都不能正常工作。HDFS HA和YARN HA也都依赖Zookeeper集群。
10月27日下午,交换机坏掉后,active NN与其他所有机器都不能通信,包括JNs,这导致active NN shutdown。因为之前standby NN是stop的状态,所以无法进行HA切换。实际上,即使能切换,standby NN所在的机器与其他集群不能通信。所以,这导致HDFS集群整个挂掉。
一个相关的issue:https://issues.apache.org/jira/browse/HDFS-8298。
因为YARN集群配置了HA(实际之前ops没有配置完整,仅仅是相当于打开了RM HA的开关,其他必要的与RM Restart相关的配置都没有),当天下午交换机坏掉后,active RM与ZK失联,自动切换到standby RM