CEPH集群MON全部挂掉后恢复方法

最新推荐文章于 2025-05-07 17:50:54 发布

ensong_xu

最新推荐文章于 2025-05-07 17:50:54 发布

阅读量8k

点赞数

CC 4.0 BY-SA版权

分类专栏：文件系统文章标签： ceph

本文链接：https://blog.csdn.net/xuensong520/article/details/78533209

当CEPH集群所有MON节点挂掉，尤其是配置文件和元数据有备份时，可通过删除MON服务和数据，清理Docker volume，然后逐个恢复MON节点来恢复集群。在kolla环境下，需注意备份特定目录，如配置文件和元数据存储路径，并在恢复过程中避免已存在volume导致的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CEPH集群MON全部挂掉后恢复方法

2017/11/14 恩松

本文介绍ceph集群中所有mon服务均无法启动或者说mon节点所在服务器os全部无法启动情况下的恢复方法，当然，这种极端情况出现的概率非常低，这里前提是要做好mon节点的配置文件和元数据备份，不然就没办法恢复了。我的环境是使用kolla部署的，恢复方法也都是基于kolla工具下才有效，如果采用物理机部署，具体操作上会有所区别，但大致的思路和原理是一样的。

备份配置文件及元数据

采用kolla部署，默认的元数据存储路径如下

[root@node01 mon]# cd /var/lib/docker/volumes/ceph_mon/_data/mon/ceph-172.21.196.11/
[root@node01 ceph-172.21.196.11]# ls
keyring  store.db

将该目录完整备份

[root@node01 ~]# cp -r /var/lib/docker/volumes/ceph_mon/_data/  /root/ceph-mon-bak/

另外还有配置文件，里面保存了key，默认路径如下：

[root@node01 ~]# cd /etc/kolla/ceph-mon/
[root@node01 ceph-mon]# ls
ceph.client.admin.keyring  ceph.client.mon.keyring  ceph.client.radosgw.keyring  ceph.conf  ceph.monmap  config.json

同样，将该目录完整备份

[root@node01 ceph-mon]# cp -r /etc/kolla/ceph-mon /root/ceph-mon-bak/

我这里所有的相关进程都是跑在docker里，删除mon服务和数据之前先看下集群的整体状态

[root@node01 kolla]# docker exec -ti ceph_mon /bin/bash
(ceph-mon)[root@node01 /]# ceph -s
    cluster 84ff3941-2337-40ca-bd76-fb3be71b0fdd
     health HEALTH_OK
     monmap e4: 2 mons at {
  
  172.21.196.11=172.21.196.11:6789/0,172.21.196.12=172.21.196.12:6789/0}