2024年网络安全最新Ceph工作原理详解_ceph作用(1)

最新推荐文章于 2025-06-10 18:15:24 发布

原创

最新推荐文章于 2025-06-10 18:15:24 发布 · 722 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#ceph

3.PG (Placement Group)----顾名思义，PG的用途是对object的存储进行组织和位置映射。一个PG负责若干个object(可以为数前个甚至更多)，但一个object只能被映射到一个PG中，即，PG和object之间是一对多映射关系。同时，一个PG会被映射到n个OSD上，而每个OSD上都会承载大量的PG，即，PG和OSD之间是多对多映射关系。如果用于生产环境，OSD至少为3.一个OSD上的PG则可达到数百个。事实上，PG数量的设置牵扯到数据分布的均衡性问题。

4.OSD ----即object storage device 需要说明的是OSD的数量事实上也关系到系统的数据分布均衡性，因此数量不能太少。

5.Failure domain ----这个概念在论文中并没有进行定义，此处不过多解释

基于上述定义，Ceph中的寻址至少要经历下面三次映射✌️

1️⃣ File->object 这次映射的目的是，将用户要操作的file，映射为RADOS能够处理的object。其映射十分简单，本质上就是按照object的最大size对file进行切分。这种切分的好处有2点。一是让大小不限的file变成最大size一致、可以被RADOS高效管理的object；二是让对单一file实施的串行处理变为多个object实施并行化处理

每一个切分后产生的object将获得唯一的oid，即object id。其产生方式也是线性映射，图中ino是待操作file的元数据，可以简单理解为该file的唯一id。ono则是由该file切分产生的某个object的序号。而oid就是将这个序号简单连缀在该file id之后得到的。

举例而言，如果一个id为filename的file被切分成了三个object，则其object序号依次为0、1和2，而最终得到oid就依次为filename0、filename1和filename2. 这里隐含的问题是，ino的唯一性必须得到保障，否则后续无法正常进行

2️⃣ Object->PG映射 在file映射为一个或多个object之后，就需要将每个object独立地映射到一个PG中去

计算公式如下

hash(oid) & mask -> pgid

由此可见，其计算由两步组成。首先是使用Ceph系统指定的静态哈希函数计算oid的哈希值，将oid映射成一个近似均衡分布的伪随机值。然后，将这个随机值和mask按位相与，得到最终的PG序号(pgid)。根据RADOS的设计，给定PG的总数为m(m应该是为2的整数)，则mask的值为-1。因此，哈希值计算和操作结果事实上是从所有m个PG中近似均匀的随机选择一个。基于这个机制，当有大量的object和大量PG时，RADOS能够保证object和PG之间的近似均匀映射。又因为object是由file切分而来，大部分object的soze相同，因而这一映射最终保证了，各个PG中存储的object的总数据量近似均匀

只有当object和PG的数量较多时，这种伪随机关系的近似均匀性才能成立，Ceph的数据存储均匀性才有保证。为保证大量成立，以方便，object的最大size应该被合理配置，以使得同样数量的file能够被切分更多的object；另一方面，Ceph推荐PG总数应该为OSD总数的数百倍，以保证有足够数量的PG可供映射。

3️⃣PG->OSD映射 第三次映射就是作为object的逻辑组织单元的PG映射到数据的实际存储单元OSD,RADOS采用一个名为CRUSH的算法，将pgid带入其中，然后得到一共n个OSD。这n个OSD即共同负责存储和维护一个PG中所有的object。前面已经描述，n的数值可以根据实际应用中对于可靠性的需求而配置，生产环境通常为3.具体到每个OSD。则由其上的OSD daemon负责执行映射到本地的object在本地文件系统中的存储、访问、元数据维护等操作

和object->PG映射中采用的哈希算法不同，这个CCRUSH算法的结果不是绝对不变的，而是受到其他因素的影响。其影响因素主要有二点：

一是当前系统状态，也就是上文逻辑结构中曾经提及的cluster map。当系统中的OSD状态、数量发生变化时，cluster map可能发生变化，而这种变化会影响到PG与OSD之间的映射

二是存储策略配置。这里的策略主要与安全相关，利用策略配置，系统管理员可以指定承载同一个PG的3个OSD分别位于数据中心的不同服务器乃至机架上，从而进一步改善存储的可靠性。

因此，只有在系统状态cluster map和存储策略都不发生变化的时候，PG和OSD之间的映射关系才是稳定不变的。在实际使用中，策略已经配置通常不会改变。而系统状态的改变或者是由于设备损坏，或者是因为存储集群规模扩大。好在Ceph本身提供了对这种变化的自动化支持。因而，即便PG与OSD之间的映射关系发生了变化，也并不会对应用造成困扰。事实上，Ceph正是需要有目的的利用这种动态映射关系。正是利用了CRUSH的动态特性，Ceph可以将一个PG根据需要动态迁移到不同的OSD组合上，从而自动化地实现高可靠性、数据分布性等。

至此为止，Ceph通过三次映射，完成了从file到object、PG和OSD整个映射过程。通过整个过程可以看到没有任何的全局性查表操作需求。至于唯一的全局性数据结构cluster map的维护和操作都是轻量级的，不会对系统的可扩展性、性能等因素造成不良的影响

一个可能出现困惑的问题：为什么需要同时设计出第二次和第三次映射？难道不重复吗

如果没有PG这一层映射，通过算法将object直接映射到一组OSD上。如果这种算法是某种固定映射的哈希算法，则意味着一个object将被固定在一组OSD上，当其中一个或多个OSD损坏时，object无法被自动迁移至其他

最低0.47元/天解锁文章

200万优质内容无限畅学