【ceph】存储池pool的pg数量的计算和规划

背景:

有时候创建pool会报错,原因也摸索到了一些,大致都是osd数量不足导致

例如:

“Error ERANGE:  pg_num 64 size 3 would mean 840 total pgs, which exceeds max 750 (mon_max_pg_per_osd 250 * num_in_osds 3)”

“Reduced data availability: 64 pgs inactive, 64 pgs incomplete”---这个报错基本是纠删码k大了。

根本原因就是osd数量不足,起的太大。

如何计算呢,继续往下看:

如果您的 OSD 超过 50 个,我们建议每个 OSD 使用大约 50-100 个 PG,以平衡资源使用、数据持久性和数据分布。 如果您的 OSD 少于 50 个,请遵循预选部分中的指导。 对于单个池,使用以下公式获取基线值:

PG 总数 = \(\frac{OSD \times 100}{pool \: size}\)

其实就是pg总数 = (osd数 * 100)/ pool-size

这里的池大小要么是复制池的副本数量,要么是纠删码池的 K+M 总和。 要检索此总和,请运行命令

ceph osderasure-code-profile get

接下来,检查生成的基线值是否与您设计 Ceph 集群的方式一致,以最大限度地提高数据持久性和对象分布并最大限度地减少资源使用。

该值应向上舍入到最接近的 2 的幂。

每个池的 pg_num 应该是 2 的幂。 其他值可能会导致 OSD 之间的数据分布不均匀。 最好仅在可行且需要设置下一个最高的 2 次方时才增加池的 pg_num。 请注意,这个二的幂规则是针对每个池的; 将所有池的 pg_num 之和对齐到 2 的幂既不必要也不容易。

例如,如果您有一个包含 200 个 OSD 的集群和一个大小为 3 个副本的池,请按如下方式估计 PG 数量:

\(\frac{200 \times 100}{3} = 6667\)。 四舍五入到最接近的 2 次方:8192。

使用多个数据池存储对象时,请确保平衡每个池的 PG 数量与每个 OSD 的 PG 数量,以便获得合理的 PG 总数。 找到一个能够为每个 OSD 提供相当低的方差且不会增加系统资源负担或使对等过程过慢的数字非常重要。

例如,假设您有一个由 10 个池组成的集群,每个池在 10 个 OSD 上有 512 个 PG。 这相当于 5,120 个 PG 分布在 10 个 OSD 上,或者每个 OSD 512 个 PG。 这个集群不会使用太多的资源。 然而,在一个由 1,000 个池组成的集群中,每个池在 10 个 OSD 上有 512 个 PG,每个 OSD 必须处理大约 50,000 个 PG。 该集群将需要更多的资源和更多的时间来进行对等互连。

为了确定每个 OSD 的最佳 PG 数量,我们推荐使用 PGCalc 工具。

欲知更多,可自查官方文档:

Placement Groups — Ceph Documentation

总结:

pool的pg计算和规划值都是大概,一般都是取个大概,比计算出来的值小些且是2的次方数左右即可。

ps:

还有一点需要提醒的就是,pool如果做了相应的rule,只落到某个root故障域下,那么osd的数量要以那个rule下的故障域中存在的osd为准。

<think>好的,我需要回答用户关于如何计算Ceph中的ceph_pool_pg_num的问题。首先,我得回忆一下Ceph的基本知识。Ceph使用PG(Placement Group)来分布数据,合理的PG数量对于集群性能数据平衡很重要。用户可能想知道如何确定这个值,所以我需要详细解释计算步骤。 首先,PG数量计算公式是:(OSDs数量 * 每个OSD的PG数) / 副本数 / 池数量。这里的每个OSD的PG数一般推荐是100,但可能根据情况调整。我需要解释每个参数的含义,比如OSD是指存储设备,副本数是池的副本数量,池数量是指共享这些OSD的池的总数。 然后,可能需要举一个例子来帮助理解。例如,假设有100个OSD,使用默认副本数3,创建两个池,那么计算就是(100 * 100)/(3*2) ≈ 1666.67,然后取接近的2的幂次方,比如2048。这里需要注意PG数必须是2的幂次方,或者使用Ceph最近的允许值,比如启用pgp_autoscale_mode后的自动调整。 另外,用户可能不知道自动调整功能,所以需要提到从Luminous版本开始,Ceph支持自动调整PG数量,这样可以减少手动计算的麻烦。建议用户如果可能的话启用自动缩放,但也要了解手动计算的方法作为基础。 还需要提醒用户,虽然公式提供了基准值,但实际应用中可能需要根据负载性能需求调整。比如,高负载的池可能需要更多的PG来分散压力,但过多的PG也会增加开销。需要平衡这些因素。 可能还需要检查是否有遗漏的要点,比如不同的池类型(如复制池纠删码池)是否影响计算,副本数在纠删码中的处理方式不同吗?比如纠删码的k+m结构中,可能需要将k+m作为类似副本数的参数?这点可能需要确认,但可能在基础介绍中暂时不提,避免复杂化。 总结步骤:解释公式,给出例子,提到自动调整功能,注意事项调整建议。确保语言通俗易懂,避免过多术语堆砌,让用户能一步步理解如何计算。</think>在Ceph中,`pg_num`(Placement Group数量)的计算直接影响数据分布集群性能。以下是计算步骤核心原则: --- ### **1. 核心公式** **基准值计算公式**: `PG总数 ≈ (OSD数量 × 每OSD目标PG数) / 副本数 / 数据池数量` - **参数说明**: - **OSD数量**:集群中所有活跃的OSD数量(如:100个OSD)。 - **每OSD目标PG数**:Ceph推荐每个OSD分配约 **100 PG**(默认基准,可微调)。 - **副本数**:存储池的副本数量(如:复制池的 `size=3`)。 - **数据池数量**:共享同一组OSD的存储池总数(如:同时存在3个池)。 --- ### **2. 计算示例** 假设场景: - OSD数量 = 100 - 副本数 = 3 - 数据池数量 = 2 - 每OSD目标PG数 = 100 计算过程: ``` PG总数 ≈ (100 × 100) / (3 × 2) ≈ 1666.67 ``` **调整到最接近的2的幂次方**(如:2048),或使用Ceph允许的近似值(如启用 `pgp_autoscale_mode` 时)。 --- ### **3. 自动优化机制** - **pg_autoscale_mode**: 从Luminous版本起,Ceph支持自动调整PG数量。启用后,集群会根据负载容量动态优化PG分布,简化手动计算。 ```bash ceph osd pool set <pool-name> pg_autoscale_mode on ``` --- ### **4. 关键原则** - **2的幂次方**:最终PG数量应为2的幂次方(如:256、512、1024),确保数据均匀分布。 - **均衡分布**:每个OSD的PG数建议在 **50-200** 之间,过高会增加元数据开销,过低可能导致热点。 - **独立池的PG分配**:每个池需单独计算PG数,避免多个池共享OSD时过度分配。 --- ### **5. 查询与调整** - **查看当前PG分布**: ```bash ceph osd pool autoscale-status ``` - **手动设置PG数**(若需关闭自动调整): ```bash ceph osd pool set <pool-name> pg_num <value> ceph osd pool set <pool-name> pgp_num <value> # 通常与pg_num一致 ``` --- ### **总结** - **优先启用自动调整**:除非有明确需求,否则建议依赖Ceph的自动优化。 - **手动计算场景**:在明确知晓负载特征(如大规模对象存储)时,可手动微调PG数。 - **监控集群状态**:通过`ceph -s`观察是否出现`PG_NUM_NOT_CURRENT`或`TOO_FEW_PGS`告警,及时调整。 如有具体集群参数,可提供详细信息进一步分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值