ceph scrub 导致业务问题优化

架构说明

  • 业务 -> rgw -> ceph (10)
  • ceph 中存储了海量的图片 (小文件)
  • CEPH 空间占用约 1.6P

背景

  • 近期发现每天凌晨业务请求 rgw 都会出现 5xx 超时故障
  • 故障出现都统一在 0:01 ~ 4:xx 左右
  • 故障通常出现在 FILE GET 的操作

分析

  • 通过错误日志,获取出现错误信息的文件名
  • 检测故障前后日志,发现文件访问都正常,只有在 0:00 ~ 4:00 期间访问才会出现错误信息
  • 即故障定位为 ceph 自身问题

监控信息

  • 查询 3 天发生故障信息

  • CPU
    在这里插入图片描述

  • 磁盘信息
    在这里插入图片描述

可以理解为

  • OSD 节点 每天固定时间点都会出现磁盘繁忙
  • 繁忙期间占用了大量 CPU 开销
  • 导致业务请求无法响应

明确定位方法

  • 每天 0 ~ 6 通常为 ceph 产生 scrub, deep-scrub 事件
  • 当前集群已经停用 deep-scrub
  • 为可以
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Terry_Tsang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值