最近调优及其他工作实在太忙,没有太多时间写心得,今天抽空来总结一下阶段性成果吧。从一开始的ceph调研、系统调优开始,ceph集群存储大规模数据之后(集群文件数超过2亿),rgw并发写性能下降的问题一直困扰我们,终于在最近找到了原因及相关解决办法
问题引入
在测试集群的并发性能的时候,我们注意到,经过系统调优后,集群创建初期,至少,在写入数据低于1亿文件数的时期,集群能够保持比较好的性能,并发虽然会有不少波动,但是基本能维持到7500ops(cosbench),但是再继续写,性能就会出现明显的暴跌,降低到1500ops左右,这显然是不可接受的;
我们跟踪排查后发现,每当性能下降剧烈的时候,往往是磁盘有非常厉害的读:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40集群概况:
cluster:
id: b4136ac5-ad0d-45b9-9f74-7e6a6f6d572c
health: HEALTH_WARN
noscrub,nodeep-scrub flag(s) set
services:
mon: 1 daemons, quorum ceph-c204<