读书笔记(SRE:Google运维解密):第4章 服务质量目标

本文介绍了Google运维中的服务质量指标(SLI)、服务质量目标(SLO)和服务质量协议(SLA)。SLI如延迟、错误率和可用性是衡量服务性能的关键。SLO定义了SLI的目标值,而SLA涉及未达标时的应对措施。通过理解用户需求来确定重要指标,并建议使用分布而非平均值来定义SLI,同时标准化和重用SLI模板以简化管理。选择SLO时,应考虑实际情况,避免过于理想化,SLO有助于建立合理的用户预期。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 服务质量指标(SLI)、服务质量目标(SLO)、服务质量协议(SLA)
    这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划
     
  • 大部分服务都将请求延迟—处理请求所消耗的时间——作为一个关键SLI
    (a)其他常见的SLI包括错误率(请求处理失败的百分比)、系统吞吐量(每秒请求数量)等
    (b)可用性(availability)是另外一个SRE重视的SLI,代表服务可用时间的百分比
    (c)运维行业经常用9的数量来描述可用程度。例如,99%可用性被称为“2个9”,99.999%被称为“5个9”。目前Google 云计算服务公开的可用性指标是“3.5个9”—99.95% 可用
     
  • SLO是服务质量目标(Objective):服务的某个SLI的目标值,或者目标范围。SLO的定义是SLI≤目标值,或者范围下限≤SLI≤范围上限
     
  • 区别SLO和SLA的一个简单方法是问“如果SLO没有达到时,有什么后果?”
     
  • 究竟如何来识别哪些指标对服务是最重要:理解用户对系统的真实需求才能真正决定哪些指标是否有用
    (a)用户可见的服务系统,例如莎士比亚搜索服务的前端服务器通常关心可用性、延迟,以及吞吐量。换句话说:是否能正常处理请求?每个请求花费的时间是多少?多少请求可以被处理?
    (b)存储系统通常强调:延迟、可用性和数据持久性。换句话说:读写数据需要多少时间?我们是否可以随时访
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值