第一部分:Kubernetes SRE 核心概念
1.1 什么是Kubernetes SRE?
Kubernetes SRE(Site Reliability Engineering)是将传统的SRE实践应用于Kubernetes环境中的专业领域。它结合了:
- 软件工程的严谨性
- 系统运维的经验
- 云原生技术的专业知识
核心目标是构建和维护可靠、可扩展、高效的Kubernetes平台和服务。
1.2 SRE四大黄金指标在K8s中的实现
在Kubernetes环境中,四大黄金指标需要特殊关注:
-
延迟(Latency):
histogram_quantile(0.99, sum(rate(istio_request_duration_milliseconds_bucket[1m])) by (le, destination_service)
-
流量(Traffic):
sum(rate(istio_requests_total[1m])) by (destination_service)