大规模 K8s 集群管理经验分享 · 上篇

最新推荐文章于 2025-06-11 11:44:24 发布

尔达 Erda

最新推荐文章于 2025-06-11 11:44:24 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签：数据库 java jenkins

本文链接：https://blog.csdn.net/m0_59358648/article/details/121657883

本文分享了大规模K8s集群管理的经验，包括如何处理存储差异、集群规模与稳定性优化、K8s与Serverless的关系、两地三中心部署架构的考量，以及数据库在K8s上的部署策略等。通过标准化运维、建设诊断系统和优化参数来提升效率和稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

11 月 23 日，Erda 与 OSCHINA 社区联手发起了【高手问答第 271 期 – 聊聊大规模 K8s 集群管理】，目前问答活动已持续一周，由 Erda SRE 团队负责人骆冰利为大家解答，以下是本次活动的部分问题整理合集，其他问题也将于近期整理后发布，敬请期待！

Q1：K8s 上面部署不通的应用对于存储有不同的要求，有的要高吞吐，有的是要低响应。大规模 K8s 部署的时候是怎么协调这种存储差异的问题？还是说需要根据不同的场景，运维不同的存储服务？又或者说尽量存储使用解决方案？

A1：存储相对于 CPU 和内存确实会更复杂一些，就是因为它会包含更多类型，不同的存储空间，不同的性能要求。所以存储还是得从应用需求出发，来满足不同的存储需求。

Q2：请问下你们维护的最大 K8s 集群规模大小是多少？遇到了哪些性能、稳定性问题？做了哪些优化？

A2：我们目前维护的单个集群规模不大，总量相对大些，维护了几百个集群。量上来了就会碰到形形色色的问题，比如：如何提升运维效率？如何比用户更早地发现问题？如何优化内存碎片问题？如何优化磁盘驱逐带来的隐患？。我们也做了很多事情：第一步进行标准化，比如统一操作系统、统一版本、标准化节点规格、系统数据盘分离等等。接着开始建设诊断系统，覆盖操作系统、容器、K8s、常规中间件、平台（应用）等，目前就是先于用户发现问题，能全方位进行巡检覆盖，可以将其理解为运维系统的眼睛，近期我们刚好也开源了这个系统：kubeprober。当前也会有对应的一些优化，比如: 补充 docker k8s 的 log rotate 参数，优化 gc、eviction 参数，防止磁盘被写满；对 Pod PID 进行限制、EmtyDir 存储、容器可写层大小等进行限制；保障 K8s 关键 Pod 的调度；关闭 swap，优化 /proc/sys/vm/min_free_kbytes 等参数，优化内存回收。

问题有些大，涉及的工作也会特别多，我也只是列举了部分，每个点上都还可以做更多的事情。

kubeprober 开源地址：
https://github.com/erd