
sre
文章平均质量分 94
可用性保证方面的一些文章
帅大大的架构之路
坚持!努力!奋斗!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
混沌工程(Chaos Engineering) 到底是什么?
ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的容错能力,并且在企业上云或往云原生系统迁移过程中业务连续性保障。Chaosblade 是内部 MonkeyKing 对外开源的项目,其建立在阿里巴巴近十年故障测试和演练实践基础上,结合了集团各业务的最佳创意和实践。基础资源:比如 CPU、内存、网络、磁盘、进程等实验场景;Java 应用:比如数据库、缓存、消息、JVM 本身、微服务等,还可以指定任意类方法注入各种复杂的实验场景;转载 2025-03-03 11:51:41 · 316 阅读 · 0 评论 -
一文吃透SRE故障预案6把刀2.0
经过无数次实践证明,绝大多数问题确实可以通过重启短暂解决。所以,故障来的时候,先把理性分析放一边,重启一下试试嘛!!当然,重启也是有套路的,例如是一台一台还是瞬时批量?还有一些服务是不能重启的,有状态、又有状态存储,一重启数据就丢失,进而可能造成整个系统雪崩,坑死人不偿命,所以,哪些可以重启,还是要和研发提前达成一致。总之,转载 2023-12-18 11:12:53 · 513 阅读 · 0 评论