
故障处理
程序猿学长
专注于产品研发团队管理 软件架构 微服务 中台 欢迎一起交流学习 MBA CTO PMP;关注微信公众号 程序猿学长,大量免费学习资源分享。程序猿学长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
研发管理-质量与效率提升-混沌工程在携程的实践
研发管理-质量与效率提升-混沌工程在携程的实践 前几天听了携程SRE运维总监方菊女士的演讲,特别有感触,也是因为负责的产品和项目团队在上线过程中出现了很多的故障。本人前几篇文章介绍了携程在故障处理方面的经验介绍,又在网上查找到相关资料 混沌工程在携程的实践的pdf版,分享给大家。 这还是2019年携程技术峰会上的分享,今年的分享跟此内容大体差不多,但是更升华和具体,ppt内容也更丰富。感谢携程运维总监的分享。 对于研发团队,特别是中小型研发团队,可能没有专门的运维质量部门,需要原创 2020-12-27 21:18:06 · 8789 阅读 · 2 评论 -
研发管理-在团队中开展故障检验平台建设
在团队中开展故障检验平台建设 学习携程SRE稳定性风险治理框架思路,并在团队开展了故障检验平台的建设,其建设的总体原则和路径有: 1.验证历史故障的修复 2.主动设计故障场景并发起挑战 3.形成design for failure的文化** 1.测试覆盖常见故障场景 2.生产、测试环境少量演练 3.生产关键应用的定期演练 4.生产设定场景的随机演练 5.生产全自动化演练和验证 把上面的实践思路,同我们自身的研发管理和产品测试相结合,能得到很多的启发。 通过故障检验思路,原则,方法,实践,将系统故障扼原创 2020-12-27 18:02:13 · 5625 阅读 · 0 评论 -
研发管理-故障处理-故障多样化演练场景
学习携程稳定性风险治理框架中,混沌工程构建原则,其中故障多样化演练场景,主要需思考设计的点有以下内容,其中的每一个点,都值得都需要再深入学习研究,此处分享整体概念和思路。 Route: 路由层 集群拉出 流量突增 限流 证书错误 Application:应用层 依赖超时 依赖异常 OOM 线程池满 DATA:数据层 Redis宕机 Miss Cache Redis切换 Redis延迟 DB宕机 DB连接满 DB切换 DB阻塞 DB IO高 OS:操作系统层 服务器宕机 High CPU High IO H原创 2020-12-27 17:50:24 · 5812 阅读 · 1 评论