何为安全生产?
随着线上化的系统越来越复杂,业务故障无法避免。故障的发生,对我们企业的影响是巨大的,怎么样提升故障的定位、处理能力及恢复能力,是安全生产工作中最重要的目标。安全生产的工作内容即是为了达成这个目标所需要做的一些事项,这里可以从事前、事中、事后来拆解:
事前
:我们要有相关的组织架构保障,要有事前的制度流程体系、系统架构的建设、研发规范的遵守、应急预案的整理,需要具备相关系统的水位监测、故障监测能力,以及与 SLA 匹配的防护、切流、变更管控管理能力。事中
:我们要做到敏捷快速协同,让故障快速发现、快速定位、快速恢复。需要包括相应监控、日志、系统防护能力、快恢能力等相应基础设施与协同流程辅助完成。事后
:我们需要去反思,总结根因,定义 action。每一个故障应急完成后,我们都需要做复盘,定级定责,产出系统改进项,保证我们的整个架构持续迭代提升。对于管理者,我们需要去分析故障的原因是什么,处理过程的团队配合效率怎么样,分团队分产品的稳定性数据统计,然后保证我们整个安全生产管理的体系是可度量、可考核、可管理的。最后通过可视化的能力,指标化、全局化把控业务安全生产。