别慌，按图处理！互联网线上故障SOP实战指南

通过遵循“先通报，后处理”、“先止损，后定位”和“先电话，后IM”的故障处理原则，可以显著提高故障应对的效率，减少对业务和用户的负面影响。这些原则的实施不仅能确保各方协调配合、迅速响应，还能确保在处理过程中信息传递的准确性和及时性。最终目标是通过高效的协作和处理，快速恢复服务，保障业务的正常运行。

三、故障响应要求和流程

线上故障往往来得迅猛，影响面广。在这种高压高要求的环境中，规范、高效的故障处理流程，是稳定业务、控制损失的生命线。本章详细定义了从响应到评估再到周知的全链路处理动作及SLA要求，帮助相关人员在关键时刻“有章可循、有据可依”。

（一）响应机制触发条件

以下四类信息源是启动故障响应流程的关键触发器，OnCall值班人员或服务负责人需密切关注并第一时间响应：

P0级别告警：系统监控中最严重的等级，通常伴随业务中断或严重功能异常，必须立即介入。
雷达事件：平台统一监控中心上报的异常事件，通常具有一定业务影响风险，需引起高度重视。
客服反馈：若在10分钟内出现5次以上同类型用户问题，可能预示着广泛用户面受影响。
商服反馈：如10分钟内接到2次以上同类反馈，表明问题具备一定规模性与紧急性。

只要满足其中任一条件，即需启动响应流程，不得延误。

（二）响应时间 SLA

响应的快慢，直接关系到止损的效果。因此，为了保障事件处理的时效性，明确如下响应时间服务等级协议（SLA）：

时段	响应时限
如午高峰（11:30 - 13:30） & 晚高峰（18:00 - 21:00）	3分钟内响应
工作日其他时间	5分钟内响应
非工作时间（节假日、夜间等）	10分钟内响应

📌 “响应”定义：指值班人员或服务负责人通过电话、IM或其他方式明确表态：“我已知晓此问题，并正在处理。”

（三）评估时间 SLA

在完成响应后，必须在极短时间内进行用户影响评估，判断当前事件是否对终端用户体验造成实际影响。SOP要求如下：

在响应后3分钟内完成影响评估；
若事件对用户无感知，也应明确说明“不影响用户”；
若存在影响，需进一步推动通报、止损和升级处理流程。

🛠 影响评估示例参考：

“登录失败，用户无法访问首页，影响面>80%，需立即通报”

“部分日志投递延迟，不影响主要功能，暂不通报，持续观察”

（四）故障周知

若事件确认对用户有实际影响，则必须启动“故障周知”流程，通过统一的渠道对关键团队进行通知，确保所有相关方及时同步信息，快速协同处理。

1. 📣 周知范围

对应部门稳定性专项沟通群（跨团队核心稳定性响应群）
各业务中心故障处理内部群（服务所属中心的主处理群）
对应部门值班群（或其他临时专项保障群）

2. 📄 周知模板（建议统一格式）

✅ 发送建议：由服务负责人或OnCall值班人员在评估影响后5分钟内完成首次周知，并持续更新进展，直到事件完全恢复。

这一处理流程从“发现 → 响应 → 评估 → 周知”层层推进，是快速止损与高效协作的关键闭环。严格遵守各阶段SLA，不仅是对系统稳定性的保障，也是对用户体验负责的体现。面对线上故障，唯有迅速响应、及时判断、全员协同，方能将风险控制在最小范围内，为稳定护航。

四、故障处理人员职责和义务

线上故障处理并非某一个人的战斗，而是一场多角色协同的系统性作战。为提升响应效率和修复质量，本SOP明确划分了在故障处理中各角色的职责分工，确保每位参与者在第一时间知道“谁来干、干什么、干到什么程度”。

（一）故障处理人员职责表

角色名称	角色身份	核心职责说明	特殊说明
响应人 / 通讯员	OnCall 值班人员或服务负责人	- 响应故障告警，评估是否影响用户 - 上报 X1 Leader 组建处理小组 - 故障期间持续收集信息并通报进展 - 故障总结及信息归档	故障响应后自动转为“通讯员”，是信息中枢
指挥人（X1 Leader）	故障服务所属 X1 Leader	- 组织处理小组，统筹故障处理节奏 - 授权止损操作 - 引入跨部门支援（平台、SRE、客服等） - 决策是否升级处理级别	若涉及中间件问题，需同步田东东 / 左普存
影响范围判定人（X2 Leader）	各业务中心 X2 Leader	- 判断用户受影响范围 - 补充雷达事件等级等信息（若通过雷达上报） - 未雷达上报则同步至稳定性专项群	影响评估必须快速、准确，确保信息闭环
止损人	指挥人调配的关键处理人	- 实施回滚、禁用、熔断、限流等动作 - 实时向指挥人报告止损效果 - 拒绝冒进，优先保障业务稳定	专注“止血”而非根因解决
定位人	有定位能力的业务相关人员（研发、SRE等）	- 故障复现与技术分析 - 辅助制定修复路径 - 提供根因分析 - 故障处理后参与复盘整理	具备分析能力和系统视角，是问题“侦探”角色