CL - mp.05 Gestión de Incidentes v5
CL - mp.05 Gestión de Incidentes v5
05
Gestión de
Incidentes
Procesos Cloud
v5 2024-Ene
Mapa de Procesos – Delivery Cloud
Procesos BU Cloud
Capturar Oportunidades con el Cliente
afectados.
1 - Alto Impacto 1 Crítica Alta Media
Productivos ALTO P1 P2 P3
Incidente: 2 - Medio
Productivos No Impacto 2 Alta Media Baja
Es “una interrupción no planificada de MEDIO P2 P3 P4
críticos
un servicio de TI o una reducción de la
calidad de un servicio de TI”. 3 - Bajo Impacto 3 Media Baja Baja
No Productivos BAJO P3 P4 P4
Ciclo de vida del Incidente: v2022-10
Propósito
Asegurar la atención
Solicitante Lineamientos
pertinente de un incidente.
Determinar si es realmente
Responsable de registrar o • El incidente es notificado a través de una alerta de monitoreo o
un incidente y no un falso
solicitar un incidente comunicación directa del Cliente a través de los canales de
positivo (triaje) mediante ticket INC: comunicación con el CECOM.
• Gestor de servicio • El campo ‘Método de reporte’ especifica el canal utilizado para
Roles que participan
(Gerente de Proyecto / reportar el incidente (ver opciones en la cartilla de categorización).
- Gestor de Servicio / Jefe de Proyecto /
especialista / Analista de Proyecto) • El CECOM es responsable de registrar el ticket tipo Incidente y
Coordinador
- Operador Cecom realizar una primera revisión (triaje) para validar la ocurrencia del
• Torres (Jefe de Torre /
Coordinador /
incidente, pudiendo haber tentativa P1.
Entradas Especialista de Torre) • El Coordinador de turno es responsable de validar las atenciones de
Recepción de Incidente
los incidentes que tienen asignados los administradores y/o
especialistas, tomando en cuenta la disponibilidad según los turnos y
Salidas el tipo de especialización que requieren los incidentes, para asegurar
Incidente registrado y una correcta asignación del Incidente.
validado
Categorización
REGISTRO Y VALIDACIÓN CATEGORIZACIÓN PRIORIZACIÓN DIAGNÓSTICO RESOLUCIÓN ESCALAMIENTO CIERRE
Propósito Lineamientos
Asegurar una correcta • El CECOM realiza la categorización del ticket incidente según el síntoma percibido de acuerdo a la
categorización del
incidente utilizando el “Cartilla de Categorización de Incidentes y Problemas”.
modelo acordado.
• El administrador/especialista asignado al ticket (N1, N2 y N3) es responsable de validar la categoría
Roles que participan asignada al ticket, asegurando que coincida con la actividad que va a realizar.
- Administrador N1
- Especialista N2 / N3
Cartilla de
Categorización de
Entradas Incidentes y
- Incidente validado Problemas
- Cartilla de Categorización
de Incidentes y
Problemas
• El primer nivel de categorización corresponde al servicio de Administración Tecnológica.
Salidas
• El segundo nivel de categorización distingue los incidentes que afectan a los componentes del
- Nueva solicitud de para
construcción de nuevo
servicio tecnológico (Aseguramiento del Servicio) de los incidentes de afectan la seguridad de la
modelo información (Seguridad Inf).
- Incidente correctamente
categorizado
Priorización
REGISTRO Y VALIDACIÓN CATEGORIZACIÓN PRIORIZACIÓN DIAGNÓSTICO RESOLUCIÓN ESCALAMIENTO CIERRE
Propósito Lineamientos
Asegurar una correcta • El CECOM prioriza el incidente de acuerdo a la “Cartilla de Priorización (Impacto x Urgencia)”.
priorización del incidente
según la matriz de Impacto: Determinado por la criticidad del Elemento afectado (CI) desde la visión del negocio.
Impacto por Urgencia. Urgencia: La prontitud requerida para resolver el incidente, también los umbrales superados en los
eventos de monitoreo determinan la urgencia en los incidentes.
• El administrador/especialista asignado al ticket (N1, N2 y N3) es responsable de validar la priorización del
Roles que participan
ticket y actualizar el valor de impacto y/o urgencia de ser necesario (generalmente en un incidente el
- Administrador N1
- Especialista N2 / N3
impacto se mantiene en el tiempo, mientras que la urgencia puede variar, lo cual implica realizar el cambio
de Prioridad).
Cartilla de Priorización
(Impacto x Urgencia)
Entradas
- Incidente categorizado • De identificarse un incidente como prioridad Crítica (Prioridad 1), este pasará a atenderse con el proceso de
- Cartilla de Priorización
Gestión de Incidentes Graves (P1), el registro del ticket Incidente lo realiza el CECOM en la herramienta
(Urgencia x Impacto)
Canvia Cloud Suite: Incident Center, durante el registro se debe asegurar que el elemento afectado (CI) esté
relacionado al ticket Incidente.
• En CCS: Incident Center el CECOM puede priorizar un incidente de prioridad Alta (P2) a prioridad Crítica (P1);
Salidas
de la misma forma, si durante la revisión del incidente P1 los participantes del War-Room comprueban que la
Incidente correctamente
priorizado
alerta no genera impacto crítico, indicarán al CECOM que se debe des-priorizar el incidente P1 a incidente P2.
En ambos casos CECOM registra el motivo del cambio de prioridad en el CCS Incident Center y
automáticamente este motivo se registra en el ticket (véase instructivo CCS: Incident Center).
Diagnóstico
REGISTRO Y VALIDACIÓN CATEGORIZACIÓN PRIORIZACIÓN DIAGNÓSTICO RESOLUCIÓN ESCALAMIENTO CIERRE
Propósito Lineamientos
Asegurar el tratamiento
más efectivo e inmediato
• El administrador/especialista asignado al ticket (N1, N2 y N3) al iniciar la revisión del incidente,
para solución del incidente cambia el ticket incidente desde el estado ‘Asignado’ al estado ‘En curso’, con ello finaliza la
asignado a un grupo de medición del tiempo de respuesta del SLA u OLA.
soporte adecuado para
gestionar el evento • Para incidentes P1, CECOM asignará y pasará el ticket en estado ‘En curso’ a la primera Torre que
inicie el troubleshooting en el WarRoom P1.
Roles que participan
- CECOM • El administrador/especialista asignado al ticket (N1, N2 y N3) ejecuta el troubleshooting del
- Administrador N1 incidente.
- Especialista N2 / N3
• El administrador/especialista asignado al ticket (N1, N2 y N3) define los pasos a seguir para
Entradas resolver el incidente y valida que se encuentra dentro del tiempo de resolución del SLA u OLA.
Incidente correctamente
priorizado
• En esta etapa pueden intervenir varias torres en simultáneo (en el War-room de Incidente P1) o
secuencial (escalamiento entre torres).
Propósito
Lineamientos
Resolver y recuperar la • Se aplica una solución definitiva ante un error conocido o una solución temporal cuando se desconoce la causa raíz. Toda
disponibilidad o actividad técnica para la solución de un incidente debe coordinarse internamente en Delivery (No debe intervenir JP/GP).
funcionamiento normal del
incidente reportado dentro
• El administrador/especialista asignado al ticket que resuelve (N1, N2 y N3) es responsable de detallar en el ticket las
de los niveles de servicio actividades realizadas en la resolución y debe adjuntar en el ticket alguna evidencia que certifique que el incidente ha sido
resuelto y/o superado.
Roles que participan
• En el caso de un incidente P1, todos los especialistas que intervienen en la solución deben recolectar evidencias y
- Administrador N1 documentar todo lo relacionado al incidente en el ticket P1. Si requieren un ticket independiente para el registro de horas
- Especialista N2 / N3 ocupadas en la solución, registrarán un ticket relacionado de tipo Work Order (WO).
• Para incidentes P1, el Crisis Manager de Turno indicará el responsable de la elaboración del informe técnico P1 de acuerdo
a la atribución del incidente (para clientes de sector privado se entregará un informe P1 si el incidente se define con
Entradas
responsabilidad Canvia, para clientes de sector público, se entregará un informe P1 en todo incidente P1).
Incidente con diagnóstico
determinado • Para incidentes P1, el Crisis Manager de Turno indicará el responsable de la elaboración del informe técnico P1; éste será el
equipo técnico que realice la acción principal y/o necesaria para recuperar el servicio, CECOM generará un ticket
requerimiento (WO) para la elaboración de informe técnico P1 y se asignará al responsable que indique el Crisis Manager,
Salidas pero los demás especialistas que intervinieron deben documentar y adjuntar las evidencias en el informe.
- Incidente con necesidad • El Incident Manager será el primer aprobador del informe de P1; si éste no tiene toda la información será devuelto a la
de escalamiento técnico
torre responsable. Ante una tercera devolución será escalado y devuelto al Jefe de Torre. El Jefe y/o Gerente de Torre será el
- Incidente resuelto
segundo aprobador del informe de P1 antes de enviarlo al Jefe de Proyecto.
Escalamiento
REGISTRO Y VALIDACIÓN CATEGORIZACIÓN PRIORIZACIÓN DIAGNÓSTICO RESOLUCIÓN ESCALAMIENTO CIERRE
Propósito Lineamientos
Garantizar que todos los
incidentes reportados • Cuando se identifica la necesidad de escalamiento por la complejidad de resolución del incidente o para evitar
cumplan los el incumplimiento del tiempo de solución del SLA u OLA, el Coordinador o Administrador, dependiendo el
procedimientos e horario, es responsable de gestionar el escalamiento técnico, reasignando a un especialista de nivel superior
instrucciones de trabajo
aprobados de acuerdo a
(N1 N2 N3) para la atención del incidente.
cada nivel de grupo de
soporte.
Esquema de escalamientos en Incidentes desde CECOM a los equipos técnicos
Roles que participan
HORARIO DE OFICINA + EXTENDIDO* FUERA DE HORARIO DE OFICINA
- Administrador N1
- Especialista N2 / N3 Clientes con alcance
- Coordinador de turno CRITICO Escalamiento a: Incidentes 24*7:
P1 Escalamiento a
• Coordinador (Hasta 6pm**) especialista [LA POSITIVA /
Entradas ALTO • Especialista (Después 6pm**) (Llamada telefónica)
FONAFE / SEDAPAL /
P2 SUNARP / ONPE /
Incidente con necesidad ** Validar c/torre en la OSCE ]
de escalamiento técnico MEDIO Matriz de Escalamiento Cloud
P3
Asignación a bandeja de tickets Llamada 24x7
en sección Horarios y Soporte
del coordinador de torre destino (Todas las
Salidas BAJO
(NO se hace llamada) prioridades)
P4
Incidente escalado
asignado a administrador * Horario de oficina + extendido: Lunes-Viernes 8:30am a 10:00pm y Sábados 8:30am a 1:00pm
de nivel superior
Cierre del incidente
REGISTRO Y VALIDACIÓN CATEGORIZACIÓN PRIORIZACIÓN DIAGNÓSTICO RESOLUCIÓN ESCALAMIENTO CIERRE
Propósito
Lineamientos
Garantizar que toda la • Para finalizar la atención, el Administrador/Especialista (N1, N2, N3) cambia el ticket al estado ‘Resuelto’,
información de solicitud debiendo documentar las acciones aplicadas como solución en el campo Nota de resolución y seleccionar el
de servicio sea precisa y motivo de estado que corresponda:
esté actualizada antes del
cierre 1 2
Asegurar la gestión con
cliente post atención, en Cuando el incidente ha sido Cuando el cliente ha
caso aplique. causado por una acción o realizado una acción
inacción por parte de CANVIA, si causando la
es de prioridad crítica (P1) se va indisponibilidad o la
a requerir el Informe de Incidente degradación del servicio
Roles que participan
- Operador Cecom
• En incidentes P1 donde se aplicó una solución temporal o la causa raíz es desconocida, el equipo que
- Especialista N2 / N3
conforma el War Room P1 determina si la investigación debe continuar con la gestión de problemas, siendo el
CECOM quién genera el ticket problema a partir del incidente P1.
Entradas
• En incidentes P2, P3 o P4 donde se desconoce la causa raíz, la gestión de problemas se activa a demanda.
Incidente resuelto
• El ticket incidente puede ser reabierto hasta máximo 3 días calendarios desde que pase al estado Resuelto
ante una insatisfacción en la solución, posterior a este plazo, el ticket pasa automáticamente al estado
Salidas
Cerrado, impidiendo realizar cualquier modificación sobre este.
Incidente documentado y
cerrado • Los incidentes registrados con una cuenta personal en el campo ‘Cliente’ ofrecen la opción de calificar la
atención. Esto no aplica para tickets registrados con los clientes genéricos que representan a los proyectos.
3. Indicadores
Tiempo de Solución en la atención de tickets Incidentes se mide el tiempo trascurrido desde que el ticket es registrado hasta que se
resuelve. Se excluye el tiempo que el ticket se encuentre en estado 'Pendiente' con motivo 'Pendiente por cliente'.
*Debido a que los incidentes de Prioridad Crítica P1 no tienen una alta volumetría, el indicador se mide con frecuencia trimestral. En caso de
requerida la medición sea mensual para el SLA de Tiempo de Respuesta para los incidentes de Prioridad 1 solo aplicará cuando la volumetría de
incidentes con esta prioridad sea igual o mayor de 4 incidentes P1 dentro del periodo de medición.
• Debido a que los incidentes de Prioridad Crítica P1 no tienen una alta volumetría, el indicador se mide con frecuencia trimestral.
• En caso de requerida la medición sea mensual para el SLA de Tiempo de Solución para los incidentes de Prioridad 1 solo aplicará cuando la
volumetría de incidentes con esta prioridad sea igual o mayor de 4 incidentes P1 dentro del periodo de medición.
Control Comentario
Promedio del tiempo consumido al atender los tickets (solo se mide el tiempo
IM06. Tiempo
en el estado 'En Curso' (En Proceso)) de los tickets (no mide estados
Promedio de Atención
pendientes) por prioridad.
IM08. Incidentes por Cantidad y porcentaje de los tickets incidentes por la Prioridad P1 y otras
prioridad prioridades.
4. Evaluación de los
5. Informe de los
tickets
resultados
seleccionados
4. Estados
Tiempo de Respuesta
Recuerda:
• Los estados ‘Pendiente’ se usan para indicar que en cierto momento no se está atendiendo
un ticket o que este se encuentra siendo revisado por un tercero o cliente. Este comentario
se incluirá en la nota de justificación de estado pendiente del ticket.
• El único motivo de estado ‘Pendiente’ que pausa la medición de los SLA y OLA es el motivo:
‘Pendiente Cliente’.
Uso Correcto de los Estados en Incidentes
Estado Cancelado
Al seleccionar el estado “Cancelado” se indica que la atención del incidente ya no es requerida, por lo que se deberá
llenar de forma obligatoria los campos de “Motivo de estado” y “Justificación de Estado”:
El comentario que se incluirá en la nota de justificación de estado cancelado del ticket debe detallar
el motivo de la cancelación y deberá coincidir con el motivo de estado ‘Cancelado’ que sea
seleccionado: si es por motivo de un ticket incidente duplicado (‘Por duplicidad’), porque hubo un
error en el registro o fue un ticket de prueba (‘Falla de registro’), o la cancelación la solicitó el cliente
(‘Por cliente’) o la misma torre (‘Por Torre de Soporte’).
Uso Correcto de los Estados en Incidentes
Estado Terminado - Cerrado
Al completar la atención del ticket incidente, se debe usar el estado “Terminado” y se deberá llenar el campo ‘Nota de Resolución’ con
el comentario de la solución realizada, en este se mencionan las acciones realizadas y además se debe seleccionar obligatoriamente un
motivo de estado:
• Si la ocurrencia del incidente tiene atribución al cliente, es decir el cliente ha realizado una acción que ha provocado el incidente,
por ejemplo, realizó un pase a producción sin informar a CANVIA, reinició el servidor o tuvo un incidente en un componente fuera
de la administración de CANVIA, en estos casos se debe usar la opción: ‘Responsabilidad Cliente’ en el campo motivo de estado.
• Si la ocurrencia del incidente no es directamente atribuible al cliente, en los demás casos, se considerará como atribuible al servicio
o a CANVIA por ser el proveedor que administra dicha solución o componente afectado. En este caso se deberá usar la opción:
‘Responsabilidad Canvia’ en el campo “Motivo de estado”.
Una vez cambiado al estado ‘Terminado’, el ticket incidente se mantendrá disponible para su reapertura durante los siguientes 3 días
calendarios, luego de esto pasará automáticamente al estado ‘Cerrado’. Si el ticket es un ticket interno (entre torres), se puede
adelantar su transición al estado ‘Cerrado’.
5. Gestión de Incidentes Graves
P1
Asegurar el cumplimiento del Proceso de Incidentes así como Responsable de Gestionar la recuperación y/o
el cumplimiento de los OLAs/SLAs establecidos disponibilización del servicio ante un incidente P1.
Gestionar/Coordinar a diario el Proceso. Validar que el incidente sea un P1 (afectación de servicio
crítico).
Identificar excepciones y/o desviaciones al Proceso para su
revisión y aprobación. Gestionar las notificaciones internas y alertas de
escalamiento.
Asegurar que los lineamientos, procedimientos, políticas
asociadas al Proceso sean comunicadas a todos los equipos. Liderar la sala WAR: Liderar al equipo técnico designado para
Auditorías Internas para asegurar cumplimiento del Proceso la atención del incidente P1.
Asegurar cumplimiento del protocolo de incidentes P1
Definición/Medición de los KPIs del Proceso
(checklist de atención/validación de incidentes).
Monitorear y comunicar el cumplimiento de los KPIs,
Tomar decisiones para la recuperación del servicio
Tomar acción ante tendencias negativas de los KPIs. comprometiendo al equipo de Servicio (GP/JP) cuando sea
Verificar revisión post de los incidentes P1 (Comité de requerido.
Incidentes P1). Consolidar un plan de resolución integral
Asegurar que el personal documente el ticket de registro y lo
resuelva ante resolución del incidente.
Determinar el responsable de elaboración del informe técnico
de incidente P1.
Gestión de Crisis (Incidentes P1)
CLIENTE AFECTADO
El informe se publica en la
ruta: Cloud Repository y se
comenta en el ticket INC el
link para al acceso al informe.
96 horas
Formato del anuncio inicial de un incidente crítico en el chat
‘Incidente P1’ en WhatsApp/Teams
Para abrir el WarRoom se cumple en el incidente es Prioridad 1-Crítico, lo que corresponde a servicios totalmente afectados o a la indisponibilidad del
servicio. No se puede contemplar como P1 un incidente de menor prioridad donde la afectación sea parcial, por ejemplo, una degradación o lentitud
en el funcionamiento de los servicios.
Lineamientos de uso del chat ‘Incidentes P1’
El chat Incidentes P1 es de uso A partir que el Nivel 1 anuncia el incidente y se determina la sala War Room
exclusivo para escalar incidentes de que se está asignando se deben realizar las comunicaciones relacionadas con
prioridad Crítica P1. dicho incidente dentro del chat del War Room asignado.
Prioridad 1
Prioridad 2
Prioridad 3
Prioridad 4