• Definición
  • las 4 etapas
  • Funciones de MIM
  • Errores comunes
  • Mejores prácticas
  • Descargar kit de implementación

Gestión de incidentes mayores: una descripción general

Gestión de incidentes mayores ITIL

Es lunes por la mañana y las cosas son bastante normales en su mesa de servicio. De repente, recibe un ticket de alerta de que un servicio crítico no funciona y, en los siguientes 15 minutos, comienza a recibir una afluencia de tickets que informan sobre el mismo problema. Podría ser que su sitio web esté caído, su software de punto de venta haya dejado de funcionar, o algo de mayor alcance, como la caída de la bolsa de valores o la suspensión de aviones. Cuando su negocio se ve gravemente afectado por un problema de TI que provoca la pérdida de ingresos y/o reputación, tiene un incidente importante en sus manos.

La forma en que reacciona ante un incidente importante marca la diferencia a la hora de minimizar el impacto del incidente y restablecer los servicios. Como dicen, el tiempo es oro, y en este caso, no podría ser más cierto. Si su organización cuenta con un proceso de gestión de incidentes importantes (MIM), puede responder rápidamente y resolver incidentes importantes. Si no cuenta con un proceso de este tipo, es hora de elaborar un plan de respuesta a emergencias, también conocido como proceso de respuesta a incidentes importantes.

Lo que está en juego en un incidente importante es más alto que nunca y, según  un estudio  de Information Technology Intelligence Consulting, el 98 % de las organizaciones pierde al menos 100 000 USD por una hora de inactividad. Esto refuerza la importancia de establecer un proceso MIM que pueda abordar de manera eficaz y eficiente los incidentes importantes.

Toda organización tiene como objetivo eliminar los incidentes importantes, pero la conclusión es que los incidentes importantes son imposibles de prevenir por completo y lo único que puede hacer es estar preparado para ellos.

En esta guía, veremos cómo configurar un proceso de MIM efectivo, los errores comunes que pueden afectar el MIM de su organización y las mejores prácticas para mejorar su proceso de MIM.

Pero primero, ¿qué hace que un incidente sea un incidente importante?

¿Qué es un incidente importante?

¿Qué es un incidente importante?

Un incidente mayor es un problema urgente de alto impacto que generalmente afecta a toda la organización o a una parte importante de ella. Un incidente importante casi siempre tiene como resultado que los servicios de una organización dejen de estar disponibles, lo que hace que el negocio de la organización se vea afectado y, en última instancia, afecta su situación financiera. Hay dos formas en que un incidente importante puede afectar los servicios de una organización:

  • Impidiendo que los clientes accedan a los servicios de la organización. La interrupción de Cloudflare en julio de 2019 es un ejemplo de clientes afectados por un incidente importante. Esta gran interrupción afectó a casi la mitad de Internet y dejó a millones de usuarios de Internet sin poder acceder a varios servicios.
  • Al interrumpir la capacidad de los empleados para completar su trabajo a tiempo, lo que lleva a una interrupción del negocio. La interrupción de IndiGo en noviembre de 2019 afectó el proceso de check-in de la aerolínea, lo que provocó largas demoras y afectó a miles de pasajeros.

Una mesa de servicio bien preparada está equipada para evaluar incidentes importantes y encontrar soluciones o alternativas para reducir y controlar el impacto de un incidente importante.

Las 4 etapas de un incidente mayor

Se considera que los incidentes mayores tienen 4 etapas principales, a saber:

  • Identificación
  • Contención
  • Resolución
  • Mantenimiento
¿Cuáles son las 4 etapas principales de un incidente mayor en ITIL?

El proceso de gestión de incidentes mayores

Un proceso de gestión de incidentes importantes es imprescindible para las organizaciones, ya que les ayuda a minimizar el impacto comercial de un incidente importante. El proceso de gestión de incidentes mayores consta principalmente de los siguientes pasos:

Etapa 1: Identificación

Explicar las 4 etapas principales de un incidente mayor

Etapa 1: Identificación

Declarando el incidente mayor:

El primer paso es identificar posibles incidentes mayores. Es importante que las organizaciones configuren múltiples métodos para identificar amenazas. Los técnicos pueden marcar los incidentes importantes cuando encuentran tickets inusuales, o pueden detectarse mediante soluciones como herramientas de monitoreo de red que pueden marcar automáticamente un problema de red y crear un ticket para alertar a la mesa de servicio. Las organizaciones también pueden configurar una línea directa dedicada para que el personal de la mesa de servicio señale incidentes importantes sospechosos.

Informar a las partes interesadas:

Una vez que se ha identificado un incidente importante, debe comunicarse a todas las partes interesadas clave. Hay cuatro grupos principales que deben ser informados de incidentes importantes:

  • Equipo técnico : es importante informar al equipo técnico de inmediato para que puedan comenzar a decidir un curso de acción para solucionar el problema.
  • Gestión : Mantener a la alta dirección, como el CIO, informada sobre los principales incidentes ayuda a la rendición de cuentas. Las organizaciones también deben mantener informada a la gerencia sobre todos los pasos tomados para solucionar incidentes importantes.
  • Partes interesadas clave : los jefes de departamento y el personal de gestión empresarial de nivel de servicio también deben estar informados de los principales incidentes y recibir actualizaciones periódicas del estado.
  • Usuarios : los usuarios necesitan saber qué servicios pueden no estar disponibles debido a un incidente importante.

Etapa 2: Contención

Principales pasos del proceso de gestión de incidentes

Etapa 2: Contención

Reunir el equipo de incidentes mayores

Un equipo de incidentes importantes, o MIT para abreviar, consta de técnicos, jefes de gestión de nivel de servicio y otras partes interesadas clave; a veces, se contrata personal externo altamente calificado para abordar un incidente importante. El MIT trabaja en conjunto para encontrar una solución al incidente principal y hacer que las operaciones vuelvan a la normalidad.

Configuración de un puente de conferencia

Un puente de conferencia, más comúnmente conocido como llamada de conferencia, ayuda con la solución de problemas efectiva y la comunicación centralizada. Actúa como un canal de comunicación claro y rápido entre los miembros del MIT.

Preparación de una sala de guerra designada

Tener una sala de guerra designada permite que todos los miembros del MIT se reúnan y solucionen el incidente. Esto aumenta los esfuerzos de colaboración, lo que ayuda al MIT a encontrar una solución más rápido.

Creación de un ticket de problema para identificar problemas subyacentes

Se puede crear un ticket de problema para descubrir y comprender la causa raíz del incidente principal. Esto puede ayudar a prevenir incidentes mayores similares en el futuro al abordar las causas del incidente mayor.

Etapa 3: Resolución

Principales pasos de gestión de incidentes

Etapa 3: Resolución

Implementar el plan de resolución como un cambio

Es una buena práctica implementar la solución para el incidente principal como un cambio para garantizar que la resolución se documente e implemente correctamente. La implementación de la resolución como un cambio minimiza el riesgo de que una resolución fallida interrumpa otros servicios.

Etapa 4: Mantenimiento

Fases de gestión de incidentes mayores

Etapa 4: Mantenimiento

Realización de una revisión posterior a la implementación

Es importante hacer un balance del incidente durante un período de tiempo para asegurarse de que realmente se resuelva. Si los problemas subyacentes no se resuelven, podrían dar lugar a otro incidente importante.

Producir documentación clara

Documentar todo el proceso de resolución del incidente mayor ayuda a la organización a prepararse para incidentes similares en el futuro. Con la documentación adecuada de los incidentes anteriores, la organización puede implementar la solución probada inmediatamente cuando se enfrente a otro incidente importante similar, reduciendo su impacto.

Métricas de medición

Medir el desempeño de la mesa de servicio ayuda a medir la efectividad de la mesa de servicio y el proceso MIM. Algunas métricas importantes para medir son el tiempo medio de reconocimiento (MTTA), el tiempo medio de resolución (MTTR), la cantidad total de incidentes importantes y el tiempo de inactividad promedio para incidentes importantes.

Marque todas las casillas para un proceso efectivo de gestión de incidentes mayores

Diagrama de flujo del proceso de gestión de incidentes mayores de ITIL®

Diagrama de flujo del proceso de gestión de incidentes mayores de ITIL

Principales funciones y responsabilidades de gestión de incidentes

Principales funciones y responsabilidades de gestión de incidentes

Un incidente importante requiere un grupo especial de personal para abordar el incidente y resolverlo. Los roles de MIM incluyen:

Técnicos de mesa de servicio

Los técnicos de la mesa de servicio son la primera línea de defensa contra incidentes importantes. Analizan los tickets de incidentes y los derivan al administrador de incidentes. Los técnicos de la mesa de servicio también están involucrados en la implementación de las resoluciones.

Gestor de incidentes mayores

El administrador de incidentes mayores es el propietario del incidente mayor. Su función incluye declarar el incidente como un incidente mayor y garantizar que se siga el proceso MIM y que el incidente se resuelva lo antes posible. Actúan como el principal punto de contacto para cualquier información sobre el incidente principal y administran el MIT.

MIT

Un MIT es un equipo especializado que es responsable de analizar el incidente principal y formular un plan de acción para manejar la amenaza. Idealmente, el MIT está formado por técnicos de la mesa de servicio, personal de gestión de nivel de servicio, personal técnico, otras partes interesadas relevantes y consultores externos si la situación lo requiere.

Personal técnico

El personal especializado que es responsable del mantenimiento de la infraestructura y las operaciones, incluidos los administradores de sistemas, los administradores de red y el personal de seguridad de la información, que conforman el personal técnico de una organización. El personal técnico ayuda a solucionar el incidente principal y es el principal responsable de implementar la resolución del incidente principal.

Administrador de cambios

El administrador de cambios es el propietario del cambio que se crea para implementar la corrección del incidente principal. El administrador de cambios asume la propiedad total del ticket de cambio y es responsable de ello.

administrador de problemas

Si se crea un problema en respuesta al incidente principal, el administrador de problemas posee el ticket del problema. El administrador de problemas trata de determinar las causas raíz del incidente y asegurarse de que no vuelva a ocurrir, o que la organización esté al menos preparada para la próxima vez que ocurra el incidente.

Consultores externos o proveedores externos

En algunos casos, el incidente principal puede requerir personal altamente especializado para ayudar a comprender y solucionar el incidente. El administrador de incidentes mayores identifica al personal requerido y lo agrega al MIT para ayudar a reducir el impacto del incidente mayor.

matriz RACI

Una matriz RACI define las responsabilidades de varias partes interesadas en un proceso. La siguiente tabla define las funciones y responsabilidades de las principales partes interesadas en incidentes a lo largo del proceso MIM.

Proceso/roles Técnicos de mesa de servicio Gestor de incidentes mayores MIT Personal técnico Administrador de cambios administrador de problemas Consultores externos
Identificación
Declarar el incidente mayor C A R C I I I
Informar a las partes interesadas C A R I I I I
Contención
Montaje del MIT I REAL ACADEMIA DE BELLAS ARTES C C I C I
Configuración de un puente de conferencia I A R C I C I
Preparación de una sala de guerra designada I A R I I C I
Creación de un ticket de problema para identificar problemas subyacentes I A R C I I I
Resolución
Implementar el plan de resolución como un cambio I I I R A C C
Mantenimiento
Realización de una revisión posterior a la implementación I C I R A C I
Producir documentación clara C A R C C C C
Métricas de medición I A R I I I C

* R - Responsable, A - Responsable, C - Consultado, I - Informado

5 errores comunes en la gestión de incidentes mayores

Principales desafíos de la gestión de incidentes

Aquí hay 5 errores comunes que pueden dificultar su proceso MIM:

  1. Comunicación manual y escalamiento

    Con mucho, el mayor desafío para MIM es la comunicación. En el caso de un incidente importante, se debe informar a varias partes interesadas sobre el estado del incidente, su gravedad y qué resolución de problemas se ha realizado para solucionarlo. Comunicar todo esto manualmente es una tarea ardua y puede conducir a una comunicación inconsistente, lo que solo empeora las cosas. Al automatizar el proceso, se notifica a las partes interesadas clave durante todo el ciclo de vida del ticket, y el administrador de incidentes principales puede concentrar toda su atención en solucionar el problema.

  2. Canales ineficaces para reportar incidentes mayores

    Cada mesa de servicio recibe decenas o incluso cientos de tickets al día, que van desde problemas con la computadora portátil hasta solicitudes de servicio; entre esta montaña de entradas, podría haber algunos incidentes importantes potenciales. No establecer un canal separado para reportar incidentes mayores retrasa la identificación de incidentes mayores.

  3. Duplicación de esfuerzos

    No delegar tareas de manera organizada puede causar la duplicación de esfuerzos dentro del MIT. Es importante asignar tareas y mantener informado al MIT de lo que le corresponde a cada miembro.

  4. Mala documentación

    La falta de documentación adecuada obligará al MIT a reinventar la rueda cada vez que ocurra un incidente importante similar, lo que generará demoras en la resolución de incidentes importantes y provocará un tiempo de inactividad innecesario.

  5. Falta de análisis de la causa raíz.

    Al igual que  la gestión de incidentes , MIM puede tener un alcance miope, ya que su enfoque principal es solucionar el problema y poner los servicios en funcionamiento en el menor tiempo posible. Si no se combina con  la gestión de problemas  para identificar problemas subyacentes, la causa subyacente de un incidente importante seguirá haciendo que la organización sea vulnerable a incidentes importantes.

5 mejores prácticas de gestión de incidentes mayores

mejores prácticas de gestión de incidentes mayores

Estas son las mejores formas de abordar el proceso MIM

  1. Habilite múltiples canales para reportar incidentes importantes

    Cuando se trata de manejar incidentes importantes, el tiempo es esencial. Es vital que las organizaciones identifiquen y clasifiquen los principales incidentes tan pronto como se detecten. Ofrecer a los usuarios múltiples formas de informar incidentes hará que todo el proceso sea más rápido y accesible. Puede habilitar la creación de tickets a través de correo electrónico o un portal web, o incluso configurar una línea directa dedicada para informar sobre sospechas de incidentes importantes. Configurar un software de monitoreo de red para detectar anomalías puede ayudarlo a lidiar de manera proactiva con incidentes importantes.

  2. Automatice los procesos de la mesa de servicio

    La velocidad y la eficiencia juegan un papel vital en el control del impacto de un incidente importante, y la automatización de varios procesos de la mesa de servicio ayuda a lograr esto al liberar a sus técnicos de tareas repetitivas, como notificar a las partes interesadas. La automatización del sistema de notificación y la configuración de flujos de trabajo de incidentes importantes son buenas formas de automatizar los procesos de la mesa de servicio para mejorar el tiempo de resolución y estructurar su proceso MIM.

  3. Esforzarse por una comunicación rápida y relevante

    Es importante mantener informados a la gerencia de su organización ya las partes interesadas importantes sobre cada incidente importante. Mantener a la administración informada ayudará a obtener las aprobaciones y los permisos necesarios para solucionar el incidente principal. La comunicación rápida garantiza que todo el personal de incidentes importantes esté en sintonía y permite una colaboración fluida y eficaz; también mantiene informados a los usuarios finales sobre cualquier posible tiempo de inactividad para que puedan prepararse.

  4. Crear documentación clara

    La documentación clara ayuda al administrador de incidentes mayores a registrar todo el trabajo realizado para solucionar el incidente mayor, su impacto, los servicios afectados y otra información clave sobre el incidente mayor. Esta documentación es importante para mostrar a la gerencia el beneficio de tener un proceso MIM, incluido su ROI. La documentación clara también ayudará con cualquier incidente importante similar en el futuro.

  5. Utilice integraciones profundas con el software ITOM

    Las sólidas integraciones con el software ITOM permiten que el departamento de TI maneje de manera proactiva los incidentes importantes. La identificación reactiva de incidentes importantes se basa en una afluencia de tickets para alertar de que se está produciendo un incidente importante. Por otro lado, un proceso de MIM proactivo que utiliza integraciones de ITOM tiene sistemas implementados para monitorear redes y servicios, y puede señalar automáticamente anomalías que podrían ser posibles incidentes importantes.

Aprenda a configurar su propio proceso de gestión de incidentes importantes de mejores prácticas

Principales métricas de gestión de incidentes y KPI

Cuando se trata de MIM, a continuación se presentan algunas métricas y KPI importantes para realizar un seguimiento.

KPI Fórmula Comentarios
Tiempo medio de resolución (MTTR) El tiempo promedio desde que se reporta un incidente mayor hasta que se resuelve. Esto indica qué tan rápido su mesa de servicio puede resolver incidentes importantes. Un MTTR más corto es una señal de que su MIT es eficaz y eficiente.
Tiempo medio de reconocimiento (MTTA) El tiempo promedio para responder a un incidente importante. Un MTTA más corto es una señal de que su mesa de servicio responde rápidamente a incidentes importantes.
Tiempo medio entre fallas (MTBF) El tiempo promedio entre fallas. Se calcula dividiendo el tiempo de actividad total por el número total de fallas. Esto indica el rendimiento de su infraestructura de TI. Un MTBF más alto es una señal de que su infraestructura de TI está funcionando bien.
Tiempo medio de detección (MTTD) El tiempo medio que se tarda en detectar incidentes o anomalías importantes. Esto mide la rapidez con la que se identifica un incidente importante. Un MTTD más pequeño es una señal de que la mesa de servicio es rápida para detectar incidentes importantes.
Porcentaje de aumento o disminución de incidentes importantes El porcentaje de aumento de problemas en los meses siguientes en relación con el primer mes. Esto le ayuda a identificar tendencias en la ocurrencia de incidentes importantes.

Escenario de incidente mayor

Ejemplos de incidentes importantes

Es importante recordar que no todos los incidentes de alta prioridad son incidentes importantes. Dado que el proceso MIM implica un compromiso considerable de recursos, como la implementación de un MIT separado, es importante clasificar cuidadosamente los incidentes principales.

Fuente:  https://blog.cloudflare.com/details-of-the-cloudflare-outage-on-july-2-2019/

La interrupción de Cloudflare de 2019 es un muy buen ejemplo de lo que define un incidente importante. En este caso, un procedimiento operativo estándar de actualización de una regla administrada para el firewall de aplicaciones web (WAF) aumentó el uso de CPU dedicadas a atender el tráfico HTTP/HTTPS a casi el 100 % en los servidores de la red de Cloudflare. La interrupción que siguió resultó en una reducción del 80 por ciento del tráfico de Cloudflare y afectó a millones de usuarios de Internet en todo el mundo.

Impacto: Grande

La interrupción provocó que los clientes de Cloudflare (y sus clientes) vieran una página de error 502 al visitar cualquier dominio de Cloudflare. Los errores 502 fueron generados por los servidores web front-end de Cloudflare que aún tenían núcleos de CPU disponibles pero no pudieron llegar a los procesos que atienden el tráfico HTTP/HTTPS. Se estima que al menos la mitad de Internet estuvo inaccesible durante los veintisiete minutos de inactividad.

Urgencia: Alta

Todos los sitios web de Cloudflare eran inaccesibles, lo que provocaba interrupciones en el servicio para miles de organizaciones y millones de usuarios. La interrupción también afectó las operaciones internas de Cloudflare, lo que impidió que los empleados de Cloudflare accedieran a varios servicios, como la herramienta de gestión de cambios de la empresa y el panel de control interno. El apagón tuvo que ser tratado para reanudar las operaciones normales del servicio.

Cronología de eventos desde la detección hasta la resolución:

La regla administrada WAF se implementó a las 13:42; tres minutos más tarde, las herramientas de operación de la red de Cloudflare comenzaron a señalar la caída del tráfico, muchas otras pruebas de extremo a extremo de los servicios de Cloudflare comenzaron a fallar, los usuarios finales notaron varios errores 502 y Cloudflare recibió muchos informes de agotamiento de la CPU de sus puntos de presencia en ciudades de todo el mundo.

El equipo de ingeniería de confiabilidad del sitio, el equipo de ingeniería de Londres y otros equipos relevantes se reunieron para solucionar problemas y encontrar una solución. A las 14:00 se identificó al WAF como causante del incidente. Y a las 14:07, se implementó una eliminación global de WAF para que los niveles de tráfico volvieran a la normalidad.

A las 14:52, Cloudflare estaba 100 % satisfecho de haber entendido la causa de la interrupción y tenía una solución, por lo que WAF se volvió a habilitar globalmente.

Glosario

Métricas y KPI de gestión de incidentes importantes

Cambio

La adición, modificación o eliminación de cualquier cosa que pueda tener un efecto directo o indirecto en los servicios.

Gestión del cambio

El proceso de llevar a cabo los cambios hasta su finalización con un mínimo de interrupciones y colisiones.

Escalada

El acto de transferir la propiedad de un boleto en función de una necesidad funcional o jerárquica.

Evento

Una ocurrencia que tiene importancia para la gestión de un servicio o activo.

Falla

Una ocurrencia en la que un servicio o activo no funciona de acuerdo con el SLA acordado.

Escalamiento jerárquico

El acto de transferir la propiedad verticalmente a un técnico de mesa de servicio de nivel superior o autoridad relevante.

Impacto

Una medida de la gravedad de un incidente.

Incidente

Una interrupción no planificada de un servicio de TI o una reducción en la calidad de un servicio de TI. La falla de un elemento de configuración, incluso si aún no ha afectado a un servicio, también es un incidente (por ejemplo, la falla de un disco de un conjunto de espejos).

Administracion de incidentes

El proceso de gestión del ciclo de vida de todos los incidentes para restaurar las operaciones de servicio normales lo más rápido posible y minimizar el impacto comercial.

Priorización de incidentes

Asignación de prioridades a los incidentes y definición de lo que constituye un incidente mayor.

incidente importante

Un incidente que tiene un alto impacto y una gran urgencia, que requiere un proceso separado de la gestión de incidentes.

Gestor de incidentes mayores

La persona responsable del MIT y la implementación del proceso MIM.

Tiempo medio de reconocimiento (MTTA)

Una medida de la rapidez con la que la mesa de servicio reconoce un incidente.

Tiempo medio de detección (MTTD)

Una medida de la rapidez con la que se detecta una amenaza potencial para un servicio o elemento de configuración.

Tiempo medio entre fallos (MTBF)

Una medida de la frecuencia con la que falla un servicio o activo.

Tiempo medio para reparar/resolver/responder/recuperar (MTTR)

Una medida de la rapidez con la que se restaura un servicio después de una falla.

Operación de servicio normal

Una operación de servicio que se adhiere al acuerdo de nivel de servicio (SLA).

Problema

Una causa o posible causa de uno o más incidentes.

matriz RACI

Define los roles y responsabilidades en proyectos y procesos interfuncionales o departamentales.

Servicio de mesa

El punto de comunicación entre los proveedores de servicios y los usuarios de la organización.

gerente de la mesa de servicio

El que supervisa las actividades diarias de la mesa de servicio y es responsable de su desempeño.

Objetivo de nivel de servicio (SLO)

Define el objetivo de los proveedores de servicios y es un medio para medir su desempeño.

ANS

Un acuerdo entre el proveedor de servicios y el cliente sobre el nivel esperado de servicio y el tiempo esperado en el que se entrega.

Urgencia

Una medida de la rapidez con la que se debe resolver un incidente.

Kit de implementación de gestión de incidentes mayores

Un paquete exclusivo de una lista de verificación de funciones y presentaciones de gestión de incidentes.

  • Lista de verificación de características

    Lista completa de características imprescindibles que puede usar como punto de referencia para su mesa de servicio de TI.

  • Mejores prácticas

    Presentaciones detalladas con casos de uso específicos para comenzar con la gestión de incidentes.

Al hacer clic en ' Obtenga el kit de implementación GRATIS ', acepta el procesamiento de datos personales de acuerdo con la  Política de privacidad .