MONITORIZACIÓN DE LA DISPONIBILIDAD
Enviado por eddamaro • 8 de Noviembre de 2012 • 1.342 Palabras (6 Páginas) • 638 Visitas
MONITORIZACIÓN DE LA DISPONIBILIDAD
La monitorización de la disponibilidad del servicio y la elaboración de los informes correspondientes son dos de las principales actividades de la Gestión de la Disponibilidad.
Desde el momento de la interrupción del servicio hasta su restitución o "tiempo de parada" el incidente pasa por distintas fases que deben ser analizadas por separado:
• Tiempo de detección: es el tiempo que transcurre desde que ocurre el fallo hasta que la organización TI tiene constancia del mismo.
• Tiempo de respuesta: es el tiempo que transcurre desde la detección del problema hasta que se realiza un registro y diagnóstico del incidente.
• Tiempo de reparación/recuperación: periodo de tiempo utilizado para reparar el fallo o encontrar un workaround o solución temporal al mismo y devolver el sistema a la situación anterior a la interrupción del servicio.
Es importante determinar métricas que permitan medir con precisión las diferentes fases del ciclo de vida de la interrupción del servicio. El cliente debe conocer estas métricas y dar su conformidad a las mismas para evitar malentendidos. En algunos casos es difícil determinar si el sistema está "caído o en funcionamiento" y la interpretación puede diferir entre proveedores y clientes, por lo tanto, estás métricas deben poder expresarse en términos que el cliente pueda entender.
Algunos de los parámetros que suele utilizar la Gestión de la Disponibilidad y que debe poner a disposición del cliente en los informes de disponibilidad correspondientes incluyen:
• Tiempo Medio de Parada (Downtime o (MTTR): que es el tiempo promedio de duración de una interrupción del servicio, e incluye el tiempo de detección, respuesta y resolución.
• Tiempo Medio entre Fallos (Uptime o MTBF): es el tiempo medio durante el cual el servicio está disponible sin interrupciones.
• Tiempo Medio entre Incidencias (MTBSI): es el tiempo medio transcurrido entre incidentes, que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.
• Tiempo medio para restaurar el servicio: [Mean Time to Restore Service (MTRS)] - El tiempo medio necesario para restaurar un elemento de configuración o de servicios de TI es necesaria después de un fracaso. Los MTRS es desde el momento de la falla de la CI o servicio de TI a la altura de la restauración completa de la función normal.
Métodos y Técnicas
Aunque llevamos hablando ya un buen rato de disponibilidad, aún no hemos aportado un método para cuantificarla.
Es habitual definir la disponibilidad en tanto por ciento de la siguiente manera:
Dónde:
AST se corresponde con el tiempo acordado de servicio, DT es el tiempo de interrupción del servicio durante las franjas horarias de disponibilidad acordadas.
Por ejemplo, si el servicio es 24/7 y en el último mes el sistema ha estado caído durante 4 horas por tareas de mantenimiento la disponibilidad real del servicio fue:
La Gestión de la Disponibilidad tiene a su disposición un buen número de métodos y técnicas que le permiten determinar qué factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever qué tipo de recursos se deben asignar para las labores de prevención, mantenimiento y recuperación, así como elaborar planes de mejora a partir de dichos análisis.
Entre dichas técnicas se cuentan:
Análisis del Impacto de Fallo de Componentes (CFIA)
El CFIA (siglas de Component Failure Impact Analysis) es un método mediante el cual se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuración involucrado. Es evidente que este método requiere una CMDB correctamente actualizada.
Análisis del Árbol de Fallos (FTA)
El FTA (siglas de Failure Tree Analysis) tiene como objetivo estudiar cómo se "propagan" los fallos a través de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.
Método de Gestión y Análisis de Riesgos de la CCTA (CRAMM)
El CRAMM (siglas de CCTA Risk Analysis and Management Method) tiene como objetivo identificar los riesgos y vulnerabilidades a los que está expuesta la infraestructura TI, con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rápidamente el servicio en caso de interrupción del mismo.
Análisis de Interrupción del Servicio (SOA)
El SOA (siglas de Service Outage Analysis) es una técnica cuyo
...