SÍNTESIS DE INTRODUCCIÓN A TOLERANCIA A FALLAS
Enviado por Job Alcalá • 9 de Enero de 2023 • Trabajo • 1.766 Palabras (8 Páginas) • 111 Visitas
[pic 1]
UNIVERSIDAD TECNOLÓGICA DEL PERÚ
(ACV-S08) Tarea calificada 1 - ECV
DOCENTE:
Pedro Hugo Valencia Morales
CURSO:
Sistemas Distribuidos
INTEGRANTES:
Lima, diciembre de 2021
SÍNTESIS DE INTRODUCCIÓN A TOLERANCIA A FALLAS
(pp.322-324)
Conceptos básicos
El significado de ser tolerante a una falla hace referencia al tema de la fiabilidad de sistemas. La fiabilidad está comprendida en varios requerimientos útiles para los sistemas distribuidos, como son los siguientes:
[pic 2]
A continuación, se detallará brevemente cada uno de los factores mencionados:
- Disponibilidad: Se dice que un sistema posee disponibilidad cuando éste tiene la capacidad de ser utilizado de manera inmediata por sus usuarios. Un sistema altamente disponible será aquel que funcione en un instante dado con una tasa de probabilidad muy alta.
- Ejemplo: En la nube de Amazon (AWS), una Región puede tener varias “Áreas de disponibilidad”, esto puede disminuir la probabilidad de cortes de servicios a menos de 1%, es decir, si el sistema en la nube se viene abajo por 1 milisegundo, se podrá decir que la disponibilidad del servicio es del 99,99999%, lo que significa que es un sistema altamente disponible.
- Confiabilidad: Se dice que un sistema es confiable cuando tiene la capacidad de funcionar de manera continua y sin presentar fallas. A diferencia de la disponibilidad (que se mide en un instante de tiempo), la confiabilidad se mide en un intervalo de tiempo.
- Ejemplo: Es importante detallar la diferencia entre la “Disponibilidad” y la “Confiabilidad”. Si un sistema sufre un corte de servicio, aunque sea mínimo (1 milisegundo), se puede decir que tiene una alta disponibilidad; sin embargo, se dirá también que dicho sistema no es confiable pues a fallado en dicho intervalo de tiempo. Por otra parte, si un sistema opera sin falla alguna entre los meses de enero a noviembre y es apagado el mes de diciembre, se puede decir que dicho sistema es confiable, pero posee una disponibilidad del 96% porque ha trabajado sin fallas en el intervalo de tiempo dado y no estuvo disponible 1 mes.
- Seguridad: Un sistema es seguro cuando se garantiza que nada catastrófico sucederá cuando dicho sistema ha dejado de funcionar durante un tiempo. Para llevar a cabo esto, son necesarios sistemas de control que puedan supervisar las posibles fallas del sistema principal con la finalidad de tomar acciones específicas.
- Ejemplo: Ante un ataque de ransomware, los archivos de los servidores en una empresa pueden verse comprometidos pues serán encriptados. Si un sistema externo está monitoreando el comportamiento de dicho servidor, tomará como medida la de aislar dicho servidor de la red para que el malware no se replique y, además, intentará proteger los archivos del sistema antes que se vean comprometidos.
- Mantenimiento: Hace referencia a la facilidad que tiene un sistema para ser reparado cuando ha fallado. El mantenimiento de un sistema está ligado a su disponibilidad, es por ello por lo que se dice que un sistema que es altamente mantenible también puede ser altamente disponible sobre todo si dicho sistema tiene la capacidad de detectar sus fallas y repararlas de forma automática.
- Ejemplo: Cuando se despliega un sistema en la nube de Amazon (AWS), se puede usar un servicio que permita que dicho sistema sea monitoreado constantemente y replicado en distintas regiones. Si el sistema falla en algún momento, la zona de disponibilidad donde el sistema aún no ha fallado entrará en servicio. Mientras tanto, el personal de mantenimiento atenderá la alerta y hará las correcciones pertinentes. De esta forma se mantiene la tasa de disponibilidad mientras el soporte encargado hace el mantenimiento respectivo.
Tolerancia a fallas
Una falla se da cuando un sistema no puede cumplir sus promesas o servicios para los cuales ha sido diseñado mientras que un error es una parte del estado de un sistema que puede conducir a una falla. Sin embargo, entre el error y la falla, existe un estado más que es el “defecto”:
- Error: Intervención humana que produce un defecto o una falla.
- Defecto (bug): Es una falla en potencia, es decir, necesita condiciones propicias para manifestarse.
- Falla: Desviación o comportamiento negativo observable.
[pic 3]
Cuando se habla de tolerancia a fallas es porque dicho sistema tiene la capacidad de proveer servicios incluso con las fallas presentes, es decir, que el sistema puede tolerarlas y seguir operando.
Las fallas pueden ser clasificadas de la siguiente forma:
- Transitorias
- Intermitentes
- Permanentes
A continuación, se detallará brevemente cada uno de los tipos de fallas:
- Fallas transitorias: Son aquellas que ocurren una vez y luego desaparecen, es decir que, si la operación se repite, dicha falla desaparece.
- Ejemplo: Si se está realizando una transmisión microondas y un cuerpo interfiere brevemente a través del haz de la señal de transmisión, el receptor de dicha señal verá alterada la información o incluso puede que no llegue; sin embargo, si dicha información vuelve a ser transmitida (después de que el objeto ha dejado de interferir), la señal llegará de manera íntegra.
- Fallas intermitentes: Son aquellas fallas que aparecen y desaparecen por sí solas de manera sucesiva. Este tipo de falla es difícil de diagnosticar y suelen provocar muchos problemas.
- Ejemplo: Un driver mal instalado en una computadora con sistema operativo Windows, puede causar que este se comporte de manera errónea (pantallas azules) de forma inesperada y luego de reiniciarse, se comporte de manera correcta. Dicho fallo, en realidad está siendo producido cuando el sistema hace uso de una función específica del driver. Para el técnico, detectar esta falla tan específica resulta difícil, por lo que a veces se toma la decisión de formatear todo el sistema operativo.
- Fallas permanentes: Son aquellas fallas que una vez que se producen, continúan hasta que el componente defectuoso es reparado o reemplazado.
- Ejemplo: En el sistema operativo Windows, existe una carpeta llamada “System32”. Si se borra o modifica por error un archivo de dicha carpeta, el sistema operativo empezará a fallar. Dicha falla seguirá presentándose hasta que el archivo sea restaurado a la versión original.
Modelos de fallas
Según Cristian (1991) y Hadzilacos y Toueg (1993) tenemos los siguientes tipos de falla:
- Falla de congelación
Se puede dar cuando un servidor que estuvo operativo se detiene prematuramente y no se sabe nada del servidor.
Ejemplo:
Un servidor de contabilidad se detiene y la única manera de solucionar es presionando el botón de reinicio. Ya que este no obedece al teclado y al mouse.
...