El Hombre Y Sus Despojos

mcfee8 de Diciembre de 2012

683 Palabras (3 Páginas)474 Visitas

Página 1 de 3

Nunca se trata de si un disco va a fallar, sino de cuándo. Entonces, ¿qué hace cuando es despertado a las 2 de la mañana debido a errores en el sistema de archivos, LVM o SAN en un servidor de AIX de IBM? O, mejor aún, ¿cómo evita que lo despierten en primer lugar? Este artículo observa las estrategias para gestionar recursos de disco para maximizar la disponibilidad, el rendimiento y la redundancia y proporciona técnicas sobre cómo recuperarse de fallas cuando los buenos discos fallan.

Categorizando errores de disco

Yo uso dos áreas principales para categorizar errores de disco en sistemas de AIX: impacto y duración. El Impacto mide la potencia de los errores de disco y cómo afectan a los servidores. En otras palabras, "¿Qué tanto va a doler esto?" La Duración mide la duración del tiempo o la persistencia de los errores de disco más la recuperación— o, "¿Durante cuánto tiempo va a doler esto?"

El impacto puede ser segmentado en cuatro niveles principales:

Pérdida de disponibilidad - Una pérdida de disponibilidad ocurre cuando los recursos de almacenamiento se vuelven offline o son desconectados de sus servidores gestionados. Los datos en los discos no son comprometidos, pero los discos no pueden ser accedidos. Los ejemplos incluyen sistemas de archivos siendo desmontados o adaptadores de Canal de Fibra siendo desconectados.

Pérdida de datos - Los datos no pueden ser escritos o leídos en un disco debido a un problema lógico o físico. Los ejemplos incluyen errores de escritura de LVM.

Pérdida de datos en múltiples discos - En esta instancia, no es sólo un disco en el que se ha encontrado una pérdida de datos, sino un número de discos. Esta situación normalmente ocurre cuando volúmenes lógicos son fragmentados en discos y uno falla.

Pérdida de datos en múltiples servidores - Con el uso generalizado de la tecnología de SAN, es posible que una sola pieza de hardware de disco sea comprometida hasta el punto en que los servidores son afectados con una pérdida de datos.

La duración también puede ser segmentada en cuatro niveles principales:

Temporal - Este tipo de error de disco es el extraño, un hipo de una sola vez que no representa ninguna amenaza. Se muestra una vez en el recurso errpt del servidor y después se va. Los ejemplos incluyen una mala reasignación de bloqueo.

Intermitente - Los errores intermitentes se muestran con una base irregular y pueden ser un indicativo de un problema naciente, como cuando un disco duro registra una serie de errores de escritura, mostrando que la unidad puede fallar.

Regular - Como si fuera planificado por un trabajo de cron mismo, los problemas que ocurren con un intervalo semanal, diario, cada hora o minuto a minuto presentan un riesgo serio para los servidores y pueden tener efectos de detrimento generalizados.

Permanente - No hay una forma sencilla o factible para regresar de este tipo de error. Además de sustituir el hardware, no puede recuperarse de esta situación.

Al referencia estas dos medidas en una tabla, puede obtener una buena idea d qué tan crítico es el error de disco y cómo puede afectar al servidor. La Figura 1 proporciona un ejemplo de dicha tabla.

Figura 1. Impacto de referencia y duración de los errores de disco

La Figura 1 muestra una tabla de cuatro por cuatro. Las columnas representan la duración de un problema, incrementando en el tiempo de izquierda a derecha. Las filas representan el impacto de un problema, incrementando en la severidad del fondo a la parte superior. Las celdas en la tabla están coloreadas por código junto con el espectro, moviéndose de azul y verde en la parte inferior izquierda, indicando menos grados de problemas (como pérdida temporal de disponibilidad) a naranja y rojo en la esquina superior derecha (indicando

...

Descargar como (para miembros actualizados) txt (4 Kb)

Leer 2 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com