ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Calidad de la información


Enviado por   •  14 de Noviembre de 2018  •  Reseña  •  1.745 Palabras (7 Páginas)  •  156 Visitas

Página 1 de 7

Introducción

“Para ser capaces de relacionar los problemas de la calidad de datos con su impacto en el negocio, tenemos que ser capaces de clasificar tanto nuestras expectativas de calidad de datos, así como los criterios de impacto en la empresa.”

David Loshin President of Knowledge Integrity, Inc.

Si nos detenemos a pensar un poco, el problema al que nos enfrentamos estos días (Integración de distintas fuentes, homologación y limpieza de datos) es el resultado de la evolución natural de los sistemas.

¿Qué sucedía el principio? Cuando se inició la revolución informática en el mundo, lo que ocurrió, es que salieron múltiples compañías ofreciendo sus soluciones propietarias, es decir, pensadas en solo solucionar un problema en específico (nominas, departamentos de finanzas, RH, etc.) y sin la visión de compartir la información con otros sistemas. Al pasar el tiempo se vio la necesidad de compartir la información de las diferentes fuentes con las que contaba una compañía.

[pic 1]

Figura 1


Para resolver este tema, la solución fue generar conectores entre los diferentes sistemas, lo cual funcionaba de una manera limitada ya que había que generar un conector por cada sistema con el cual se querían comunicar, provocando esto un difícil mantenimiento para soportar las diferentes comunicaciones entre sistemas.

[pic 2]

Figura II

Con esta conectividad nació el problema de comunicación entre los diferentes sistemas, es decir, como ya mencionamos, cada sistema tenía su propio formato para almacenar la información, por lo que, al interactuar con otros sistemas, los desarrolladores se vieron forzados a homologar y estandarizar dicha información por cada conector para poderla interpretarla y así se pudiera comunicar con las demás.

El siguiente paso en esta evolución fue buscar la manera de evitar múltiples conectores, buscando con esto la manera de tener todo centralizado dando como resultado un mantenimiento más fácil; así nació la integración de la información.


[pic 3]

Figura 3

Con esta integración también se logró la centralización de los procesos para limpieza y calidad de datos, dándole más forma y peso a estas tecnologías. Un buen ejemplo de esto son los DataWareHouse, en donde tenemos que integrar, homologar, estandarizar y limpiar la información (Data Quality) antes de poblar los modelos. Lo que nos lleva a nuestra siguiente pregunta.

¿Qué es la calidad de datos?

La calidad de datos se refiere a los procesos y técnicas enfocados a mejorar la eficacia de los datos existentes en nuestras bases de datos.

Para que un proceso de calidad de datos sea realmente eficaz, este deberá ser repetible y fácil de entender de manera que permita generar un proceso que se vuelva un ciclo de mejora y que cada vez que sea ejecutado genere datos con mayor calidad.

Este proceso deberá de incluir perfilamiento, normalización, correspondencia (match) y consolidación, los cuales generarán reportes para dar seguimiento a los progresos y permitir la mejora continua de la calidad de los datos.

Algunos de los beneficios de la calidad de datos son:


  • Ahorrar costos directos: evitando tener información duplicada.
  • Supervisar y limpiar de forma proactiva los datos de todas las aplicaciones, y mantener limpios esos datos.
  • Permitir al negocio compartir la responsabilidad de la calidad y del gobierno de datos.
  • Impulsar mejores resultados con unos datos empresariales fiables.

Proceso de la calidad de datos

Lo primero que necesitamos saber para implementar los procesos de limpieza y calidad de datos, es ¿Qué tan bien o mal están mis datos?, es decir, debemos de tener un punto de partida (métrica), que me indique el estado de los datos que estoy utilizando. Para lograr esto, se lleva a cabo un perfilamiento de los datos, el cual me indica cómo se encuentran estos y a partir de ahí, detectar que es lo que necesito corregir.

Para llevar a cabo estas correcciones, también debo de contar con unos parámetros de control que me ayuden a medir el avance en mis procesos de calidad. Estos parámetros son conocidos como, las seis dimensiones de calidad de datos.

Las seis dimensiones de la calidad de datos

Estas son consideradas como los puntos clave que debe de cubrir la calidad de los datos, para asegurar nuestros procesos de limpieza y calidad; dichos puntos se enumeran a continuación:

DIMENSIONES PARA LA CALIDAD DE DATOS

Completitud

En una tabla o conjunto de datos (dataset), ¿tenemos campos en blanco, o fueron llenados con valores por default? ¿Los datos son utilizables? En algunos casos, los datos que no están, son irrelevantes, pero cuando se

vuelven necesarios para un proceso del negocio, estos se vuelven críticos.

Conformidad

Los datos que están en los campos de la tabla, ¿están en un formato estándar y legible?

Consistencia

Al hacer el cruce de información con los registros, ¿existe información contradictoria?


DIMENSIONES PARA LA CALIDAD DE DATOS

Precisión / Exactitud

Si los datos no son precisos, estos no pueden ser utilizados. Para detectar si estos son precisos, se compara el dato con una fuente de referencia.

Duplicación

¿Tenemos la misma información en formatos iguales o similares dentro de la tabla?

Integridad

¿Toda la información relevante de un registro está presente de forma que se pueda utilizar?

...

Descargar como (para miembros actualizados) txt (13 Kb) pdf (180 Kb) docx (56 Kb)
Leer 6 páginas más »
Disponible sólo en Clubensayos.com