Data Warehouse
Enviado por locojorge • 23 de Diciembre de 2013 • 2.412 Palabras (10 Páginas) • 414 Visitas
Componentes de un Data Warehouse.
Dos definiciones de DW
Bill Inmon's paradigm: Data warehouse is one part of the overall business intelligence system. An enterprise has one data warehouse, and data marts source their information from the data warehouse. In the data warehouse, information is stored in 3rd normal form.
Ralph Kimball's paradigm: Data warehouse is the conglomerate of all data marts within the enterprise. Information is always stored in the dimensional model.
¿Diferencia entre información y datos?
Dato: es un elemento aislado, recabado para un cierto fin, pero que no ha pasado por un proceso que lo interrelacione con otros.
Información: se trata de datos procesados y relacionados de manera que nos pueden dar pauta a la correcta toma de decisiones.
Para comprenderlo veamos el siguiente ejemplo:
+ Ejemplo: una empresa de investigación de mercados recaba los siguientes datos entre varios documentos de un posible cliente:
Banmundi, #38, Roberto Gutiérrez Barrios, Sur 73, 25 años, Sinfonatel, 345893457843, 6-12-89-74.
De este modo, cada dato por sí solo no nos dice nada, por ello tienen que pasar por un proceso (análisis, ordenamiento, agregado, etc.), el cuál le dé sentido a los datos anteriores:
+ Ejemplo:
Nombre: Roberto
Apellidos: Gutiérrez Barrios
Edad: 25 años
Dirección (calle y número): Sur 73, #38
Colonia: Sinfonatel
Teléfono: 6-12-89-74
Banco: Banmundi
Cuenta: 345893457843
Por lo tanto la diferencia radica en que la información se compone de datos que ya han sido procesados de algún modo para que tengan un sentido y un objetivo al momento de tomar decisiones.
Importante:
1. Los Data Warehouse no se pueden comprar, se tienen que construir.
2. Los Data Warehouse no son exclusivamente un almacén de datos.
Arquitectura de un datawarehouse
Los componentes en un DW:
Fuentes de información:
Las fuentes de información externas, son las fuentes de donde se extraerán los datos para generar la información como resultado de todo el proceso del DW, estas fuentes por lo general son bases de datos de sistemas operacionales que funcionan en la empresa en cuestión, o informes departamentales e incluso fuentes provistas por terceros, como pueden ser los estudios de mercado.
ETL: La extracción, transformación y carga de los datos.
La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran enbases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otrasestructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación.
Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la pauta o estructura que se esperaba. De no ser así los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto sea nulo o mínimo.
La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones:
• Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen).
• Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y “M” para Mujer pero el destino tiene que guardar “1″ para Hombre y “2″ para Mujer).
• Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1″).
• Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio).
• Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.).
• Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región).
• Generación de campos clave en el destino.
• Transponer o pivotar (girando múltiples columnas en filas o viceversa).
• Dividir una columna en varias (por ejemplo, columna “Nombre: García, Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”).
• La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera:
o Datos OK: Entregar datos a la siguiente etapa (Carga).
o Datos erróneos: Ejecutar políticas de tratamiento de excepciones (por ejemplo, rechazar el registro completo, dar al campo erróneo un valor nulo o un valor centinela).
El modelo de datos:
El modelo de datos en un Data Warehouse es la estructura sobre la que van a almacenarse los datos una vez realizados los procesos ETL sobre las fuentes externas. Este modelo es una consiste en una base de datos relacional, que por lo general, tiene dos enfoques de diseño, el modelo de tipo “estrella” o el modelo de tipo “copo de nieve”.
Estrella:
Tablas de hechos: aquello que se quiere medir o analizar.
Tablas de dimensiones: cómo se quiere medir.
Una tabla de hechos que contiene los datos sin redundancias.
Una sola tabla por dimensión.
La tabla de hechos tiene un atributo que corresponde a la clave de cada dimensión.
Cada tabla de dimensión es una tabla simple desnormalizada.
Copo de nueve.
Se normalizan las tablas de dimensiones:
...