Datawarehouse
Enviado por scairer • 26 de Septiembre de 2013 • 2.113 Palabras (9 Páginas) • 374 Visitas
1 INTRODUCCIÓN Y MOTIVACIONES
1.1 Introducción
En el mundo de la información en el que vivimos hoy en día, la información es poder.
Actualmente las organizaciones poseen muchos datos pero frecuentemente carecen de
información. Estos datos adquieren la categoría de información cuando se analizan para
dotarlos de una estructura inteligente. En la actualidad, poseer un conocimiento basado
en información comprensible, detallada y relevante es crucial para lograr y sostener una
ventaja competitiva. Para transformar los datos y convertirlos en información y a su vez,
transformar ésta para convertirla en conocimiento, se utilizan distintas técnicas y
procesos. A todo este proceso se le denomina Business Intelligence y el data warehouse
es uno de sus grandes pilares.
Inmon, uno de los iniciadores de la teoría de data warehouse, definió en sus comienzos
un data warehouse como: “Una colección de datos orientada a un dominio, integrado,
no volátil y variable en el tiempo que ayuda en la toma de decisiones en una
organización” [Inmon92]. Esta definición sigue siendo válida hoy en día, y debido al
gran auge que han tenido estos sistemas podría completarse diciendo que: “Es un
conjunto integrado de bases de datos que se diseña y utiliza para apoyar en la toma de
decisiones y en él cada unidad de datos es relevante en algún instante de tiempo,
además, contiene información no sólo de bases de datos relacionales, sino de otras
fuentes relacionadas con la actividad de la organización y cuya finalidad no sólo se
centra en el almacenamiento de esos datos, sino en su análisis y procesamiento mediante
los procesos encargados de su gestión para la obtención de información estructurada y
en definitiva útil para la toma de decisiones” [Delgado99].
Uno de los problemas que ha suscitado mayor interés en los últimos tiempos para
adquirir información de negocio es el problema de categorización de consultas lanzadas
a los motores de búsqueda (search engines) de los sites. Dar solución a este problema
requiere por un lado un soporte de datos robusto y por otro lado disponer de procesos de
Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse
3
análisis de la información cargada y enriquecida en esa base de datos o data warehouse.
A este tipo de data warehouse que almacenan información relativa a la web se les
denomina webhouse.
Un data warehouse no es solo la base de datos de soporte sino que está formado por
distintos componentes conformando una arquitectura integrada y flexible. En términos
generales, son tres los componentes que conforman la arquitectura del data warehouse:
i) el proceso de extracción, transformación y carga de los datos necesarios en el data
warehouse denominado en inglés ETL (Extract, Transform and Load), ii) los procesos
de gestión de datos, encargados de almacenar y procesar los datos en el data warehouse
y iii) los servicios de consulta y acceso a la información almacenada.
Desde la aparición del data warehouse en los años 80 el volumen de datos y el nivel de
detalle almacenado ha ido aumentando de forma exponencial y continúa creciendo. Dos
son al menos los factores que han favorecido este aumento, por un lado el desarrollo de
la tecnología y por otro la automatización de los procesos en las organizaciones. Esto
hace que aumenten los datos operacionales asociados a dichos procesos y
consecuentemente los datos que se pueden analizar y almacenar en estas bases de datos.
El enfoque tradicional que asume que el analista de datos está presente en el proceso de
carga del data warehouse no siempre es válido. El análisis de grandes volúmenes de
información hace que sea inviable la presencia del factor humano durante el proceso de
carga, por lo que hace necesario automatizar en la medida de lo posible los procesos que
manejan datos. Para automatizar estos procesos los sistemas deben disponer del
conocimiento necesario. En el ámbito de Data Mining, donde el objetivo de esta técnica
es la extracción de patrones a partir de grandes cantidades de información, no siempre
es posible realizar un análisis en tiempo real por parte del analista. Un ejemplo de esto
es el análisis de los datos que se generan como consecuencia de la navegación a través
de páginas Web por parte de los usuarios. En muchos casos la interacción con el usuario
depende en cierta medida de realizar un correcto análisis de estos datos y éste debe ser
un proceso automático. Esto supone extraer un conocimiento que se utilizará para tomar
Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse
4
decisiones respecto a los usuarios en el sentido de mejorar el servicio ofrecido, por
ejemplo, personalizándolo a nivel individual. Este conocimiento debe estar de forma
explícita, generalmente en algún tipo de repositorio. En el ámbito de los sistemas de
ayuda a la decisión este repositorio se suele conocer por IKR de las siglas en inglés
Information Knowledge Repository. Además de esto, actualmente los sistemas son poco
flexibles e integrados lo cual dificulta su mantenimiento. En este tipo de sistemas, al no
estar bien definidas las necesidades de los usuarios es necesario contar con sistemas
flexibles que minimicen el impacto de un cambio en dichas necesidades.
Consecuentemente existen muchas aplicaciones y sistemas que demandan procesos de
ETL automáticos e inteligentes. Esta fase es fundamental para el éxito de este tipo de
sistemas por lo que sería deseable que los procesos ETL tuvieran suficiente información
sobre los procesos y datos que manejan de manera que fueran tolerantes a fallos,
pudiendo recuperarse de los mismos de forma autónoma. Para lograr esta
automatización es necesario mantener descripciones sobre los datos, es decir, datos
acerca de los datos, o lo que es lo mismo metadatos.
En concreto, en el ámbito de los data warehouse que soportan el análisis de las
consultas enviadas a un motor de búsqueda, debido al gran volumen de datos y a su
flujo continuo, es necesario automatizar y enriquecer el proceso de carga de datos en el
data warehouse.
Todo esto ha motivado el presente PFC en el que se pretende realizar un diseño del
catálogo
...