Datawarehouse

scairer26 de Septiembre de 2013

2.113 Palabras (9 Páginas)405 Visitas

Página 1 de 9

1 INTRODUCCIÓN Y MOTIVACIONES

1.1 Introducción

En el mundo de la información en el que vivimos hoy en día, la información es poder.

Actualmente las organizaciones poseen muchos datos pero frecuentemente carecen de

información. Estos datos adquieren la categoría de información cuando se analizan para

dotarlos de una estructura inteligente. En la actualidad, poseer un conocimiento basado

en información comprensible, detallada y relevante es crucial para lograr y sostener una

ventaja competitiva. Para transformar los datos y convertirlos en información y a su vez,

transformar ésta para convertirla en conocimiento, se utilizan distintas técnicas y

procesos. A todo este proceso se le denomina Business Intelligence y el data warehouse

es uno de sus grandes pilares.

Inmon, uno de los iniciadores de la teoría de data warehouse, definió en sus comienzos

un data warehouse como: “Una colección de datos orientada a un dominio, integrado,

no volátil y variable en el tiempo que ayuda en la toma de decisiones en una

organización” [Inmon92]. Esta definición sigue siendo válida hoy en día, y debido al

gran auge que han tenido estos sistemas podría completarse diciendo que: “Es un

conjunto integrado de bases de datos que se diseña y utiliza para apoyar en la toma de

decisiones y en él cada unidad de datos es relevante en algún instante de tiempo,

además, contiene información no sólo de bases de datos relacionales, sino de otras

fuentes relacionadas con la actividad de la organización y cuya finalidad no sólo se

centra en el almacenamiento de esos datos, sino en su análisis y procesamiento mediante

los procesos encargados de su gestión para la obtención de información estructurada y

en definitiva útil para la toma de decisiones” [Delgado99].

Uno de los problemas que ha suscitado mayor interés en los últimos tiempos para

adquirir información de negocio es el problema de categorización de consultas lanzadas

a los motores de búsqueda (search engines) de los sites. Dar solución a este problema

requiere por un lado un soporte de datos robusto y por otro lado disponer de procesos de

Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse

análisis de la información cargada y enriquecida en esa base de datos o data warehouse.

A este tipo de data warehouse que almacenan información relativa a la web se les

denomina webhouse.

Un data warehouse no es solo la base de datos de soporte sino que está formado por

distintos componentes conformando una arquitectura integrada y flexible. En términos

generales, son tres los componentes que conforman la arquitectura del data warehouse:

i) el proceso de extracción, transformación y carga de los datos necesarios en el data

warehouse denominado en inglés ETL (Extract, Transform and Load), ii) los procesos

de gestión de datos, encargados de almacenar y procesar los datos en el data warehouse

y iii) los servicios de consulta y acceso a la información almacenada.

Desde la aparición del data warehouse en los años 80 el volumen de datos y el nivel de

detalle almacenado ha ido aumentando de forma exponencial y continúa creciendo. Dos

son al menos los factores que han favorecido este aumento, por un lado el desarrollo de

la tecnología y por otro la automatización de los procesos en las organizaciones. Esto

hace que aumenten los datos operacionales asociados a dichos procesos y

consecuentemente los datos que se pueden analizar y almacenar en estas bases de datos.

El enfoque tradicional que asume que el analista de datos está presente en el proceso de

carga del data warehouse no siempre es válido. El análisis de grandes volúmenes de

información hace que sea inviable la presencia del factor humano durante el proceso de

carga, por lo que hace necesario automatizar en la medida de lo posible los procesos que

manejan datos. Para automatizar estos procesos los sistemas deben disponer del

conocimiento necesario. En el ámbito de Data Mining, donde el objetivo de esta técnica

es la extracción de patrones a partir de grandes cantidades de información, no siempre

es posible realizar un análisis en tiempo real por parte del analista. Un ejemplo de esto

es el análisis de los datos que se generan como consecuencia de la navegación a través

de páginas Web por parte de los usuarios. En muchos casos la interacción con el usuario

depende en cierta medida de realizar un correcto análisis de estos datos y éste debe ser

un proceso automático. Esto supone extraer un conocimiento que se utilizará para tomar

Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse

decisiones respecto a los usuarios en el sentido de mejorar el servicio ofrecido, por

ejemplo, personalizándolo a nivel individual. Este conocimiento debe estar de forma

explícita, generalmente en algún tipo de repositorio. En el ámbito de los sistemas de

ayuda a la decisión este repositorio se suele conocer por IKR de las siglas en inglés

Information Knowledge Repository. Además de esto, actualmente los sistemas son poco

flexibles e integrados lo cual dificulta su mantenimiento. En este tipo de sistemas, al no

estar bien definidas las necesidades de los usuarios es necesario contar con sistemas

flexibles que minimicen el impacto de un cambio en dichas necesidades.

Consecuentemente existen muchas aplicaciones y sistemas que demandan procesos de

ETL automáticos e inteligentes. Esta fase es fundamental para el éxito de este tipo de

sistemas por lo que sería deseable que los procesos ETL tuvieran suficiente información

sobre los procesos y datos que manejan de manera que fueran tolerantes a fallos,

pudiendo recuperarse de los mismos de forma autónoma. Para lograr esta

automatización es necesario mantener descripciones sobre los datos, es decir, datos

acerca de los datos, o lo que es lo mismo metadatos.

En concreto, en el ámbito de los data warehouse que soportan el análisis de las

consultas enviadas a un motor de búsqueda, debido al gran volumen de datos y a su

flujo continuo, es necesario automatizar y enriquecer el proceso de carga de datos en el

data warehouse.

Todo esto ha motivado el presente PFC en el que se pretende realizar un diseño del

catálogo de metadatos para la automatización del proceso de carga de un data

warehouse dirigido a la categorización de consultas enviadas a un motor de búsqueda.

1.2 Objetivos

El presente trabajo pretende realizar el diseño del catálogo de metadatos para la

automatización del proceso de carga de un data warehouse dirigido a la clasificación de

Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse

consultas de un search engine. Para alcanzar este objetivo, se plantean los siguientes

objetivos parciales:

Estudiar el diseño de un data warehouse, con el objetivo de conocer las

características de dichos sistemas.

Definir todas las fuentes de datos de entrada del data warehouse, como son los

logs de búsqueda y las bases de datos relacionales.

Definir los procesos de transformación y sus requisitos.

Diseñar los metadatos necesarios que soportan la automatización del proceso de

carga y formalizarlos en un modelo.

Implementar e integrar la solución en un caso real.

1.3 Organización

La organización del trabajo se ha estructurado en cinco capítulos.

En este primer capítulo, se ha introducido el problema, y se han establecido una serie de

objetivos parciales a cubrir.

El segundo capítulo realiza un estudio teórico de las cuestiones relevantes asociadas al

problema a resolver, centrándose especialmente en el data warehouse y sus

componentes, ya que éste supone una parte central del presente trabajo.

El tercer capítulo, introduce al lector en el planteamiento

...

Descargar como (para miembros actualizados) txt (15 Kb)

Leer 8 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com