DATA MINING Y DATA WAREHOUSE
Enviado por random05 • 16 de Junio de 2015 • 3.716 Palabras (15 Páginas) • 238 Visitas
DATA MINING Y DATA WAREHOUSE
TECNOLOGIA OLAP (ON-LINE ANALYSIS PROCESING)
INTRODUCCIÓN
La explotación de sistemas DataWarehouse a través de datos obtenidos directamente de sistemas transaccionales, OLTP (On-line Transaction Processing), se basa fundamental y básicamente en estructuras agrupadas o información previamente pre-calculada y procesada. La información reportada está compuesta y gestionada desde conceptos basados en datos agregados y coeficientes de gestión, que los cuadros directivos de la organización pueden definir y consultar según las dimensiones de negocio que se definan o el área a la que pertenezca.
Implementar un sistema de business intelligence significa encontrar el punto de equilibrio entre dos extremos: implementación independiente de las unidades de la organización y la arquitectura de almacenamiento de datos definida por los IT departamentales. Por un lado los IT departamentales deben aceptar que el hecho de que ellos no puedan suministrar las visiones del usuario final con la premura requerida sin incorporar tecnología OLAP. Por otro lado los directivos deben aprender a reconocer el valor de tener un ‘repositorio común’ del que leer todos los indicadores y toda la terminología que cruza todos los datos de todos los departamentos. Únicamente un DataWarehouse puede proveer esta consistencia.
DEFINICION
El procesamiento analítico en línea (OLAP, Online Analytical Processing) es una tecnología que se usa para organizar grandes bases de datos empresariales y admitir la inteligencia empresarial. Las bases de datos OLAP se dividen en uno o más cubos. Cada cubo lo organiza y diseña un administrador de cubos para que se adapte a la forma en la que recupera y analiza los datos con el fin de que sea más fácil crear y usar los informes de las tablas dinámicas y los gráficos dinámicos que necesite.
CARACTERISTICAS
Los sistemas de soporte a la decisión usando tecnologías de DataWarehouse, se llaman sistemas OLAP (On Line Analytical Processing). En general, estos sistemas OLAP deben:
• Soportar requerimientos complejos de análisis
• Analizar datos desde diferentes perspectivas
• Soportar análisis complejos contra un volumen ingente de datos
La principal características de los sistemas OLAP es que son entornos especialmente diseñados para la ejecución de análisis multidimensionales de los datos corporativos, que soportan amigablemente los análisis de cualquier usuario así como las posibilidades de navegación, seleccionando la información a obtener, permitiendo el análisis de datos segmentados y que permiten ir reduciendo el conjunto de datos reportados.
Este tipo de selecciones se refleja en la visualización de la estructura multidimensional, mediante unos campos de selección que nos permitan elegir el nivel de agregación (jerarquía) de la dimensión, y/o la elección de un dato en concreto, pudiendo con ello realizar, entre otras, las acciones de rotar, bajar atributos, navegar, expandir o colapsar los datos mostrados
PRODUCTOS OLAP
Este es resumen de la historia de los productos OLAP
Año Evento
1962 Publication of A Programming Language by Ken Iverson
1984 Metaphor Launched
1990 Cagnos PowerPlay Launched
1992 Essbase Launched
1995 Oracle Acquired Express
2000 XML for Analysis Announced
2003 The year of consolidation
2005 Microsoft to ship the much-delayed SQL Server 2005
VENTAJAS
• Menos Tráfico de Datos y Latencia—Con Oracle OLAP ya no es necesario replicar los datos en un servidor autónomo OLAP de propiedad exclusiva, porque todos los datos multidimensionales se almacenan directamente en el motor relacional de Oracle Database. Quienes toman las decisiones disfrutan de un acceso mucho más rápido a información de mayor calidad.
• Menos Costos y Complejidad de TI—Oracle OLAP le permite reducir los costos y simplificar drásticamente su entorno informático. Con Oracle OLAP desaparece la necesidad de adquirir más hardware, sólo hay que mantener un único servidor y modelo de seguridad. Oracle OLAP también permite el acceso SQL a tipos de datos multidimensionales, lo que permite rentabilizar la inversión anterior en herramientas, aplicaciones y conocimientos de SQL.
• Análisis a Escala—Empresarial con Grid Computing—Simplemente proporcionar acceso a datos a los encargados de las decisiones no tiene sentido si los datos no están disponibles. Oracle OLAP y Oracle Real Applications Clusters combinados constituyen los cimientos de las grandes bases de datos multidimensionales (VLDM), que suministran acceso continuo a la información a miles de usuarios a la vez.
OPERACIONES EN OLAP
1. Vistas multidimensionales. Manejo y organización conceptual y física de la información en forma multidimensional.
2. Transparencia. Capacidad para acceder a datos de otras fuentes (por ejemplo planillas de cálculo), de manera sencilla y transparente.
3. Accesibilidad. Habilidad para obtener información completa y estructurada de fuentes externas de datos tales como bases de datos relacionales, archivos planos, etc.
4. Desempeño y consistencia. El número de dimensiones utilizadas en el sistema no debe degradar el desempeño del sistema, ni tampoco afectar la consistencia de la información.
5. Cliente/servidor. Las herramientas deben poder operar en ambientes cliente/servidor.
6. Dimensionalidad genérica. Cada dimensión deberá ser tratada de igual manera.
7. Uso eficiente del almacenamiento. Manejo eficiente de la porosidad (sparseness) de la base multidimensional, para ocupar la mínima cantidad de espacio. Por "porosidad" se entiende la manera en la que herramienta maneja el espacio requerido para almacenar la información multidimensional; este punto es muy importante ya que, debido a la estructura de los datos en las bases multidimensionales se cuenta con muchos "celdas" o campos vacíos. Un buen manejo de la porosidad implica que la herramienta es capaz de detectar las celdas vacías, y hacer eficiente el espacio que éstos requieren.
8. Soporte a múltiples usuarios. Permitir el acceso de múltiples usuarios al mismo tiempo al mismo modelo.
9. Operaciones entre dimensiones sin límite. Capacidad para realizar operaciones entre varias dimensiones sin ningún tipo de restricción.
10. Manipulación intuitiva de datos. Capacidad de navegación a través de
...