Mineria De Datos
Enviado por ppbanana • 18 de Febrero de 2013 • 17.500 Palabras (70 Páginas) • 753 Visitas
Mineria de Datos
Vision general
Antes de entrar de lleno al tema de Mineria de datos(o Data Mining) tenemos que conocer el concepto de Data Warehouse que es la base para la minería de datos.
Las bases de datos de una empresa utilizan ordenadores como medio para organizar de forma ordenada sus datos o información deuna manera que sea comprensible para las personas ya que esta es un elemento principal para la toma de desiciones. Este proceso se llama Dara Warehousing. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos. El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario. La definición más conocida para el DW, fue propuesta por Bill Inmon en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”.Dentro del proceso Data Warehousin se encuentra la minería de datos.
La minería de datos es la extracción de información oculta en grandes volúmenes de datos .A continuación otras deficniciones:
"La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" según Usama Fayyad en 1996.
"Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" segun Luis Carlos Molina .
Un concepto mas concreto seria que Data Mining o mineria de datos es el análisis de archivos y bitácoras de transaciones,trabaja a nivel de conocimiento obtenedo con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepsiones utiles para la toma de decisiones.
La minería de datos revela patrones o asocioaciones que usualmente eran desconocidos, a esto le podemos llamar “Descubrimiento de Conocimiento” ,que tiene sus inicios en el Aprendizaje Automatico , Estadistica, Inteligencia Artificial, entre otros.
Antecedentes
Desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido.
En los ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de Data Mining. A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones.
Estructura
Técnicas de MD
Análisis Preliminar de datos usando Query tools: el primer paso en un proyecto de data mining sería siempre un análisis de los datos usando query tools, aplicando una consulta SQL a un conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las técnicas. La gran mayoría de la información (un 80 %) puede obtenerse con SQL. El 20 % restante, mas importante, la información oculta requiere técnicas avanzadas.
Este primer análisis en SQL es para saber cual es la distribución de los valores posibles de los atributos. Recién después podemos ver la performance del algoritmo correspondiente.
Técnicas de Visualización: estas son buenas para ubicar patrones en un conjunto de datos y puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad del conjunto de datos.
Árbol de Decisión: son estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Para poder predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa esto implica una predicción de que un cliente pertenece a cierto grupo de clientes. La complejidad es de n (Log n).
Métodos específicos de árboles de decisión incluyen:
- CART Árboles de clasificación y regresión: técnica usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que CHAID.
- CHAID Detección de interacción automática de Chi cuadrado: técnica similar a la anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones.
Reglas de Asociación: establece asociaciones en base a los perfiles de los clientes sobre los cuales se está realizando el data mining. Las reglas de Asociación están siempre definidas sobre atributos binarios. No es muy complicado generar reglas en grandes bases de datos. El problema es que tal algoritmo eventualmente puede dar información que no es relevante. Data Mining envuelve modelos para determinar patterns a partir de los datos observados. Los modelos juegan un rol de conocimiento inferido. Diciendo cuando el conocimiento representa conocimiento útil o no, esto es parte del proceso de extracción de conocimiento en bases de datos (Knowledge Discovery in Databases-KDD).
Algoritmos Genéticos: son técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.
Redes Bayesianas: buscan determinar relaciones causales que expliquen un fenómeno en base a los datos contenidos en una base de datos. Se han usado principalmente para realizar predicción.
Procesamiento Analítico en Línea (OLAP): estas herramientas ofrecen un mayor poder para revisar, graficar y visualizar información multidimensional, en características temporales, espaciales o propias. Se valen de lenguajes menos restringidos y estructurados como lo es SQL. Requieren todavía de una alta participación de un usuario humano, pues son interactivas y requieren la guía del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.
Método del vecino más cercano: una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de k registro/s más similar/es
...