MINERÍA DE DATOS (DATA MINING
Enviado por Grexal • 8 de Marzo de 2013 • 2.492 Palabras (10 Páginas) • 622 Visitas
MINERIA DE DATOS (DATA MINING) Iván Tercero Talavera En el proceso de transformación de datos en información y luego en conocimiento, la Minería de Datos o Data Mining es una herramienta de vital importancia. Los datos, por sí solos, no nos ayudan mucho en la toma de decisiones, ni son explicativos, ni orientadores para la acción, pero ya convertidos en conocimiento el valor que adquieren se potencia de manera sustantiva.business intelligence Para iniciar la incursión en este tema, presento a continuación información extraída de la Lección Introductoria sobre Data Mining, and Knowledge Discovery, del Curso sobre Minería de Datos, de Kdnuggets y del Artículo Minería de Datos: Conceptos y Tendencias, de José C. Riquelme, Roberto Ruiz y Karina Gilbert, de la Universidad de Sevilla, Universidad Pablo de Olavide y Universidad Técnica de Cataluña, España, respectivamente. kdnuggetsMinería de Datos: Conceptos y Tendencias “Las tendencias tecnológicas actuales conducen inexorablemente a una inundación de datos. Se generan muchos datos de la banca, telecomunicaciones y otras transacciones de negocios. Más datos son generados de experimentos científicos en astronomía, exploraciones del espacio, biología, física de alta energía, etc. Más datos son creados en la Web, especialmente en textos, imágenes y otros formatos de multimedia. Por ejemplo, la Iterferometría de Muy Larga Base de Europa (VLBI) tiene 16 telescopios, cada uno
de los cuáles produce 1 Gigabyte/segundo (sí, por segundo!) de datos astronómicos por sesion de observación de 25 días. Esto, verdaderamente, genera una cantidad “astronómica” de datos. AT&T maneja tantas llamadas por día que no puede almacenar todos los datos – y el análisis de datos tiene que hacerse “al vuelo”. Un análisis de la UC Berkely hecho por los Profesores Peter Lyman y Hal R. Varian estimó que 5 exabytes (5 millones de terabytes) de datos nuevos se crearon en 2002. El doble de información se creó en el 2002 que en 1999 (~30% de tasa de crecimiento). Los EUA producen ~40% de datos nuevos almacenados en el mundo. Al 2003, de acuerdo a Winter Corp. Survey, Telecom de Francia tenía la base datos de apoyo a decisiones más grande, ~30 TB (terabytes); AT&T estaba en segundo lugar con una base datos de 26 TB. Algunas de las bases de datos más grandes en la Web, al 2003, incluían: * Alexa archivos de internet: 7 años de datos, 500 TB * Archivo de Internet ,~ 300 TB * Google, más de 4 mil millones de páginas, muchos, muchos TBEstas cantidades de datos crecen muy rápidamente y muy poco de ellas será alguna vez vista por un humano. Se necesita Descubrimiento del Conocimiento para hacer sentido y utilizar esos datos. ” data mining course ¿A QUE SE LE LLAMA MINERÍA DE DATOS? “Minería de datos es el proceso de extraer patrones de los datos. La Minería de Datos está convirtiéndose en una cada vez más importante herramienta para transformar estos datos en información. Comúnmente se utiliza en un amplio rango de perfiles de prácticas,
tales como mercadeo, vigilancia, detección de fraudes y descubrimientos científicos.wikipedia La Minería de Datos es uno de los campos más activos en las Ciencias de la Computación. A lo largo de esta era de la computación, los datos se han ido acumulando en muchas formas que incluyen sistemas de bases de datos, hojas de cálculo, archivos de texto y recientemente páginas Web. Estos datos se han almacenado en discos duros y en medios temporales de almacenamiento. Los programas de bases de datos pueden hacer búsquedas de información específica tales como “cuántos pacientes hay de edad mayor de 70,” pero hay potencialmente mucho más en los datos que tal información específica. El tesoro real podría ser algunos patrones nuevos e interesantes de los que incluso no sabemos qué deberíamos preguntar, por ejemplo, “el mejor predictor de la enfermedad de Alzheimer en pacientes mayores de 70 es la razón de las proteínas Tau y Ab42”. Los programas de Minería de Datos tratan de buscar en los datos relaciones ocultas en patrones en los datos. Esto es particularmente importante para las compañías de mercadeo que desean saber qué hace a un grupo específico de personas comprar sus productos. Esto también puede ser muy importante en los campos científicos tales como la medicina donde encontrar correlaciones en grupos de personas afectadas por una enfermedad similar podría ser muy útil. Se necesita Minería de Datos para encontrarle el sentido y utilizar los datos rápidamente crecientes y es un campo esencial en el siglo 21.introduction ¿CUÁNDO SURGIÓ,
CUÁLES SON SUS ORÍGENES? "El campo de Minería de Datos y Descubrimiento deConocimiento ha sido llamado con muchos nombres.En los 1960s, los estadísticos han utilizado los términos como “Pesca de Datos” o “Dragado de Datos” para referirse a lo que ellos consideraban como una mala práctica de analizar datos sin una hipótesis a priori. El término “Minería de Datos” apareció alrededor de 1990 en la comunidad de bases de datos. Brevemente, hubo una frase “minería de bases de datos” TM, pero fue una marca de fábrica de HNC (ahora parte de Fair, Isaac), y los investigadores pasaron a “minería de datos”. Otros términos usados incluyen Arqueología de Datos, Recolección de Información, Descubrimiento de Información, Extracción de Conocimiento, etc. Gregory Piatetsky-Shapiro acuñó el término “Descubrimiento del Conocimiento en Bases de Datos” para el primer taller sobre ese tópico (1989) y este término se volvió más popular en la Comunidad de Inteligencia Artificial y Aprendizaje Automático. Sin embargo, el término de Minería de Datos se volvió más popular en la comunidad de negocios y en la prensa. Para Enero de 2004, una búsqueda de Google para “data mining” encontraba más de 2,000,000 de páginas, mientras que una búsqueda para “knowledge discovery” encontraba únicamente 300,000 páginas. En 2003, “data mining” ha adquirido una mala imagen debido a su asociación conel programa del gobierno de EUA de TIA (Total information awareness). Encabezados periodísticos tales como “Senado mata el Programa de Data Mining”, ComputerWorld, Julio 18, 2003, que se
refieren a la decisión del Senado de los EUA de cerrar el TIA, muestran como mucho de la minería de datos se volvió asociada con TIA. Actualmente, Minería de Datos y Descubrimiento del Conocimiento son utilizados en forma intercambiada, y también utilizamos estos términos como sinónimos.”data mining notes ¿CUÁLES SON LAS TAREAS PRINCIPALES EN LA MINERÍA DE DATOS? “La Minería de Datos es sobre muchos tipos diferentes de patrones, y hay, en forma correspondiente, muchos tipos de tareas de Minería de Datos. Algunas de las más populares son: * Clasificación: predecir la clase de un ítem * Agrupación:
...