Mineria De Datos
Enviado por leiddy1 • 30 de Agosto de 2013 • 1.765 Palabras (8 Páginas) • 327 Visitas
MINERIA DE DATOS
Presentado a:
Henrry Lamos
Presentado por:
Natalia Andrea Ruiz Arias
Cod: U00016453
Diana Milena Vera Arias
Cod: U00016454
UNIVERSIDAD AUTONOMA DE BUCARAMANGA
BUCARAMANGA
2008
INTRODUCCION
La minería de datos es una actividad de extracción de información, cuyo objetivo o finalidad es el de descubrir hechos contenidos en las bases de datos, así mismo es un trabajo automatizado en la mayoría de los casos, entonces si existe la intervención de alguna persona a lo largo del proceso, este no es considerado como minería de datos. Lo que en verdad hace la minería de datos o data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. La minería de datos es de gran aplicación en el mercado ya que al proveer la información exacta y rápida de lo que se esta buscando, puede generar varias oportunidades de negocio, por otra parte, actualmente existen aplicaciones y herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto.
MARCO TEORICO
DEFINICIÓN
La minería de datos (Data Mining) consiste en la extracción de información que se encuentra de manera implícita en los datos. La cual era desconocida y podrá resultar útil para algún proceso. Así mismo, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.
CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOS
• Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
• En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
• El entorno de la minería de datos suele tener una arquitectura cliente servidor.
• Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados.
• El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadores de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.
• Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
• Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.
• Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.
• La minería de datos produce cinco tipos de información:
1. Asociaciones.
2. Secuencias.
3. Clasificaciones.
4. Agrupamientos.
5. Pronósticos.
PROCESO
Un proceso típico de minería de datos consta de los siguientes pasos generales:
• Selección y preprocesado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto".
Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles (mediante redondeo, clustering...).
• Selección de variables
Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
1. Aquellos basados en la elección de los mejores atributos del problema
2. Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos
• Extracción de conocimiento
Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
• Interpretación y evaluación
Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en ficheros de texto, en Internet, etc.
La
...