Mineria De Datos
Enviado por gmoarci • 3 de Marzo de 2014 • 1.024 Palabras (5 Páginas) • 486 Visitas
UNIVERSIDAD POLITÉCNICA DEL VALLE DEL ÉVORA
INGENIERÍA EN SISTEMAS COMPUTACIONALES
SEGURIDAD EN REDES
PREPROCESAMIETO DE DATOS
ALUMNO: J. GUILLERMO ARCINIEGA 120010054
GRUPO: SC71
DOCENTE: M.C. JUAN JAIME FUENTES URIARTE
LEOPOLDO SÁNCHEZ CELIS, ANGOSTURA SINALOA A MARZO DEL 2014
PREPROCESAMIETO DE DATOS
INDICE DE CONTENIDO
INTRODUCCIÓN 4
PREPARACIÓN DE DATOS 4
¿Por qué la importancia del Pre-procesamiento de datos? 5
¿Qué incluye la Preparación de Datos? 5
Distintos métodos de la preparación de datos 6
Limpieza de Datos 6
Integración de Datos 7
Transformación de Datos 7
Reducción de Datos 7
CONCLUSIÓN 11
REFERENCIA 11
INTRODUCCIÓN
Es común asociar el término Minería de datos a un conjunto de tablas que se relacionan entre sí, la finalidad en este caso es identificar cómo está interactuando esta información, mediante qué métodos, estrategias y técnicas en este campo.
En el presente se plantea básicamente los términos relacionados y asociados al pre-procesamiento de datos, así como a la preparación de datos y los distintos procesos que se presentan en estos.
PREPARACIÓN DE DATOS
D. Pyle, 1999, pp. 90:
“El propósito fundamental de la preparación de los datos es la manipulación y transformación de los datos sin refinar para que la información contenida en el conjunto de datos pueda ser descubierta o estar accesible de forma más fácil.” [2]
¿Por qué la importancia del Pre-procesamiento de datos?
La importancia del procesamiento se da por tres sencillas razones muy completas:
1. Los datos reales pueden ser impuros, pueden conducir a la extracción de patrones/reglas poco útiles. [3]
• Datos Incompletos: falta de valores de atributos.
• Datos con ruido
• Datos inconsistentes (incluyendo discrepancias)
2. La preparación de datos puede generar un conjunto de datos más pequeño que el original, lo cual puede mejorar la eficiencia del proceso de Minería de Datos. [3]
La reducción del tamaño del conjunto de datos se considera como la posible mejora de la eficiencia del proceso de Minería de Datos. [2]
o Selección de datos relevantes: eliminando registros duplicados, eliminando anomalías
o Reducción de Datos: Selección de características, muestreo o selección de instancias, discretización.
3. La preparación de datos genera “datos de calidad”, los cuales pueden conducir a patrones/reglas de calidad. [3]
• Recuperar información incompleta.
• Eliminar outliers
• Resolver conflicto
• Decisiones de calidad deben ser basadas en datos de calidad.
• Hecho: La preparación de datos (limpieza, transformación) puede llevar la mayor parte del tiempo de trabajo (hasta un 90%).
¿Qué incluye la Preparación de Datos?
“El Pre-procesamiento de Datos” / “La Preparación de Datos” engloba a todas aquellas técnicas de análisis de datos que permite mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento/minería de datos puedan obtener mayor y mejor información (mejor porcentaje de clasificación, reglas con más completitud, etc.). [3]
Distintos métodos de la preparación de datos
Es difícil dar una lista exacta de tareas o tópicos. Diferentes autores dan diferentes tareas y clasificaciones. Se pueden incluir las siguientes tareas o tópicos: [3]
• Limpieza de datos
• Integración de datos
• Transformación de datos
• Reducción de datos
• Entre otros
Limpieza de Datos
[2]
• Resuelve redundancias consecuencia de la integración
• Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers, etc.
• Resuelve inconsistencias/conflictos entre datos
Limpieza de Datos: Valores Perdidos
Existen muchos datos que no contienen todos los valores para las variables.
• Inferirlos
• Ignorarlos
• Ignorarlos: No usar los registros con valores perdidos
o Ventaja: Es una solución fácil
o Desventajas:
Perdida de mucha información disponible en esos registros
No es efectiva cuando el porcentaje de valores perdidos
...