Controles De Aplicación
Enviado por coneja2912 • 2 de Septiembre de 2013 • 6.620 Palabras (27 Páginas) • 333 Visitas
PRÓLOGO
El siguiente Manual pretende dar una visión general de las técnicas de análisis de
datos y de las aplicaciones que las implementan, permitiendo entender los conceptos y algoritmos sobre los que se basan las técnicas así como el resultado de su aplicación sobre diversas fuentes de ficheros.
Estos apuntes son una recolección de información de muy variadas fuentes,
Clases presenciales dictadas por el profesor en aula, páginas de intenet, artículos, etc...
De entre todas ellas cabe resaltar el trabajo fin de carrera de David Sánchez titulado “Data Mining mediante Sistemas Clasificadores Genéticos. Análisis comparativo con las técnicas clásicas implementadas en WEKA”, en la titulación de Ingeniería Informática (Julio 2003) donde se realiza un gran esfuerzo por explicar el funcionamiento interno de la herramienta WEKA y de dónde se ha extraído la información acerca de las clases y el código que implementa los algoritmos para estos apuntes. Así también resulta necesario resaltar la tesis doctoral de Félix Chamorro, ya que el capítulo 2 (el estado del arte) se pormenoriza todas las técnicas de análisis de datos y que ha sido utilizado para la elaboración de este Manual.
Espero que este Manual sea de gran utilidad para los alumnos que se
encuentren interesados por aprender acerca del análisis de datos y en particular para aquellos que tengan interés en aplicar los conocimientos teóricos en el campo de la práctica.
Índice
CAPÍTULO 1. INTRODUCCIÓN 1
1.1. KDD Y MINERÍA DE DATOS 1
1.1.2. EL PROCESO DE KDD 3
1.1.3. MINERÍA DE DATOS 5
1.1.4. TECNOLOGÍAS DE APOYO 6
1.1.5. ÁREAS DE APLICACIÓN 9
1.1.6. TENDENCIAS DE LA MINERÍA DE DATOS 13
1.2. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS 14
1.2.1. ARQUITECTURA, DISEÑO, Y ASPECTOS DE LA ADMINISTRACIÓN 14
1.2.2. DATA MINING Y FUNCIONES DE BASES DE DATOS 16
1.2.3. DATA WAREHOUSE 17
1.2.4. DATA WAREHOUSE Y DATA MINING 21
1.3. HERRAMIENTAS COMERCIALES DE ANÁLISIS DE DATOS 22
1.4. ARQUITECTURA SOFTWARE PARA DATA MINING 33
1.4.2. ARQUITECTURA FUNCIONAL 35
1.4.3. ARQUITECTURA DEL SISTEMA 36
1.4.4. EL DATA MINING EN LA ARQUITECTURA DEL SISTEMA 38
CAPÍTULO 2. ANÁLISIS ESTADÍSTICO MEDIANTE EXCEL 41
2.1. ANÁLISIS DE UNA VARIABLE.
ESTADÍSTICA DESCRIPTIVA E INFERENCIA 43
2.2. TÉCNICAS DE EVALUACIÓN DE HIPÓTESIS 57
2.2.1. ANÁLISIS DE RELACIONES ENTRE ATRIBUTOS 57
2.2.2. RELACIÓN ENTRE VARIABLES NOMINALES-NOMINALES 57
2.2.3. RELACIONES NUMÉRICAS-NOMINALES 59
2.2.3.1. Comparación de dos medias 60
2.2.3.2. Análisis de la varianza 61
2.2.4. RELACIONES NUMÉRICAS-NUMÉRICAS 64
2.2.4.1. Regresión lineal 64
2.2.5. EVALUACIÓN DEL MODELO DE REGRESIÓN 65
2.2.5.1. Medidas de Calidad 65
2.2.5.2. Test de Hipótesis sobre modelo de regresión 66
2.3. EJEMPLOS DE APLICACIÓN DE TÉCNICAS DE EVALUACIÓN DE
HIPÓTESIS 67
2.3.1. EJEMPLOS DE VALIDACIÓN DE HIPÓTESIS 67
2.4. TÉCNICAS CLÁSICAS DE CLASIFICACIÓN Y PREDICCIÓN 76
2.4.1. CLASIFICACIÓN BAYESIANA 80
2.4.2. REGRESIÓN LINEAL 90
CAPÍTULO 3. TÉCNICAS DE MINERÍA DE DATOS BASADAS
EN APRENDIZAJE AUTOMÁTICO 96
3.1. TÉCNICAS DE MINERÍA DE DATOS 96
3.2. CLUSTERING. (“SEGMENTACIÓN”) 98
3.2.1. CLUSTERING NUMÉRICO (K-MEDIAS) 99
3.2.2. CLUSTERING CONCEPTUAL (COBWEB) 100
3.2.3. CLUSTERING PROBABILÍSTICO (EM) 104
3.3. REGLAS DE ASOCIACIÓN 107
3.4. LA PREDICCIÓN 110
3.4.1. REGRESIÓN NO LINEAL. 110
3.4.2. ÁRBOLES DE PREDICCIÓN 111
3.4.3. ESTIMADOR DE NÚCLEOS 115
3.5. LA CLASIFICACIÓN 120
3.5.1. TABLA DE DECISIÓN 121
3.5.2. ÁRBOLES DE DECISIÓN 123
3.5.3. REGLAS DE CLASIFICACIÓN 135
3.5.4. CLASIFICACIÓN BAYESIANA 140
3.5.5. APRENDIZAJE BASADO EN EJEMPLARES 145
3.5.6. REDES DE NEURONAS 153
3.5.7. LÓGICA BORROSA (“FUZZY LOGIC”) 157
3.5.8. TÉCNICAS GENÉTICAS: ALGORITMOS GENÉTICOS
(“GENETIC ALGORITHMS”) 157
CAPÍTULO 4. TÉCNICAS DE ANÁLISIS DE DATOS
EN WEKA 159
INTRODUCCIÓN 159
PREPARACIÓN DE LOS DATOS 160
MUESTRA DE DATO 160
OBJETIVOS DEL ANÁLISIS 161
EJECUCIÓN DE WEKA 162
PREPROCESADO DE LOS DATOS 164
CARACTERÍSTICAS DE LOS ATRIBUTOS 165
TRABAJO CON FILTROS. PREPARACIÓN DE FICHEROS DE MUESTRA 167
Filtros de atributos 168
Filtros de instancias 172
VISUALIZACIÓN 173
REPRESENTACIÓN 2D DE LOS DATOS 173
FILTRADO “GRÁFICO” DE LOS DATOS 177
ASOCIACIÓN 178
AGRUPAMIENTO 183
AGRUPAMIENTO NUMÉRICO 184
AGRUPAMIENTO SIMBÓLICO 189
CLASIFICACIÓN 191
MODOS DE EVALUACIÓN DEL CLASIFICADOR 192
SELECCIÓN Y CONFIGURACIÓN DE CLASIFICADORES 195
PREDICCIÓN NUMÉRICA 203
APRENDIZAJE DEL MODELO Y APLICACIÓN A NUEVOS DATOS 209
SELECCIÓN DE ATRIBUTOS 211
CAPÍTULO 5. IMPLEMENTACIÓN DE LAS TÉCNICAS DE
ANÁLISIS DE DATOS EN WEKA 215
5.1. UTILIZACIÓN DE LAS CLASES DE WEKA EN PROGRAMAS
INDEPENDIENTES 215
5.2. TABLA DE DECISIÓN EN WEKA 215
5.3. ID3 EN WEKA 216
5.4. C4.5 EN WEKA (J48) 216
5.5. ÁRBOL DE DECISIÓN DE UN SOLO NIVEL EN WEKA 219
5.6. 1R EN WEKA 220
5.7. PRISM EN WEKA 221
5.8. PART EN WEKA 221
5.9. NAIVE BAYESIANO EN WEKA 222
5.10. VFI EN WEKA 223
5.11. KNN EN WEKA (IBK) 224
5.12. K* EN WEKA 226
...