Proyecto Semestral Curso: “Minería de datos”
Enviado por Jose Manuel Jerez Díaz • 5 de Julio de 2020 • Tarea • 1.769 Palabras (8 Páginas) • 88 Visitas
[pic 1]
Proyecto Semestral
Curso: “Minería de datos”
Profesores:
John Atkinson, Pablo Henriquez, Sebastián Moreno, Miguel Carrasco
Fecha Publicación: 21 de Agosto de 2019
Objetivo
El objetivo del proyecto completo es resolver un problema de minería de datos sobre un dataset real, utilizando técnicas básicas de minería de datos.
Descripción
El gobierno de un país mantiene la información de todos sus habitantes, a partir de la cual desea analizar los datos que han almacenado durante el último tiempo. Específicamente, se ha generado una muestra de 29.306 personas (dataset) y se desea investigar posibles patrones de comportamiento (los datos se encuentran en un único archivo llamado “data.csv”). Los datos consisten en 15 variables (e.g., dimensiones iniciales), que incluyen edad, estado civil, ocupación, etc.
A partir de lo anterior, se debe formar grupos de trabajo de 5 integrantes, que desarrollen métodos y análisis en base a tres entregables durante el semestre:
- Descripción y selección de variables.
- Análisis de clusters (clustering).
- Predicción de variable.
- Descripción y selección de variables
Objetivo:
El objetivo es entender conceptos básicos de las técnicas de selección de variables para un problema sencillo utilizando métodos y bibliotecas del lenguaje de programación Python.
Descripción:
La actividad consiste en obtener información preliminar relevante acerca de los datos proporcionados. Para esto, se pide realizar un informe que cubra las siguientes tareas:
- Descripción de datos: Describir cada una de las variables de los datos proporcionados, incluyendo el tipo de variable, su descripción, distribución (utilice una tabla ó gráfico, en caso de ser necesario), y algún otro aspecto relevante sobre la variable (30% de la nota final del entregable). Se evaluará el uso adecuado de los gráficos. Ud. deberá interpretar las variables que se proporcionan, salvo las siguientes cuyo significado no es evidente:
- fnlwgt: Valor asignado a una persona en base a distintos rasgos. Se espera que dentro de una misma región, personas con un mismo valor tengan un comportamiento similar.
- capital.gain: Dinero ganado en el último año por la compra de acciones, propiedades, u otros.
- capital.loss: Dinero perdido en el último año por la compra de acciones, propiedades, u otros.
- Exploración: Análisis preliminar de datos con técnicas de visualización y medidas de asociación entre variables. Esto podría incluir distribución de variables relevantes, relaciones entre variables, agregación de variables, propiedades de sub-poblaciones y análisis estadísticos simples.(Analisis estadistico) En este análisis inicial, se debe entregar las primeras observaciones de los datos (10%).
- Análisis de Calidad: Describir todo tipo de problema detectado con los datos, por ejemplo: datos incompletos, datos erróneos, frecuencia de los errores, etcétera (20%).
- Limpieza de datos: Reportar las soluciones tomadas para mejorar los problemas de calidad de datos detectados previamente, por ejemplo, eliminación de datos (20%).
- Selección de variables: Decidir en base a los aspectos anteriores, las variables y datos que se utilizarán en este proyecto, junto con su justificación (20%).
Este entregable consiste de DOS partes:
- Informe: Un reporte respondiendo a cada una de las preguntas requeridas.
- Archivo de texto:
- Asignación de cada integrante del grupo a un modelo de clustering (K-means, DBSCAN, Fuzzy C-means, Jerárquico). Caso contrario los modelos serán seleccionados en forma aleatoria.
- Asignación de cada integrante del grupo a un modelo predictivo (Regresión Logística, K-NN, Naive Bayes, árbol de decisión, SVM, ó modificar un algoritmo de clustering para predicción). Caso contrario los modelos serán seleccionados en forma aleatoria.
La fecha de entrega será el Domingo 08 de Septiembre a las 11:55 PM a través de Webcursos.
Análisis de clusters.
Objetivo:
El objetivo es entender los conceptos básicos de las técnicas de clustering para un problema sencillo de análisis de datos.
Descripción:
Se requiere determinar si existe algún tipo de agrupación particular en los datos previamente filtrados (entregable no. 1). Para esto, se pide un informe que describa las siguientes tareas:
- Describa en forma breve el modelo K-means para que lo entienda una persona sin conocimiento en el tema (20%). Seleccione y modifique, justificadamente, las variables pertinentes (20%), y determine el mejor número de clusters que se puede obtener utilizando el método K-means (30%). Además, analice los clusters generados y determine si existe alguno relevante (30%).
- Describa en forma breve el modelo DBSCAN para que lo entienda una persona sin conocimiento en el tema (20%). Seleccione y modifique, justificadamente, las variables pertinentes (20%), y determine un buen set de parámetros para aplicar el método DBSCAN (30%). Además, analice los clusters generados y determine si existe alguno relevante (30% de la nota).
- Describa en forma breve el modelo de clustering jerárquico aglomerativo (HAC), con alguna de las variaciones pertinentes, para que lo entienda una persona sin conocimiento en el tema (20%). Seleccione y modifique, justificadamente, las variables pertinentes (20%), y con diferentes medidas de distancia de link (simple, average, complete) y aplique HAC con la variación seleccionada. Analice el dendrograma y seleccione, justificadamente, un número pertinente de clusters (30%). Además, analice los clusters generados y determine si existe alguno relevante (30%).
- Describa en forma breve el modelo Fuzzy C-means (FCM) para que lo entienda una persona sin conocimiento en el tema (20%). Seleccione y modifique, justificadamente, las variables pertinentes (20%), y determine el mejor número de clusters que se puede obtener utilizando FCM (30%). Además, analice los clusters generados y determine si existe alguno relevante (30%).
- Dado todos los clusters generados en las preguntas previas, ¿Qué método recomendaría para el análisis de estos datos? ¿Qué información relevante detectó en los clusters generados?
Este entregable consiste de dos partes:
...