Laboratorio: Árboles y random forest para regresión y clasificación
Enviado por David Andres Romero Arenas • 18 de Diciembre de 2022 • Trabajo • 910 Palabras (4 Páginas) • 97 Visitas
Asignatura | Datos del alumno | Fecha |
Aprendizaje Automático | Apellidos: | |
Nombre: |
Laboratorio: Árboles y random forest para regresión y clasificación
Objetivos
Mediante este laboratorio se pretende que aplique los conocimientos adquiridos en los temas de Árboles y Random forest trabajando con un conjunto de datos médico.
Descripción
El conjunto de datos con el cual vamos a trabajar se encuentra en el siguiente link:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names
https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv
En esta primera actividad se trata de familiarizarse con los pasos generales a realizar para generar un modelo de aprendizaje automático. Podemos resumir estos pasos en:
- Análisis descriptivo de los datos
- Tratamiento de valores faltantes o nulos
- Aplicación del algoritmo de aprendizaje automático
- Evaluación
Para ello, se deben seguir los pasos que indicamos a continuación.
Metodología
- Análisis descriptivo de los datos: Se adjunta un archivo .txt con la descripción de cada una de las columnas.
- Comentar de manera general qué se puede observar en la figura 1.
[pic 1]
Figura 1. Resumen del conjunto de datos
- En la figura 2 se pueden observar las estadísticas de las columnas numéricas. ¿Si se tienen 768 observaciones, a qué conclusiones podríamos llegar con estos datos? ¿Podríamos eliminar alguna variable?[pic 2]
Figura 2. Estadísticas de columnas numéricas.
- En la figura 3 se muestran los histogramas de cada una de las columnas. ¿Qué se puede decir de la distribución de las variables?
[pic 3]
Figura 3. Histogramas de cada columna del conjunto de datos.
- En la figura 3 tenemos el mapa de calor de la matriz de correlaciones, por favor revise cuáles son las variables que mayor correlación tienen y si se puede eliminar alguna columna con base en este mapa de calor. Justifique su respuesta:
[pic 4] [pic 5]
Figura 4. Matriz de correlación
- Tratamiento de valores faltantes:
- en la figura 5 se puede observar que en este conjunto de datos no existen valores faltantes.
[pic 6]
Figura 5. Columnas con valores faltantes o NA.
En la figura 6 podemos ver que existen columnas con ceros. Puede comentar ¿Qué puede estar ocurriendo con este conjunto de datos?
[pic 7]
Figura 6. Cantidad de ceros por columna.
¿Puede completar la descripción de la Figura 7? ¿Qué acciones se realizan?
[pic 8]
Figura 7. ¿?
- Entrenamiento de algoritmos
- Al aplicar árboles de decisión y Random Forest con el dataframe en los que se eliminaron todas las filas con valores faltantes. Las métricas obtenidas a partir de la matriz de confusión se ven en las figuras 8 y 9:
[pic 9]
[pic 10]
Figura 8. Métricas obtenidas de árboles de decisión. Validación cruzada 5 folds.
[pic 11]
[pic 12]
Figura 9. Métricas obtenidas al aplicar Random Forest. Validación cruzada 5 folds.
Comente los resultados.
- Al aplicar árboles de decisión y Random Forest con el dataframe en los que se eliminaron columnas con un % de valores faltantes. Las métricas obtenidas a partir de la matriz de confusión se ven en las figuras 10 y 11:
[pic 13]
[pic 14]
...