Laboratorio #4, Minería de datos.
Enviado por Kenneth Céspedes • 1 de Noviembre de 2016 • Tarea • 942 Palabras (4 Páginas) • 240 Visitas
Laboratorio #4, Minería de datos.
Ejercicio 1.
Modelo #1
[pic 1]
[pic 2]
Tipo de problema
Predictivo debido a que este busca predecir si la persona sobrevive o no.
Tarea de minería
Clasificación, debido a que lo que se desea predecir es si los pasajeros sobreviven o no (survival), y dicha variable es categórica.
Técnica utilizada para plantear el modelo.
Arboles de Decisión
Descripción del modelo generado.
A continuación, se muestra el árbol de decisión que muestra cuales son las personas sobrevivientes y cuáles no, esto utilizando todos los atributos para realizar la clasificación.
[pic 3]
Matriz de confusión
Se puede observar que en el árbol de decisión la exactitud es de un 76,40%. En cuanto a los valores reales, de los 212 datos de los no sobrevivientes el sistema predice correctamente 153, pero predice como si sobrevivientes 59, y es por eso que da una precisión de 72,17%. De los 55 pasajeros que realmente la base de conocimientos que realmente sobrevivieron, el sistema predijo 51 como sobrevivientes y 4 como no sobrevivientes y es por esto que la precisión es de 92,73%.
[pic 4]
Modelo #2.
[pic 5]
[pic 6]
Tipo de problema
Predictivo debido a que este busca predecir si la persona sobrevive o no.
Tarea de minería
Clasificación, debido a que lo que se desea predecir es si los pasajeros sobreviven o no (survival), y dicha variable es categórica.
Técnica utilizada para plantear el modelo.
Regresiones logísticas.
Descripción del modelo generado.
[pic 7]
Matriz de confusión
Se puede observar que, en la técnica de regresiones logísticas en cuanto a los valores reales, de los 267 datos de los no sobrevivientes el sistema predice correctamente 157, pero predice como si sobrevivientes 110, y es por eso que da una precisión de 58,80%, sin embargo, de los sobrevivientes no predice ninguno, por lo tanto, da un porcentaje de 0%.
[pic 8]
Comparación de los resultados de ambos modelos.
Según la opinión del grupo, es mejor el árbol de decisión ya que este permite que sea más sencillo observar los resultados y lograr ver el porcentaje de predicción de una forma más clara y detallada. Los resultados son distintos, sin embargo, una percepción muy clara del por qué.
Ejercicio 2.
Modelo #1.
Por medio de capturas de pantalla se presenta como se creó el primer modelo del ejercicio número dos. En la primera imagen se observa cómo se realiza la lectura de los datos por medio del “Read CSV” y se agrega la opción de “validation” para ejecutar el algoritmo y en la segunda imagen se observa como dentro del “validation” se dividen los datos en los conjuntos “training” y “testing”.
[pic 9]
[pic 10]
Tipo de problema
Descriptivo.
Tarea de minería.
Clustering.
Técnica utilizada para plantear el modelo.
Método de las k-means.
Descripción del modelo generado.
En este caso se agrupa de acuerdo a los montos gastados en productos por los clientes en tres diferentes regiones (Lisboa, Oporto y otros), en este caso representadas por el sistema como cluster_0, cluster_1, cluster_2.
Se puede apreciar, por ejemplo: que la leche (milk) tiene un gasto promedio de 3824.603 en la región “cluster_0”, de 6044.450 en la región “cluster_1”, y de 18511.450 en la región 18511.420.
[pic 11]
Matriz de confusión
En este caso no muestra una matriz de confusión, solamente muestra el total de clusters que fueron creados. Como se puede apreciar en la siguiente captura de pantalla.
...