LABORATORIO TÉCNICAS DE CLASIFICACIÓN
Enviado por DarwinChiluisa • 23 de Enero de 2023 • Documentos de Investigación • 554 Palabras (3 Páginas) • 64 Visitas
UNIVERSIDAD CENTRAL DEL ECUADOR
MAESTRIA EN BUSINESS INTELLIGENCE
[pic 1]
TRABAJO DE ANALITICA DE DATOS
INTEGRANTES DEL GRUPO:
CHILUISA DARWIN
ITURRALDE ISAAC
MORALES DANIEL
SOLÓRZANO CRISTIAN
TITULO:
LABORATORIO TÉCNICAS DE CLASIFICACIÓN
AÑO:
2022-2023
LABORATORIO TÉCNICAS DE CLASIFICACIÓN
8. En uno de los jardines infantiles de la ciudad se desea adquirir varios juguetes para que los pequeños desarrollen sus habilidades.
Específicamente, desean módulos de bloques para armar que incluyen diferentes formas y colores. En un módulo no se repiten elementos idénticos. Se ha observado que algunos módulos previamente adquiridos gozan de la preferencia de los niños mientras que otros no (Ver Anexos). Basado en esta información se desea predecir si los módulos A y B que se muestran a continuación le gustarán o no a los niños.
[pic 2]
- Tal cómo se ha formulado, indique y explique si el problema corresponde a un caso de aprendizaje supervisado o no supervisado.
SUPERVISADO, porque tenemos datos anteriormente tomados para analizar el caso, se conoce previamente que algunos niños tienen preferencia por ciertos juguetes.
- ¿Se trata de una tarea de regresión o clasificación? Explique su respuesta.
Clasificación, Porque queremos conocer que módulos tienen preferencia para los niños, y existen módulos que se repiten, módulos con diferentes formas, módulos con diferentes colores entonces el mejor método es la clasificación.
- Describa en una tabla cada atributo utilizado para codificar el problema:
Nombre del Atributo
COLOR, NÚMERO DE CARAS, MODULO y ACEPTACIÓN.
Tipo de Dato
NOMINAL, NOMINAL, NOMINAL, BOOLEANO
Posibles Valores.
AMARILLO, 3, MODULO A, SI
- Utilizando la implementación del algoritmo ID3 incluido en WEKA, obtenga un árbol de decisión que permita realizar la predicción.
[pic 3]
[pic 4]
[pic 5]
Cargamos nuestros datos, eliminamos la variable MODULO, esto dado que sobreajustaba al modelo y posteriormente ejecutamos el modelo ID3:
[pic 6]
[pic 7]
- Describa cada uno de los parámetros utilizados en sus experimentos (ej. Método de validación, etc.)
Se inicio usando todo el data set, y tenemos para el algoritmo ID3 las siguientes métricas:
[pic 8]
Posteriormente, se decidió trabajar con validación cruzada obteniendo lo siguiente:
[pic 9]
Además, evaluamos el modelo con un porcentaje de split del 10%, obteniendo:
[pic 10]
Para este caso, las mejores medidas las tenemos entrenando el modelo con todo el data set por lo cual mantendremos dicha tendencia.
- Pruebe con otros 3 algoritmos diferentes y compare sus resultados. Cree una tabla donde se muestren los resultados con cada uno de los algoritmos y sus respectivos errores al clasificar.
Se decidió que los otros 3 algoritmos que vamos a aplicar sean:
[pic 11]
- De los cuales tenemos como métricas de los modelos los siguientes resultados:
MODELO | Casos Correctos | Casos Error | Precision | Recall | F-Measure | MCC | ROC Area | PRC Area |
Id3 | 97 | 63 | 0.608 | 0.606 | 0.607 | 0.21 | 0.644 | 0.622 |
RandomForest | 97 | 63 | 0.604 | 0.606 | 0.602 | 0.202 | 0.643 | 0.621 |
REPTree | 97 | 63 | 0.604 | 0.606 | 0.602 | 0.202 | 0.635 | 0.608 |
LMT | 87 | 73 | 0.622 | 0.544 | 0.494 | 0.176 | 0.568 | 0.544 |
- Y sus respectivos errores:
MODELO | Mean absolute error | Root mean squared error | Relative absolute error | Root relative squared error |
Id3 | 0.4633 | 0.4813 | 93.1856 | 96.536 |
RandomForest | 0.4649 | 0.4821 | 93.494 | 96.6836 |
REPTree | 0.4678 | 0.4836 | 94.0779 | 96.9971 |
LMT | 0.4829 | 0.4908 | 97.1184 | 98.4439 |
...