Tarea de inteligencia de negocios
Enviado por Daniel Basaez • 22 de Abril de 2019 • Informe • 2.516 Palabras (11 Páginas) • 174 Visitas
SIDING
Actividad 1: Vecinos Cercanos
- Cuantos atributos tiene cada instancia de la base de datos:
58 atributos corresponden a cada instancia
- Cuantas y cuales son las clases distintas que hay
Son 2 clases, la clase 1 (spam) y la clase 0 (no spam)
- Cuantos registros pertenecen a cada clase
Spam 1813 y no spam 2788
- Por que se dice que la técnica de vecinos cercanos es lazy
Investigar
- Comente los resultados obtenidos en específico la matriz de confusión y la cantidad de correctamente clasificados
=== Summary ===
Correctly Classified Instances 4157 90.3499 %
Incorrectly Classified Instances 444 9.6501 %
Kappa statistic 0.7971
Mean absolute error 0.1355
Root mean squared error 0.2778
Relative absolute error 28.3796 %
Root relative squared error 56.8412 %
Total Number of Instances 4601
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.865 0.072 0.887 0.865 0.876 0.949 1
0.928 0.135 0.914 0.928 0.921 0.949 0
Weighted Avg. 0.903 0.11 0.903 0.903 0.903 0.949
=== Confusion Matrix ===
a b <-- classified as
1569 244 | a = 1
200 2588 | b = 0
La matriz de confusión para esta configuración genera alrededor de 244 elementos mal clasificados para las instancias de no spam clasificadas como spam y 200 instancias clasificadas como spam siendo que no eran spam, generando un total de 4157 clasificaciones correctas que corresponden al 90.35% de correctitud
- Que numero de vecinos logra mejor rendimiento
K = 5
Correctly Classified Instances 4157 90.3499 %
Incorrectly Classified Instances 444 9.6501 %
Con K = 1
Correctly Classified Instances 4176 90.7629 %
Incorrectly Classified Instances 425 9.2371 %
=== Confusion Matrix ===
a b <-- classified as
1592 221 | a = 1
204 2584 | b = 0
Con K=2
Correctly Classified Instances 4095 89.0024 %
Incorrectly Classified Instances 506 10.9976 %
Con K = 4
Correctly Classified Instances 4111 89.3501 %
Incorrectly Classified Instances 490 10.6499 %
Con K = 6
Correctly Classified Instances 4136 89.8935 %
Incorrectly Classified Instances 465 10.1065 %
Con K = 8
Correctly Classified Instances 4127 89.6979 %
Incorrectly Classified Instances 474 10.3021 %
Con K = 10
Correctly Classified Instances 4135 89.8718 %
Incorrectly Classified Instances 466 10.1282 %
Con K = 20
Correctly Classified Instances 4081 88.6981 %
Incorrectly Classified Instances 520 11.3019 %
Con K= 4000
Correctly Classified Instances 2788 60.5955 %
Incorrectly Classified Instances 1813 39.4045 %
[pic 1]
Con K igual a 1 se obtiene el mejor resultado del algoritmo, el cual la clasificacion es de 425 mal configurados y viendo la evolución si bien tiene algunos comportamientos positivos con algunos K entre medio, la tendencia es a la baja, caso exagerado es el K = 4000 donde nos da un rendimiento de clasificación del 60 % app
Pero considerando la robustez en futuras aplicaciones es bueno considerar el K = 5 como algo más robusto puesto que tiene más datos con los cuales sopesar la clasificación.
- Existe alguna relación entre el crecimiento del número de vecinos y el rendimiento del algoritmo?, justifique la respuesta
Si, efectivamente como se muestra en el gráfico anterior el mejor resultado da cuando el número de vecinos es 1 a medida que se va aumentando el numero de vecinos se muestra una leve tendencia a generar pero porcentaje de acierto por lo que si consideramos la tendencia esta seria a la baja.
- Que numero de vecinos entrega mejores resultados
K = 1
Correctly Classified Instances 4176 90.7629 %
Incorrectly Classified Instances 425 9.2371 %
K = 2
Correctly Classified Instances 4172 90.6759 %
Incorrectly Classified Instances 429 9.3241 %
K = 3
Correctly Classified Instances 4195 91.1758 %
Incorrectly Classified Instances 406 8.8242 %
K = 4
Correctly Classified Instances 4210 91.5018 %
Incorrectly Classified Instances 391 8.4982 %
K = 5
Correctly Classified Instances 4212 91.5453 %
Incorrectly Classified Instances 389 8.4547 %
K = 6
Correctly Classified Instances 4212 91.5453 %
Incorrectly Classified Instances 389 8.4547 %
...