ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Tarea de inteligencia de negocios


Enviado por   •  22 de Abril de 2019  •  Informe  •  2.516 Palabras (11 Páginas)  •  175 Visitas

Página 1 de 11

SIDING

Actividad 1: Vecinos Cercanos

  1. Cuantos atributos tiene cada instancia de la base de datos:

58 atributos corresponden a cada instancia

  1. Cuantas y cuales son las clases distintas que hay

Son 2 clases, la clase 1 (spam) y la clase 0 (no spam)

  1. Cuantos registros pertenecen a cada clase

Spam 1813 y no spam 2788

  1. Por que se dice que la técnica de vecinos cercanos es lazy

Investigar

  1. Comente los resultados obtenidos en específico la matriz de confusión y la cantidad de correctamente clasificados

=== Summary ===

Correctly Classified Instances        4157               90.3499 %

Incorrectly Classified Instances       444                9.6501 %

Kappa statistic                          0.7971

Mean absolute error                      0.1355

Root mean squared error                  0.2778

Relative absolute error                 28.3796 %

Root relative squared error             56.8412 %

Total Number of Instances             4601    

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class

                 0.865     0.072      0.887     0.865     0.876      0.949    1

                 0.928     0.135      0.914     0.928     0.921      0.949    0

Weighted Avg.    0.903     0.11       0.903     0.903     0.903      0.949

=== Confusion Matrix ===

    a    b   <-- classified as

 1569  244 |    a = 1

  200 2588 |    b = 0

La matriz de confusión para esta configuración genera alrededor de 244 elementos mal clasificados para las instancias de no spam clasificadas como spam y 200 instancias clasificadas como spam siendo que no eran spam, generando un total de 4157 clasificaciones correctas que corresponden al 90.35% de correctitud

  1. Que numero de vecinos logra mejor rendimiento

K = 5

Correctly Classified Instances        4157               90.3499 %

Incorrectly Classified Instances       444                9.6501 %

Con K = 1

Correctly Classified Instances        4176               90.7629 %

Incorrectly Classified Instances       425                9.2371 %

=== Confusion Matrix ===

    a    b   <-- classified as

 1592  221 |    a = 1

  204 2584 |    b = 0

Con K=2

Correctly Classified Instances        4095               89.0024 %

Incorrectly Classified Instances       506               10.9976 %

Con K = 4

Correctly Classified Instances        4111               89.3501 %

Incorrectly Classified Instances       490               10.6499 %

Con K = 6

Correctly Classified Instances        4136               89.8935 %

Incorrectly Classified Instances       465               10.1065 %

Con K = 8

Correctly Classified Instances        4127               89.6979 %

Incorrectly Classified Instances       474               10.3021 %

Con K = 10

Correctly Classified Instances        4135               89.8718 %

Incorrectly Classified Instances       466               10.1282 %

Con K = 20

Correctly Classified Instances        4081               88.6981 %

Incorrectly Classified Instances       520               11.3019 %

Con K= 4000

Correctly Classified Instances        2788               60.5955 %

Incorrectly Classified Instances      1813               39.4045 %

[pic 1]

Con K igual a 1 se obtiene el mejor resultado del algoritmo, el cual la clasificacion es de 425 mal configurados y viendo la evolución si bien tiene algunos comportamientos positivos con algunos K entre medio, la tendencia es a la baja, caso exagerado es el K = 4000 donde nos da un rendimiento de clasificación del 60 % app

Pero considerando la robustez en futuras aplicaciones es bueno considerar el K = 5 como algo más robusto puesto que tiene más datos con los cuales sopesar la clasificación.

  1. Existe alguna relación entre el crecimiento del número de vecinos y el rendimiento del algoritmo?, justifique la respuesta

Si, efectivamente como se muestra en el gráfico anterior el mejor resultado da cuando el número de vecinos es 1 a medida que se va aumentando el numero de vecinos se muestra una leve tendencia a generar pero porcentaje de acierto por lo que si consideramos la tendencia esta seria a la baja.

  1. Que numero de vecinos entrega mejores resultados

K = 1

Correctly Classified Instances        4176               90.7629 %

Incorrectly Classified Instances       425                9.2371 %

K = 2

Correctly Classified Instances        4172               90.6759 %

Incorrectly Classified Instances       429                9.3241 %

K = 3

Correctly Classified Instances        4195               91.1758 %

Incorrectly Classified Instances       406                8.8242 %

K = 4

Correctly Classified Instances        4210               91.5018 %

Incorrectly Classified Instances       391                8.4982 %

K = 5

Correctly Classified Instances        4212               91.5453 %

Incorrectly Classified Instances       389                8.4547 %

K = 6

Correctly Classified Instances        4212               91.5453 %

Incorrectly Classified Instances       389                8.4547 %

...

Descargar como (para miembros actualizados) txt (9 Kb) pdf (123 Kb) docx (49 Kb)
Leer 10 páginas más »
Disponible sólo en Clubensayos.com