ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Análisis de diferentes clasificadores

Mikel Gil FernándezApuntes6 de Octubre de 2018

495 Palabras (2 Páginas)129 Visitas

Página 1 de 2

Aprendizaje Formal y Sistemas de Ayuda a la Decisión

Análisis de diferentes clasificadores

15 de Junio de 2015

Mikel Gil Fernández

Introducción:

Realizaremos, sobre un mismo conjunto de datos una clasificación con diferentes métodos para estudiar y sacar conclusiones sobre cuáles se adaptan mejor.

El experimento, debido a su aleatoriedad, lo realizaremos 25 veces cada uno para obtener una media “fiable” de los 25 experimentos para cada método. Estas medias serán los valores de precisión de cada método que pondremos en la tabla.

        Los resultados de los 25 experimentos se pueden consultar al final del informe.

Presentación de los resultados:

Método

% Acierto Train

% Acierto Test

Diferencia

Regresión Logística

87,289

86,992

0,296

Regresión Logística + Regularización

85,453

85,240

0,212

Regresión Logística Polinomial

90,863

90,978

-0,114

Regresión Logística Polinomial + Regularización

91,132

90,087

1,045

Naïve Bayes

55,668

54,656

1,011

Redes Neuronales (2 Capas ocultas)

99,300

98,715

0,585

Redes Neuronales (5 Capas ocultas)

99,712

99,255

0,456

Redes Neuronales (10 Capas ocultas)

99,930

99,810

0,120

AdaBoost (3 Iteraciones)

92,382

91,781

0,601

AdaBoost (10 Iteraciones)

96,455

95,372

1,083

AdaBoost (20 Iteraciones)

99,060

97,970

1,089

AdaBoost (30 Iteraciones)

99,741

98,992

0,748

Discusión y análisis de los resultados:

En general no observamos grandes diferencias. Como es lógico, la “columna diferencia” (% Acierto train - % Acierto test) es, en su mayoría positivos. Es más fácil que acierte los ejemplos con los que ha entrenado.

El verdadero reto es enfrentarse a nuevos ejemplos y acertar habiendo entrenado con otros datos.

  • Regresión Logística:
  • Sin regularización vs Con regularización: En este caso no vemos mejorías, a priori utilizando regularización. Faltaría “jugar” con los valores lambda y alpha buscando la mejor relación %acierto Train / %acierto Test.
  • Añadiendo características polinomiales conseguimos una mejora en la frontera de decisión haciéndola más compleja y ajustada, pero no demasiado, ya que los aciertos en el test se mantienen parejos.
  • Polinomial Con Regularización: Vemos mejoría en aciertos en el train y un ligero descenso en los aciertos de test debido a la varianza adquirida por el pequeño sobre-aprendizaje dado por las nuevas características.

  • Redes Neuronales:
  • Añadiendo capas ocultas conseguimos una mayor complejidad en las matrices de peso que regulan la activación de la siguiente neurona. Por lo que la intuición en este caso acierta: A más capas, mayor precisión. Además conseguimos que no haya un bias y varianza alto, manteniendo los aciertos en train y test parejos.
  • Nótese que, a medida que aumentamos las capas ocultas, la diferencia entre los aciertos de train y test va disminuyendo y con ello el bias y varianza. Por lo que es un buen método para estos datos.
  • AdaBoost:
  • Conforme aumentamos iteraciones vamos acertando más ejemplos, tanto en train como en test.
  • En este caso hay un pequeño aumento en diferencia de aciertos respecto a, por ejemplo, el clasificador por Redes Neuronales, por lo que tiene un bias y varianza mayor.

Conclusión:

Para intentar mejorar nuestros resultados, podríamos “jugar” con las variables en nuestros métodos. Si se nos presentara un problema de sobre-aprendizaje (el modelo se ajusta en exceso a los datos de entrenamiento), podríamos quitar características. Si tuviéramos una varianza alta, podríamos añadir más ejemplos “importantes” o variar (aumentar) el valor de lambda propio de la regularización

[pic 1]

...

Descargar como (para miembros actualizados) txt (4 Kb) pdf (327 Kb) docx (49 Kb)
Leer 1 página más »
Disponible sólo en Clubensayos.com