ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Inteligencia computacional


Enviado por   •  4 de Junio de 2021  •  Tarea  •  1.190 Palabras (5 Páginas)  •  147 Visitas

Página 1 de 5

INTELIGENCIA COMPUTACIONAL

U2 Tarea 01: Aprendizaje No Supervisado

Test 01

Análisis del Componente Principal (PCA):

¿A qué familia de algoritmos de reducción de dimensión recae el PCA?

  1. PCA es un ejemplo de algoritmo de reducción de dimensiones lineal.
  2. PCA es un ejemplo de algoritmo de reducción de dimensiones no lineal.

Test 02

Visitantes del espacio exterior

Se ha concluido que debe recurrir a la reducción de dimensiones debido a los recursos computacionales muy limitados que tiene disponibles para procesar su dataset con híper dimensiones. Y por la misma razón, cree que el algoritmo PCA es la mejor opción debido a su velocidad y simplicidad. Bueno. Pero, ¿verificó sus datos en busca de valores atípicos?  Veamos cómo podrían afectar esos resultados. Se ha cargado previamente un conjunto de datos tridimensional de 1000 muestras (X_raw), ligeramente "contaminado" con 5 valores atípicos (X_new), como se ve en la Figura 1 (Sgte diapositiva). En la Figura 2 puede ver que el impacto de estos valores atípicos (en rojo) es trivial y no crea ningún problema en la extracción de componentes principales reales.

Pero, ¿qué pasaría si estuvieran más lejos?

Si se añaden 5 valores atípicos con una distancia de 200 (outlier_distance)

Y se extraen los dos principales componentes del dataset contaminado X_new usando una función útil extract_components() Figura 3, 4 y 5

El primer componente principal ahora está completamente sesgado hacia los valores atípicos, pero ¿cómo pueden 5 valores atípicos superar las 1000 muestras normales?

Respuesta:

Los valores atípicos son muy distantes a los demás datos

Test 03

Número de la suerte K

Los principiantes en el aprendizaje automático a menudo tienen ideas muy optimistas de que el aprendizaje automático puede producir conocimientos asombrosos con poca o ninguna participación humana y toma de decisiones.

La verdad es que el rendimiento de sus algoritmos está fuertemente influenciado por parámetros que usted, como humano, define antes de que el modelo haya visto datos.

En el caso de la agrupación en clústeres, la mayoría de los algoritmos aún requieren que sea explícito sobre la cantidad de clústeres que está buscando. ¡Pero no todos!

¿Cuál de los siguientes algoritmos de agrupación determina la cantidad de agrupaciones por sí solo?

  1. K-means clustering determina el número de grupos por sí mismo
  2. Spectral clustering determina el número de grupos por si mismo
  3. DBSCAN determina el número de grupos por sí mismo

Test 04

Lectura del codo

Determinar el número correcto de clústeres o grupos es uno de los pasos más cruciales en el desarrollo de un modelo de clústeres.

En este ejercicio, aplicará la agrupación de K-medias y el "método del codo" para determinar el número correcto de agrupaciones presentes en el conjunto de datos en cuestión.

Los datos se cargan en la variable X y se le han proporcionado dos funciones para su conveniencia, plot_clusters() y plot_elbow_curve(), para facilitar el proceso de descubrimiento.

En la figura 01 se ha especificado el rango de números de grupos sobre los que escanear para producir la "curva de codo".

Según la curva y el diagrama de dispersión mostrados (Sgte diapositiva), ¿Cuál es el número más razonable de conglomerados en este conjunto de datos?

a) 3                b) 4                c) 5

Test 05

DBSCAN

DBSCAN es otro algoritmo de agrupación en clúster muy popular, que pertenece a los algoritmos basados en densidad.

Para los principiantes puede parecer muy atractivo porque no requiere definir de antemano el número de clústeres.

Pero no hay almuerzo gratis y confiar en DBSCAN para encontrar el número correcto de clústeres por sí solo puede ser una gran trampa.

Ilustremos esto jugando con el hiperparámetro eps de DBSCAN, que define la distancia máxima entre puntos dentro del mismo grupo.

[pic 1]

[pic 2]

[pic 3]

¿Qué sucedió en cada una de las asignaciones del hiperparámetro eps?

Conforme iba aumentando el eps se suman distancias agregadas que empieza como un punto central hasta expandirse por completo creando nuevos cluster.

¿Qué podría concluir de lo sucedido?

...

Descargar como (para miembros actualizados) txt (8 Kb) pdf (238 Kb) docx (160 Kb)
Leer 4 páginas más »
Disponible sólo en Clubensayos.com