En este módulo se familiarizará con herramientas y técnicas desarrolladas para dotar de sentido a los datos no estructurados
Enviado por katulor • 8 de Enero de 2023 • Informe • 3.025 Palabras (13 Páginas) • 271 Visitas
DESCRIPCIÓN GENERAL
Actualmente, casi todo en nuestras vidas puede cuantificarse con datos. Ya se trate de los resultados de motores de búsqueda, del uso de redes sociales, de rastreadores meteorológicos, de automóviles o de deportes, siempre se recopilan datos con el objetivo de mejorar nuestra calidad de vida. Pero ¿cómo se consiguen trasladar todos estos datos en bruto a una mejora del nivel de rendimiento?
¡Encontrará la respuesta en este módulo de introducción!
En este módulo se familiarizará con herramientas y técnicas desarrolladas para dotar de sentido a los datos no estructurados y descubrir patrones ocultos en ellos. En concreto, los temas principales que se tratarán son:
1. Aprendizaje supervisado y no supervisado, y las principales técnicas correspondientes a cada uno (clasificación y clusterización, respectivamente).
2. Una mirada en profundidad al algoritmo K-medias (K-Means en inglés).
3. Reducción de dimensionalidad y técnicas espectrales (clusterización en redes, ACP [análisis de componentes principales (PCA en inglés)], vectores propios, encajes y otras técnicas especiales de clusterización).
Stefanie Jegelka y Tamara Broderick impartirán este módulo. Ambas son parte del faculty del Department of Electrical Engineering & Computer Science de MIT y del Center for Statistics del Institute for Data Systems and Society de MIT. Sus especialidades laborales cubren sistemas de machine learning para datos comunicacionales, aprendizaje bayesiano no paramétrico y métodos para el aprendizaje no supervisado.
Metas
1. Comprender las múltiples técnicas que se utilizan para descubrir patrones en un conjunto de datos.
2. Conocer el momento en el que usar cada una de las técnicas anteriores, en función de la información que se tenga.
3. Entender claramente el algoritmo K-medias.
Objetivos
Al terminar el módulo, los participantes deberán ser capaces de conocer:
1. La diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado.
2. Cómo aplicar técnicas de clasificación y clusterización.
3. Cómo funciona el algoritmo K-medias y cómo implementarlo.
4. Qué son los modelos de pertenencia mixta y la asignación de atributos.
5. Qué es el análisis de componentes principales (ACP) y cómo calcularlo a través de los vectores propios.
6. Qué es el agrupamiento espectral y la modularidad, así como el término "encajes".
1.14 red de datos complejos
Recursos que entregan información de los datos o cuando k media no se puede usar.
Recordar que en clusterizacion los datos aparecen como puntos de datos.
Punto de datos= a vector de atributos
Es una secuencia de números que cada uno representa un atributo.
Ejemplo correo: el número es las vecs que aparece la palabra en el correo. Es por ello que se puede usar K medias.
Pero NO siempres es fácil. Ejemplos tales como
Los vectores de atributos traen ruido, info irrelevante muchas veces. O aveces no existen vectores.
Por lo tanto se pueden crear nuevos atributos
Ejemplo el dato puede contener muchas medicones, o sea cada punto de datos es un vector con muchos elementos. Si una persona fuese un punto de datos, las descripciones serian las variaciones de su genoma. Pueden ser muchas.
Otro ejemplo es en una colección de retratos o fotos de personas. Cada imagen es un punto de datos, descrito por cientos de pixeles. Algunos pixeles serán unos mas relevantes que otros.
Pregunta importantes en que difiere una imagen de otras imágenes. Incluso el nuemro de variaciones podría ser hasta menor que el número de pixeles. Decbdo a que los pixeles suelen variar en conjunto
Las variaciones de los usuarios se entienden mejor con patrones. Al descubrir los patrones se reduce la complejidad del dato, se aisla la tendencia, relevates se reduce ruido y los comprime etc.
En caso que o existan vectores ( ejemplo documental de monjes de los 60) y su relación de amistad…. Se puede usar k media? No se puede ya que existe vectores de atributos.
Solo se muestra quien se lleva bien con quien. Podemos armar un graf ( con puntos y líneas de relación). Las líneas son aristas, los monjes son nodos.
Crear nuevos atributos que represenytan puntos de datos, mostrando así la estructura subdyancente de los datos
1.15 Busqueda de los coponentes principales
EL método mas usado para encontrar patrones, es Análisis de componentes principales covara, se una cuando cada punto de datos contiene muchas mediciones y no todas son relevantes o exisitiese covarancia en las mediciones
ACP, describe los datos resumiéndolos en patrones típicos
Un ejemplo es la matriz de valorización que las personas dan a sus destinos de vacaciones.
Se determinan patrones, que son los principales componentes y a su vez son vectores.
Los patrones explicarían las valoraciones de las personas, el ACP encuentra el eje de mayor entre los datos. PATRONES, es cuando cada punto de dato se puede expresar como una combinación lineal de estos patrones o componentes
Otro ejemplo es tatar la imagen como vector
Eigen caras, son componentes ( ES LA MAGIA)
El coeficiente es importante para la compresión de la imagen y entender los espacios de los retratos.
Otro ejemplo Estudios generticos
Se puede saber el origen de una persona con su ADN?
Se describe Cada persona por su variación genética
Los componentes principales reúnen patrones relevantes y cada punto de dato s eexpresa a treves de estos componentes principales. Así se ha creado nuevos atributos. Habitualmente con algunos componentes basta. Si cada componente describe un atributo, se reduce el numero de atributos= REDUCCION de DIMENSIONALIDAD.
...