INTRODUCCION AL ANALISIS CLUSTER
Enviado por casmoad • 23 de Agosto de 2012 • 4.900 Palabras (20 Páginas) • 590 Visitas
INTRODUCCIÓN AL ANÁLISIS CLUSTER
Planteamiento general
Criterios basados en distancias como indicadores de disimilaridad DISTANCIA EUCLIDEA DISTANCIA EUCLIDEA NORMALIZADA DISTANCIA DE MAHALANOBIS OTRAS DISTANCIAS Criterios basados en similaridades. Medidas de similaridad
Medidas de similitud y distancia entre grupos DISTANCIA MINIMA (NEAREST NEIGHBOUR DISTANCE) DISTANCIA MAXIMA (FURTHEST NEIGHBOUR DISTANCE) DISTANCIA ENTRE CENTROIDES
Métodos de análisis cluster Métodos jerárquicos Método de la distancia mínima (nearest neighbour o single linkage) Método de la distancia máxima (furthest neighbour o complete linkage) Método de la media (u.p.g.m.a.) Método del centroide Método de la mediana Método de Ward Método flexible de Lance y Williams

ANÁLISIS CLUSTER
Planteamiento general
El análisis cluster es un conjunto de técnicas multivariantes utilizadas para clasificar a un conjunto de individuos en grupos homogéneos.
Pertenece, al igual que otras tipologías y que el análisis discriminante al conjunto de técnicas que tiene por objetivo la clasificación de los individuos. La diferencia fundamental entre el análisis cluster y el discriminante reside en que en el análisis cluster los grupos son desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el análisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qué medida las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o asignar los individuos en/a los grupos dados .
Así pues, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio.
Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto de individuos (de N elementos) caracterizados por la información de n variables Xj , (j = 1,2,..., n), nos planteamos el reto de ser capaces de clasificarlos de manera que los individuos pertenecientes a un grupo (cluster) (y siempre con respecto a la información disponible) sean tan similares entre sí como sea posible, siendo los distintos grupos entre ellos tan disimilares como sea posible.
Como puede comprenderse fácilmente el análisis cluster tiene una extraordinaria importancia en la investigación científica, en cualquier rama del saber. Téngase presente que la clasificación es uno de los objetivos fundamentales de la ciencia .Y en la medida en que el análisis cluster nos proporciona los medios técnicos para realizarla, se nos hará imprescindible en cualquier investigación.
Ya desde Linneo, las clasificaciones y taxonomías fueron piezas clave en las investigaciones biológicas, y, en consecuencia, no puede resultarnos extraño que haya sido en los entornos de este tipo de ciencias donde hayan surgido las técnicas del análisis cluster. Los trabajos de Sokal y Sneath , marcan el inicio de las técnicas de clusterización, que, poco a poco, han ido extendiendo sus aplicaciones a todos los ámbitos científicos.
Con el análisis cluster se pretende encontrar un conjunto de grupos a los que ir asignando los distintos individuos por algún criterio de homogeneidad. Por lo tanto, se hace imprescindible definir una medida de similitud o bien de divergencia para ir clasificando a los individuos en unos u otros grupos.
Además algunas consideraciones podrán tenerse en cuenta antes de comenzar el análisis:
Así, debemos plantearnos si vamos a comenzar la agrupación partiendo de algunos grupos ya establecidos o si, por el contrario, comenzaremos por considerar cada elemento individual como un cluster inicial que posteriormente iremos agrupando hasta obtener los clusters finales: Deberemos plantearnos la posibilidad de reasignaciones a lo largo del proceso. Igualmente deberemos establecer criterios para detener la agrupación y para llevarla a cabo.
Básicamente, el análisis constará de un algoritmo de clasificación que nos permitirá la obtención de una o varias particiones, de acuerdo con los criterios establecidos
El proceso completo puede estructurarse de acuerdo con el siguiente esquema:
Partimos de un conjunto de N individuos de los que se dispone de una información cifrada por un conjunto de n variables (una matriz de datos de N individuos ´ n variables) .
Establecemos un criterio de similaridad para poder determinar: Una matriz de similaridades que nos permita relacionar la semejanza de los individuos entre sí (matriz de N individuos x N individuos).
Escogemos un algoritmo de clasificación para determinar la estructura de agrupación de los individuos.
Especificamos esa estructura mediante diagramas arbóreos o dendogramas u otros gráficos.
Así pues, la clave de una buena clasificación pasará por :
a) Una buena selección de las variables que nos van a describir a los individuos. En este sentido un análisis de datos previo puede ser necesario o interesante. La posibilidad de combinar secuencialmente el análisis factorial y el análisis cluster, como se hará aquí, puede ser provechosa.
b) Poner buen cuidado en el criterio de similiaridad a utilizar.
c) Seleccionar adecuadamente el algoritmo de clasificación.
Así pues, en las siguientes páginas dedicaremos algún espacio a reseñar los criterios más importantes de similaridad y los principales métodos de análisis , centrándonos en los algoritmos de clasificación jerárquica ascendente más utilizados.
Criterios de similitud. Similitud, divergencia y distancia
Una vez hemos hecho una adecuada selección de las variables a considerar, cada uno de los individuos sujetos al análisis nos vendrá representado por los valores que tomen estas variables en cada uno de ellos. Este es el punto de partida de la clasificación. Para clasificar adecuadamente los individuos deberemos determinar lo similares o disimilares (divergentes) que son entre sí, en función de lo diferentes que resulten ser sus representaciones en el espacio de las variables.
Para medir lo similares ( o disimilares) que son los individuos
...