Cluster
Enviado por 47513227B • 24 de Septiembre de 2014 • Informe • 788 Palabras (4 Páginas) • 172 Visitas
Se desea encontrar patrones de comportamiento entre las distintas actividades de Hungría, en relación con las ratios PROD_EMP, VAB_EMP y CONS_PROD.
Para ello, se aplica la técnica multivariante del Análisis Cluster, con objeto de agrupar a dichas actividades en 5 conglomerados lo más homogéneas posible, atendiendo a la similitud en las ratios señaladas. En concreto, se pide resolver las siguientes cuestiones:
El Análisis cluster o de conglomerados es una técnica de análisis multivariantes de interdependencia. No distingue entre variables dependientes e independientes, sino que, dado un conjunto de variables analiza la información contenida en ellas para clasificar a los elementos según su similitud en conglomerados. Su finalidad es dividir un conjunto de objetos de forma que los perfiles de los objetos de un mismo grupo sean lo más similares posible entre sí (exista la menor distancia posible) y lo de los objetos de cluster diferentes sean distintos (exista la mayor distancia).
Se trata de un análisis meramente descriptivo, que no tiene bases estadísticas sobre las que se puedan deducir inferencias para la población a partir de una muestra.
En cluster existen dos tipos de procesamientos, los cuáles aplicaremos a lo largo del trabajo, se dominan:
Procesamiento jerárquico.
Procesamiento no-jerárquico.
1. DETERMINAR LA COMPOSICIÓN DE LOS 5 CONGLOMERADOS INDICADOS MEDIANTE LA APLICACIÓN DEL MÉTODO JERÁRQUICO DE VINCULACIÓN INTER-GRUPOS Y UTILIZANDO LA DISTANCIA EUCLÍDEA AL CUADRADO COMO MEDIDA DE PROXIMIDAD. MOSTRAR ASIMISMO GRÁFICAMENTE, A TRAVÉS DEL DENDOGRAMA, EL PROCESO DE FORMACIÓN DE ESTOS CONGLOMERADOS.
En primer lugar aplicaremos el procesamiento jerárquico. Este procesamiento intenta identificar grupos relativamente homogéneos basándose en las características que hemos seleccionado previamente, mediante un algoritmo que comienza con cada caso en un conglomerado diferente y combina éstos hasta solo quedar uno. Las medidas de clasificación y distancia a considerar se aplican según los datos considerados en el análisis. En nuestro caso utilizaremos "inter-grupos” que es un método de clasificación, (se basa en valores medios, la distancia entre 2 conglomerados se calcula tomando la media de las distancias entre cada elemento de uno y otro conglomerado los dos grupos que se encuentran a una menos distancia se funcionan para formar un nuevo cluster o conglomerado) y " distancia euclídea al cuadrado" que es un método de distancia.
Tenemos la opción de estandarizar las variables pero en este caso no es necesario porque dichas variables no hay que pasarlas a unidades adimensionales porque están expresadas en escala (opción de escala en vista de datos).
Existen dos tipos de conglomerados jerárquicos:
-El aglomerativo (un conglomerado distinto para cada observación, se van fusionando para alcanzar un único).
-El de divisas (conglomerado que engloba a todas las observaciones y se va subdividiendo hasta que cada observación pertenece a un cluster diferente).
En nuestro caso usaremos el aglomerativo.
Resumen del procesamiento de los casos
Casos
Válidos Perdidos Total
...