Tratamiento de datos
Enviado por anadpec • 5 de Julio de 2019 • Trabajo • 627 Palabras (3 Páginas) • 81 Visitas
Análisis de componentes principales:
El primer estudio que voy a realizar es un análisis de componentes principales, que tal y como hemos visto en clase, tiene como objetivo reducir la dimensión de los datos para así poder simplificar el problema.
Una vez descargados los datos tal y como expliqué con anterioridad, realizo el Análisis de componentes principales con SPSS. Para ello, una vez situados los datos en la hoja, sigo los siguientes pasos Analizar –> Reducción de datos –> Análisis factorial.
Selecciono las variables para las cuales voy a realizar el estudio, en mi caso seleccioné todas y el país como variable de selección. Posteriormente, configuro todas las opciones para obtener los resultados deseados.
Destacar que debemos indicar en la ventana “Extracción” el Método: Componentes principales y que haga el análisis sobre la matriz de covarianzas (pues en caso contrario por defecto analiza la matriz de correlaciones).
Los resultados obtenidos, para dos factores, (para obtener los resultados de la forma más reducida y simple posible decidí hacerlo en dos dimensiones) son los siguientes:
[pic 1]
Esta primera tabla que obtenemos al ejecutar el análisis en SPSS nos proporciona bastante información sobre las componentes principales (sobre todo debemos estudiar la parte coloreada en verde).
La primera columna coloreada equivale a los valores propios (varianzas de las componentes principales). Podemos utilizar este valor para determinar el número de componentes principales, conservando las componentes principales con valores propios más grandes.
Por ejemplo, siguiendo el criterio de Kaiser utilizaríamos las componentes principales con valores propios mayores que uno.
En estos resultados las tres primeras componentes tienen valores propios mayores que 1. Estas tres componentes explican un 74,625% de la variabilidad de los datos.
La cuarta componente también tiene un valor propio cercano a uno y si la añadiéramos a las 3 componentes anteriores explicarían un 85,675% de la variación en los datos, por lo que también deberíamos tenerla en cuenta.
El 85,675% es una cantidad adecuada de variación explicada en los datos, así que, debemos utilizar las cuatro primeras componentes principales.
También podríamos interpretar los resultados gráficamente utilizando la gráfica de sedimentación la cual muestra el número de componentes principales en el eje X y su valor propio correspondiente en eje Y, ordenando los valores propios desde el más grande hasta el más pequeño.
[pic 2]
Interpretando la gráfica, obtenemos unas conclusiones idénticas a las obtenidas interpretando la tabla. Las cuatro primeras componentes forman, más o menos, una curva pronunciada seguidas de una inflexión y de una línea recta. Estas 4 primeras componentes principales corresponden con las vistas anteriormente.
Con las dos primeras componentes principales, las cuales explican un 62,4% de la variación de los datos, vamos a realizar una representación bidimensional de los datos (posteriormente nos será útil para combinar con los Clusters):
[pic 3]
Matriz de componentea | ||||
Puro | Reescalado | |||
Componente | Componente | |||
1 | 2 | 1 | 2 | |
Puntuación Z: agricultura | -,978 | ,078 | -,978 | ,078 |
Puntuación Z: minería | -,002 | ,902 | -,002 | ,902 |
Puntuación Z: manufactura | ,649 | ,518 | ,649 | ,518 |
Puntuación Z: centrales de energía | ,478 | ,381 | ,478 | ,381 |
Puntuación Z: construcción | ,607 | ,075 | ,607 | ,075 |
Puntuación Z: servicios a empresas | ,708 | -,511 | ,708 | -,511 |
Puntuación Z: bancos | ,139 | -,662 | ,139 | -,662 |
Puntuación Z: sector servicios | ,723 | -,323 | ,723 | -,323 |
Puntuación Z: transporte y comunicaciones | ,685 | ,296 | ,685 | ,296 |
Método de extracción: análisis de componentes principales. | ||||
a. 2 componentes extraídos. |
[pic 4]
Resumen de procesamiento de casosa,b | |||||
Casos | |||||
Válido | Perdidos | Total | |||
N | Porcentaje | N | Porcentaje | N | Porcentaje |
26 | 100,0 | 0 | ,0 | 26 | 100,0 |
a. Distancia euclídea al cuadrado utilizada | |||||
b. Enlace promedio (entre grupos) |
LINKEAGE
[pic 5]
Vecino más lejano
[pic 6]
K medias
Clúster de pertenencia | |||
Número del caso | país | Clúster | Distancia |
1 | Bel | 2 | 1,352 |
2 | Din | 2 | 2,107 |
3 | Fr | 2 | ,801 |
4 | Al.O | 2 | 1,694 |
5 | Ir | 2 | 1,902 |
6 | It | 2 | 2,043 |
7 | Lux | 2 | 2,629 |
8 | Hol | 2 | 1,835 |
9 | Uk | 2 | 2,198 |
10 | Aus | 2 | 1,706 |
11 | Fin | 2 | 1,603 |
12 | Gre | 2 | 3,194 |
13 | Nor | 2 | 2,345 |
14 | Por | 2 | 1,974 |
15 | Esp | 2 | 3,170 |
16 | Sue | 2 | 1,917 |
17 | Sui | 2 | 2,199 |
18 | Tur | 3 | ,000 |
19 | Bul | 1 | 1,341 |
20 | Che | 1 | 1,058 |
21 | Al.E | 1 | 2,392 |
22 | Hun | 1 | 2,543 |
23 | Pol | 1 | 1,144 |
24 | Rum | 1 | 2,445 |
25 | Rus | 1 | 2,462 |
26 | Yug | 4 | ,000 |
...