ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Tratamiento de datos


Enviado por   •  5 de Julio de 2019  •  Trabajo  •  627 Palabras (3 Páginas)  •  81 Visitas

Página 1 de 3

 Análisis de componentes principales:

El primer estudio que voy a realizar es un análisis de componentes principales, que tal y como hemos visto en clase, tiene como objetivo reducir la dimensión de los datos para así poder simplificar el problema.

Una vez descargados los datos tal y como expliqué con anterioridad, realizo el Análisis de componentes principales con SPSS. Para ello, una vez situados los datos en la hoja, sigo los siguientes pasos Analizar –> Reducción de datos –> Análisis factorial.

Selecciono las variables para las cuales voy a realizar el estudio, en mi caso seleccioné todas y el país como variable de selección. Posteriormente, configuro todas las opciones para obtener los resultados deseados.

Destacar que debemos indicar en la ventana “Extracción” el Método: Componentes principales y que haga el análisis sobre la matriz de covarianzas (pues en caso contrario por defecto analiza la matriz de correlaciones).

Los resultados obtenidos, para dos factores, (para obtener los resultados de la forma más reducida y simple posible decidí hacerlo en dos dimensiones) son los siguientes:

[pic 1]

Esta primera tabla que obtenemos al ejecutar el análisis en SPSS nos proporciona bastante información sobre las componentes principales (sobre todo debemos estudiar la parte coloreada en verde).

La primera columna coloreada equivale a los valores propios (varianzas de las componentes principales). Podemos utilizar este valor para determinar el número de componentes principales, conservando las componentes principales con valores propios más grandes.

Por ejemplo, siguiendo el criterio de Kaiser utilizaríamos las componentes principales con valores propios mayores que uno.

En estos resultados las tres primeras componentes tienen valores propios mayores que 1. Estas tres componentes explican un 74,625% de la variabilidad de los datos.

La cuarta componente también tiene un valor propio cercano a uno y si la añadiéramos a las 3 componentes anteriores explicarían un 85,675% de la variación en los datos, por lo que también deberíamos tenerla en cuenta.

El 85,675% es una cantidad adecuada de variación explicada en los datos, así que, debemos utilizar las cuatro primeras componentes principales.

También podríamos interpretar los resultados gráficamente utilizando la gráfica de sedimentación la cual
muestra el número de  componentes principales en el eje X y  su valor propio correspondiente en eje Y, ordenando los valores propios desde el más grande hasta el más pequeño.
[pic 2]

Interpretando la gráfica, obtenemos unas conclusiones idénticas a las obtenidas interpretando la tabla.  Las cuatro primeras componentes forman, más o menos, una curva pronunciada seguidas de una inflexión y de una línea recta.  Estas 4 primeras componentes principales corresponden con las vistas anteriormente.

Con las dos primeras componentes principales, las cuales explican un 62,4% de la variación de los datos, vamos a realizar una representación bidimensional de los datos (posteriormente nos será útil para combinar con los Clusters):

[pic 3]

Matriz de componentea

Puro

Reescalado

Componente

Componente

1

2

1

2

Puntuación Z:  agricultura

-,978

,078

-,978

,078

Puntuación Z:  minería

-,002

,902

-,002

,902

Puntuación Z:  manufactura

,649

,518

,649

,518

Puntuación Z:  centrales de energía

,478

,381

,478

,381

Puntuación Z:  construcción

,607

,075

,607

,075

Puntuación Z:  servicios a empresas

,708

-,511

,708

-,511

Puntuación Z:  bancos

,139

-,662

,139

-,662

Puntuación Z:  sector servicios

,723

-,323

,723

-,323

Puntuación Z:  transporte y comunicaciones

,685

,296

,685

,296

Método de extracción: análisis de componentes principales.

a. 2 componentes extraídos.

[pic 4]

Resumen de procesamiento de casosa,b

Casos

Válido

Perdidos

Total

N

Porcentaje

N

Porcentaje

N

Porcentaje

26

100,0

0

,0

26

100,0

a.  Distancia euclídea al cuadrado utilizada

b. Enlace promedio (entre grupos)

LINKEAGE

[pic 5]

Vecino más lejano

[pic 6]

K medias

Clúster de pertenencia

Número del caso

país

Clúster

Distancia

1

Bel

2

1,352

2

Din

2

2,107

3

Fr

2

,801

4

Al.O

2

1,694

5

Ir

2

1,902

6

It

2

2,043

7

Lux

2

2,629

8

Hol

2

1,835

9

Uk

2

2,198

10

Aus

2

1,706

11

Fin

2

1,603

12

Gre

2

3,194

13

Nor

2

2,345

14

Por

2

1,974

15

Esp

2

3,170

16

Sue

2

1,917

17

Sui

2

2,199

18

Tur

3

,000

19

Bul

1

1,341

20

Che

1

1,058

21

Al.E

1

2,392

22

Hun

1

2,543

23

Pol

1

1,144

24

Rum

1

2,445

25

Rus

1

2,462

26

Yug

4

,000

...

Descargar como (para miembros actualizados) txt (6 Kb) pdf (341 Kb) docx (118 Kb)
Leer 2 páginas más »
Disponible sólo en Clubensayos.com