ANÁLISIS DE COMPONENTES PRINCIPALES
Enviado por joludico • 23 de Junio de 2016 • Trabajo • 2.839 Palabras (12 Páginas) • 530 Visitas
MÁSTER EN ECONOMÍA, FINANZAS Y COMPUTACIÓN
DATA MINING I. TRABAJO DE ANÁLISIS DE DATOS.
1.-INTRODUCCIÓN
En el presente trabajo lo que se pretende es analizar una base de datos sobre desarrollo económico y social extraída del Banco Mundial, sobre un conjunto de 52 países de todo el mundo.
En la presente base de datos, contamos con 12 variables, por lo que la técnica a emplear, en primer lugar, será el análisis de componentes principales, a fin de extraer alguna conclusión sobre las principales variables a tener en cuenta de la base de datos.
El software utilizado para el análisis será Stata.
El procedimiento del trabajo, será ir dando pasos, e ir analizando los datos que nos devuelve el programa.
INICIO DEL PROCESO. CARGAR Y PREPARAR BASE DE DATOS EN STATA.
En primer lugar se abre STATA. Se importan los datos con la siguiente ruta:
Archivo/Importar datos/ Hoja de cálculo Excel.
Una vez tenemos estos datos, se renombran las variables, pues las de la base de datos original viene con etiquetas muy poco prácticas para trabajar. El procedimiento será introducir en la ventana de comandos de STATA:
Rename nombre_original nombre_nuevo
A continuación se guarda el archivo en la ruta que queramos con formato de base de datos de STATA .dta.
Una vez hecho ésto, abrimos el archivo .do y escribimos la siguiente secuencia de comandos para empezar a trabajar:
clear all
use "aquí se escribe la ruta donde está guardada nuestra base de datos .dta"
capture log close
log using "Aquí se escribe la ruta donde guardaremos nuestro archivo .smcl resultante de nuestro proceso, y que guardará todo lo que realice STATA especificado en su archivo .do", replace
Una vez hecho ésto, lo primero que haremos será una descripción de las variables y un summarize, que nos describa los principales estadísticos de las mismas.
Describe
[pic 1]
Summarize
[pic 2]
Con el comando describe, observamos que contamos con 13 variables y 52 observaciones pertenecientes a países de todo el mundo, relativas al desarrollo económico que pueden estar relacionadas entre sí, expresadas en algunos casos en porcentajes sobre el PIB, en otros, en valores brutos (como en el caso de la variable pib, que se refiere al pib expresado en dólares constantes), y en otros casos, en tantos por 1000 (variable TMor). Por ello, creo que es conveniente estandarizar todas las variables(restarles su media y dividirlas por la desv. Típica), y trabajar con las resultantes. La variable idC no se utilizará en el análisis, pues es una variable de cadena(identificación país) únicamente destinada a identificar cada una de las observaciones.
Para eso se introduce en STATA lo siguiente:
egen zTMor= std (TMor)
egen zIEP= std (IEP)
egen zAccA= std (AccA)
egen zpib= std (pib)
egen zVarPIB= std (VarPIB)
egen zagri= std (agri)
egen zind= std (ind)
egen zUInt= std (UInt)
egen zCO2= std (CO2)
egen zmerc= std (merc)
egen zelect= std (elect)
Se han creado una serie de variables estandarizadas con media 0 y desv. Típica 1.
Una vez hecho esto, podemos dibujar los gráficos de correlaciones entre variables, y la matriz de correlaciones, introduciendo en STATA lo siguiente: graph matrix zTMor zIEP zAccA zpib zVarPIB zInf zagri zind zUInt zCO2 zmerc zelect
[pic 3]
[pic 4]
Observando lo anterior, vemos que existen altas correlaciones entre ciertas variables. Por ejemplo, si observamos la matriz de correlaciones, vemos que existe una alta correlación inversa/negativa entre la tasa de mortalidad infantil y la de acceso al agua potaje(-0,9081), o por ejemplo si se observa la que relaciona la emisión de CO2 y el pib que es positiva de un 0.9706.
Sin embargo trabajar con 12 variables no es muy práctico, por lo que aplicaremos el ACP para quedarnos con las variables que mejor explican el conjunto de datos.
2.-ANÁLISIS DE COMPONENTES PRINCIPALES/ FACTORIAL. INTRODUCCIÓN TEÓRICA[1]
El principal objetivo del análisis de componentes principales es la reducción del número de variables explicativas. Junto con el Análisis factorial, representan dos alternativas estadísticas al mismo problema, las cuales se diferencian más por el procedimiento de cálculo que por los resultados que producen. Así, mientras el análisis de componentes principales transforma los datos, tomando como partida, las variables iniciales para obtener los factores, el análisis factorial comienza con los factores y construye un modelo en función de las variables iniciales. Sin embargo, siempre es posible obtener la transformación del espacio factorial a partir de la transformación de componentes principales y viceversa.
Una muestra de interconexión de ambas técnicas queda reflejada por el hecho de que el método de extracción de factores más utilizado es precisamente el de componentes principales, el cual determina el mínimo número de factores que explican el máximo de la varianza de las variables para su posterior uso en subsiguientes análisis multivariantes, en ese caso la rotación de estos factores. Así, una vez obtenidos los factores mediante el análisis de componentes principales, se procede a obtener otros factores ortogonales, siendo el método varimax el más utilizado.
3.- ANÁLISIS DE COMPONENTES PRINCIPALES CON STATA
Para realizar un ACP en STATA, se introducirá el siguiente código:
pca zTMor zIEP zAccA zpib zVarPIB zInf zagri zind zUInt zCO2 zmerc zelect
[pic 5]
[pic 6]
Del resultado que arroja el programa, comentaremos los resultados más destacados:
- En el primer cuadro se establecen 12 componentes principales (1ª columna), es decir, una por cada variable. La columna siguiente es el autovalor de la matriz. Éste será determinante a la hora de elegir las componentes principales, pues sólo se elegirán aquéllas con autovalor mayor ó igual que 1. Las dos últimas columnas establecen, la variabilidad(entiéndase como información), que aporta cada componente sobre el total de la muestra. La penúltima columna, la variabilidad por variable, y la última, la acumulada. Recordemos que otro de los criterios establecidos, para elegir las componentes principales de la muestra, es quedarse con aquellas que contengan como mínimo el 70% de la variabilidad de la muestra.
- Con respecto al cuadro siguiente, se establece una matriz de cargas, donde en las filas se establecen las variables, y en las columnas, las componentes principales. Cada uno de los valores representa, el porcentaje ó “carga” que cada variable tiene sobre cada una de las componentes principales, y la relación de la misma (inversa/directa). Recordemos que lo que se pretende es reducir el número de variables, para segmentar la muestra en función de la mismas. Por último, en la columna unexplained, se establece la variabilidad no explicada de cada variable. Como aún no se ha eliminado ninguna componente, la variabilidad explicada es del 100% y por tanto los valores de esta columna, son nulos.
- A la vista de los resultados, nos quedaremos con 4 componentes principales, pues tienen autovalor mayor ó igual a 1 y una variabilidad acumulada del 79,08%.
Para ver gráficamente que nuestra elección ha sido correcta realizaremos un gráfico de sedimentación con la media y heterocedasticidad contenida.
screeplot,mean ci(heteroskedastic)
[pic 7]
Vemos que en el mismo se representan en rojo los autovalores. La Media de los mismos, que será 1, valor por debajo del cual, la información es más escasa, y en la banda gris y con una confianza del 95% de confianza se representa la heterocedasticidad de los datos. Como podemos ver, a partir de la cuarta componente hay un mayor descenso del gráfico, lo que representa una menor información, como se ha visto en la tabla anterior.
...