Componentes principales
Enviado por Maria de los Baños García-Moreno García • 27 de Septiembre de 2015 • Documentos de Investigación • 1.430 Palabras (6 Páginas) • 168 Visitas
COMPONENTES PRINCIPALES
1.- Procedimiento
El método de componentes principales tiene por objeto transformar un conjunto de p variables, [pic 1], [pic 2],…, [pic 3], que denominamos variables originales, en un nuevo conjunto de p variables, [pic 4], [pic 5],…, [pic 6], denominadas componentes principales, las cuales se caracterizan por estar incorreladas entre sí.
Normalmente las variables originales vienen expresadas bien en desviaciones respecto a la media o bien como variables tipificadas. En este contexto, cada componente h se expresa como combinación lineal de las variables originales
[pic 7]
Suponiendo que se tienen n observaciones de cada variable, para cada observación se verifica
[pic 8], i = 1,…, n (1)
y si se definen los vectores y matrices siguientes
[pic 9] [pic 10] [pic 11]
la expresión (1) se puede escribir en la forma
[pic 12] ⇒ [pic 13]
Puesto que la media de cada componente h es cero, su varianza es
[pic 14] (2)
donde [pic 15] es la matriz de covarianzas V o la matriz de correlaciones R de las variables originales según que éstas estén expresadas en desviaciones respecto a la media o estén tipificadas, respectivamente. Pues bien, los coeficientes de ponderación de la primera componente principal (h = 1), vector [pic 16], se obtienen maximizando (2) bajo la condición
[pic 17]
resultando que [pic 18]es el vector propio asociado al autovalor mayor de V (ó R). Al resto de componentes les corresponden los vectores propios asociados al resto de autovalores de V (ó R) una vez ordenados de mayor a menor, debiendo cada [pic 19] cumplir, además de la restricción
[pic 20]
la condición adicional de que
[pic 21]
es decir, el vector propio [pic 22] asociado a la componente h-ésima debe ser ortogonal a los vectores propios obtenidos previamente.
De todo lo anterior se deduce que si [pic 23] y [pic 24] son el autovalor y su vector propio asociado, respectivamente, correspondientes a la componente h-ésima, se tiene que su varianza es
[pic 25]
Por otro lado, una medida de la variabilidad global de las variables originales es la suma de sus respectivas varianzas que viene dada por
[pic 26]
(la expresión anterior es igual a p si [pic 27], pues las variables tipificadas tienen varianza 1). En consecuencia, la suma de las varianzas es igual a la suma de las varianzas de las componentes principales. En este sentido, la proporción de la variabilidad total recogida por la componente h-ésima viene dada por
[pic 28]
a) Correlación entre las componentes principales y las variables originales
La correlación lineal entre la variable original [pic 29] y la componente principal [pic 30] viene dada por la expresión
[pic 31] (3)
donde
[pic 32] es el vector que contiene las observaciones de [pic 33] (respecto a la media o tipificadas)[pic 34]
[pic 35] es el vector que tiene un 1 en la posición j-ésima, el resto son ceros [pic 36]
...