Componentes
Enviado por rigott • 15 de Enero de 2014 • 9.590 Palabras (39 Páginas) • 181 Visitas
1
Karl Pearson (1857-1936) Cient´ıfico
brit´anico. Inventor del contraste que lleva
su nombre y uno de los fundadores de la
Estad´ıstica en el siglo xix. Sus trabajos sobre
ajustes ortogonales precedieron el an´alisis
de componentes principales. Fue Catedr´atico
de matem´aticas y despu´es de Eugenesia
en la Universidad de Londres. Fundador
con Weldon, y con el apoyo econ´omico de
Galton, de la prestigiosa revista de estad´ıstica
Biometrika.
5.1. Introducci´on
Un problema central en el an´alisis de datos multivariantes es la reducci´on de la
dimensionalidad: si es posible describir con precisi´on los valores de p variables por
un peque˜no subconjunto r < p de ellas, se habr´a reducido la dimensi´on del problema
a costa de una peque˜na p´erdida de informaci´on.
134 Cap´ıtulo 5: Componentes principales
El an´alisis de componentes principales tiene este objetivo: dadas n observaciones
de p variables, se analiza si es posible representar adecuadamente esta informaci
´on con un n´umero menor de variables construidas como combinaciones lineales
de las originales. Por ejemplo, con variables con alta dependencia es frecuente que
un peque˜no n´umero de nuevas variables (menos del 20 por 100 de las originales)
expliquen la mayor parte (m´as del 80 por 100 de la variabilidad original).
La t´ecnica de componentes principales es debida a Hotelling (1933), aunque sus
or´ıgenes se encuentran en los ajustes ortogonales por m´ınimos cuadrados introducidos
por K. Pearson (1901). Su utilidad es doble:
1. Permite representar ´optimamente en un espacio de dimensi´on peque˜na observaciones
de un espacio general p-dimensional. En este sentido, componentes
principales es el primer paso para identificar las posibles variables latentes, o
no observadas que generan los datos.
2. Permite transformar las variables originales, en general correladas, en nuevas
variables incorreladas, facilitando la interpretaci´on de los datos.
En este cap´ıtulo presentamos ´unicamente esta t´ecnica como una herramienta
exploratoria. El problema de inferir si las propiedades de reducci´on de la dimensi´on
encontradas en los datos puede extenderse a la poblaci´on de la que provienen se
estudiara en el Cap´ıtulo 12, an´alisis factorial.
5.2. Planteamiento del problema
Supongamos que se dispone de los valores de p-variables en n elementos de una
poblaci´on dispuestos en una matriz X de dimensiones n × p, donde las columnas
contienen las variables y las filas los elementos. Supondremos en este cap´ıtulo que
previamente hemos restado a cada variable su media, de manera que las variables de
la matriz X tienen media cero y su matriz de covarianzas vendr´a dada por 1/n X0X.
El problema que se desea resolver es encontrar un espacio de dimensi´on m´as
reducida que represente adecuadamente los datos. Puede abordarse desde tres perspectivas
equivalentes.
a) Enfoque descriptivo
Se desea encontrar un subespacio de dimensi´on menor que p tal que al proyectar sobre
´el los puntos conserven su estructura con la menor distorsi´on posible. Veamos c´omo
convertir esta noci´on intuitiva en un criterio matem´atico operativo. Consideremos
primero un subespacio de dimensi´on uno, una recta. Se desea que las proyecciones
de los puntos sobre esta recta mantengan, lo m´as posible, sus posiciones relativas.
Para concretar, consideremos el caso de dos dimensiones (p = 2). La Figura 5.1
indica el diagrama de dispersi´on y una recta que, intuitivamente, proporciona un
5.2. Planteamiento del problema 135
Figura 5.1. Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a
ella.
buen resumen de los datos, ya que la recta pasa cerca de todos los puntos y las
distancias entre ellos se mantienen aproximadamente en su proyecci´on sobre la recta.
La condici´on de que la recta pase cerca de la mayor´ıa de los puntos puede concretarse
exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la
recta sean lo m´as peque˜nas posibles. En consecuencia, si consideramos un punto xi
y una direcci´on a1 = (a11, ..., a1p)0, definida por un vector a1 de norma unidad, la
proyecci´on del punto xi sobre esta direcci´on es el escalar:
zi = a11xi1 + . . . + a1pxip = a0
1xi (5.1)
y el vector que representa esta proyecci´on ser´a zia1. Llamando ri a la distancia entre
el punto xi, y su proyecci´on sobre la direcci´on a1, este criterio implica:
minimizar
Xn
i=1
r2
i =
Xn
i=1
|xi − zia1|2 , (5.2)
donde |u| es la norma eucl´ıdea o m´odulo del vector u.
La Figura 5.1 muestra que al proyectar cada punto sobre la recta se forma un
tri´angulo rect´angulo donde la hipotenusa es la distancia del punto al origen, (x0
ixi)1/2,
y los catetos la proyeccion del punto sobre la recta (zi) y la distancia entre el punto
y su proyecci´on (ri). Por el teorema de Pit´agoras, podemos escribir:
x0
ixi = zi
2 + r2
i , (5.3)
y sumando esta expresi´on para todos los puntos, se obtiene:
Xn
i=1
x0
ixi =
Xn
i=1
z2
i +
Xn
i=1
r2
i . (5.4)
136 Cap´ıtulo 5: Componentes principales
Como el primer miembro es constante, minimizar
Pn
i=1 r2
i , la suma de las distancias
a la recta de todos los puntos, es equivalente a maximizar
Pn
i=1 z2
i , la suma
al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, por
(5.1) variables de media cero, maximizar la suma de sus cuadrados equivale a maximizar
su varianza, y obtenemos el criterio de encontrar la direcci´on de proyecci´on
que maximice la varianza de los datos proyectados. Este resultado es intuitivo: la
recta de la Figura 5.1 parece adecuada porque conserva lo m´as posible la variabilidad
original de los puntos. El lector puede convencerse considerando una direcci´on
de proyecci´on perpendicular a la de la recta en esta figura: los puntos tendr´ıan muy
poca variabilidad y perder´ıamos la informaci´on sobre sus distancias en el espacio.
Si en lugar de buscar la direcci´on
...