ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Componentes


Enviado por   •  15 de Enero de 2014  •  9.590 Palabras (39 Páginas)  •  181 Visitas

Página 1 de 39

1

Karl Pearson (1857-1936) Cient´ıfico

brit´anico. Inventor del contraste que lleva

su nombre y uno de los fundadores de la

Estad´ıstica en el siglo xix. Sus trabajos sobre

ajustes ortogonales precedieron el an´alisis

de componentes principales. Fue Catedr´atico

de matem´aticas y despu´es de Eugenesia

en la Universidad de Londres. Fundador

con Weldon, y con el apoyo econ´omico de

Galton, de la prestigiosa revista de estad´ıstica

Biometrika.

5.1. Introducci´on

Un problema central en el an´alisis de datos multivariantes es la reducci´on de la

dimensionalidad: si es posible describir con precisi´on los valores de p variables por

un peque˜no subconjunto r < p de ellas, se habr´a reducido la dimensi´on del problema

a costa de una peque˜na p´erdida de informaci´on.

134 Cap´ıtulo 5: Componentes principales

El an´alisis de componentes principales tiene este objetivo: dadas n observaciones

de p variables, se analiza si es posible representar adecuadamente esta informaci

´on con un n´umero menor de variables construidas como combinaciones lineales

de las originales. Por ejemplo, con variables con alta dependencia es frecuente que

un peque˜no n´umero de nuevas variables (menos del 20 por 100 de las originales)

expliquen la mayor parte (m´as del 80 por 100 de la variabilidad original).

La t´ecnica de componentes principales es debida a Hotelling (1933), aunque sus

or´ıgenes se encuentran en los ajustes ortogonales por m´ınimos cuadrados introducidos

por K. Pearson (1901). Su utilidad es doble:

1. Permite representar ´optimamente en un espacio de dimensi´on peque˜na observaciones

de un espacio general p-dimensional. En este sentido, componentes

principales es el primer paso para identificar las posibles variables latentes, o

no observadas que generan los datos.

2. Permite transformar las variables originales, en general correladas, en nuevas

variables incorreladas, facilitando la interpretaci´on de los datos.

En este cap´ıtulo presentamos ´unicamente esta t´ecnica como una herramienta

exploratoria. El problema de inferir si las propiedades de reducci´on de la dimensi´on

encontradas en los datos puede extenderse a la poblaci´on de la que provienen se

estudiara en el Cap´ıtulo 12, an´alisis factorial.

5.2. Planteamiento del problema

Supongamos que se dispone de los valores de p-variables en n elementos de una

poblaci´on dispuestos en una matriz X de dimensiones n × p, donde las columnas

contienen las variables y las filas los elementos. Supondremos en este cap´ıtulo que

previamente hemos restado a cada variable su media, de manera que las variables de

la matriz X tienen media cero y su matriz de covarianzas vendr´a dada por 1/n X0X.

El problema que se desea resolver es encontrar un espacio de dimensi´on m´as

reducida que represente adecuadamente los datos. Puede abordarse desde tres perspectivas

equivalentes.

a) Enfoque descriptivo

Se desea encontrar un subespacio de dimensi´on menor que p tal que al proyectar sobre

´el los puntos conserven su estructura con la menor distorsi´on posible. Veamos c´omo

convertir esta noci´on intuitiva en un criterio matem´atico operativo. Consideremos

primero un subespacio de dimensi´on uno, una recta. Se desea que las proyecciones

de los puntos sobre esta recta mantengan, lo m´as posible, sus posiciones relativas.

Para concretar, consideremos el caso de dos dimensiones (p = 2). La Figura 5.1

indica el diagrama de dispersi´on y una recta que, intuitivamente, proporciona un

5.2. Planteamiento del problema 135

Figura 5.1. Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a

ella.

buen resumen de los datos, ya que la recta pasa cerca de todos los puntos y las

distancias entre ellos se mantienen aproximadamente en su proyecci´on sobre la recta.

La condici´on de que la recta pase cerca de la mayor´ıa de los puntos puede concretarse

exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la

recta sean lo m´as peque˜nas posibles. En consecuencia, si consideramos un punto xi

y una direcci´on a1 = (a11, ..., a1p)0, definida por un vector a1 de norma unidad, la

proyecci´on del punto xi sobre esta direcci´on es el escalar:

zi = a11xi1 + . . . + a1pxip = a0

1xi (5.1)

y el vector que representa esta proyecci´on ser´a zia1. Llamando ri a la distancia entre

el punto xi, y su proyecci´on sobre la direcci´on a1, este criterio implica:

minimizar

Xn

i=1

r2

i =

Xn

i=1

|xi − zia1|2 , (5.2)

donde |u| es la norma eucl´ıdea o m´odulo del vector u.

La Figura 5.1 muestra que al proyectar cada punto sobre la recta se forma un

tri´angulo rect´angulo donde la hipotenusa es la distancia del punto al origen, (x0

ixi)1/2,

y los catetos la proyeccion del punto sobre la recta (zi) y la distancia entre el punto

y su proyecci´on (ri). Por el teorema de Pit´agoras, podemos escribir:

x0

ixi = zi

2 + r2

i , (5.3)

y sumando esta expresi´on para todos los puntos, se obtiene:

Xn

i=1

x0

ixi =

Xn

i=1

z2

i +

Xn

i=1

r2

i . (5.4)

136 Cap´ıtulo 5: Componentes principales

Como el primer miembro es constante, minimizar

Pn

i=1 r2

i , la suma de las distancias

a la recta de todos los puntos, es equivalente a maximizar

Pn

i=1 z2

i , la suma

al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, por

(5.1) variables de media cero, maximizar la suma de sus cuadrados equivale a maximizar

su varianza, y obtenemos el criterio de encontrar la direcci´on de proyecci´on

que maximice la varianza de los datos proyectados. Este resultado es intuitivo: la

recta de la Figura 5.1 parece adecuada porque conserva lo m´as posible la variabilidad

original de los puntos. El lector puede convencerse considerando una direcci´on

de proyecci´on perpendicular a la de la recta en esta figura: los puntos tendr´ıan muy

poca variabilidad y perder´ıamos la informaci´on sobre sus distancias en el espacio.

Si en lugar de buscar la direcci´on

...

Descargar como (para miembros actualizados) txt (67 Kb)
Leer 38 páginas más »
Disponible sólo en Clubensayos.com