Componentes
rigott15 de Enero de 2014
9.590 Palabras (39 Páginas)205 Visitas
1
Karl Pearson (1857-1936) Cient´ıfico
brit´anico. Inventor del contraste que lleva
su nombre y uno de los fundadores de la
Estad´ıstica en el siglo xix. Sus trabajos sobre
ajustes ortogonales precedieron el an´alisis
de componentes principales. Fue Catedr´atico
de matem´aticas y despu´es de Eugenesia
en la Universidad de Londres. Fundador
con Weldon, y con el apoyo econ´omico de
Galton, de la prestigiosa revista de estad´ıstica
Biometrika.
5.1. Introducci´on
Un problema central en el an´alisis de datos multivariantes es la reducci´on de la
dimensionalidad: si es posible describir con precisi´on los valores de p variables por
un peque˜no subconjunto r < p de ellas, se habr´a reducido la dimensi´on del problema
a costa de una peque˜na p´erdida de informaci´on.
134 Cap´ıtulo 5: Componentes principales
El an´alisis de componentes principales tiene este objetivo: dadas n observaciones
de p variables, se analiza si es posible representar adecuadamente esta informaci
´on con un n´umero menor de variables construidas como combinaciones lineales
de las originales. Por ejemplo, con variables con alta dependencia es frecuente que
un peque˜no n´umero de nuevas variables (menos del 20 por 100 de las originales)
expliquen la mayor parte (m´as del 80 por 100 de la variabilidad original).
La t´ecnica de componentes principales es debida a Hotelling (1933), aunque sus
or´ıgenes se encuentran en los ajustes ortogonales por m´ınimos cuadrados introducidos
por K. Pearson (1901). Su utilidad es doble:
1. Permite representar ´optimamente en un espacio de dimensi´on peque˜na observaciones
de un espacio general p-dimensional. En este sentido, componentes
principales es el primer paso para identificar las posibles variables latentes, o
no observadas que generan los datos.
2. Permite transformar las variables originales, en general correladas, en nuevas
variables incorreladas, facilitando la interpretaci´on de los datos.
En este cap´ıtulo presentamos ´unicamente esta t´ecnica como una herramienta
exploratoria. El problema de inferir si las propiedades de reducci´on de la dimensi´on
encontradas en los datos puede extenderse a la poblaci´on de la que provienen se
estudiara en el Cap´ıtulo 12, an´alisis factorial.
5.2. Planteamiento del problema
Supongamos que se dispone de los valores de p-variables en n elementos de una
poblaci´on dispuestos en una matriz X de dimensiones n × p, donde las columnas
contienen las variables y las filas los elementos. Supondremos en este cap´ıtulo que
previamente hemos restado a cada variable su media, de manera que las variables de
la matriz X tienen media cero y su matriz de covarianzas vendr´a dada por 1/n X0X.
El problema que se desea resolver es encontrar un espacio de dimensi´on m´as
reducida que represente adecuadamente los datos. Puede abordarse desde tres perspectivas
equivalentes.
a) Enfoque descriptivo
Se desea encontrar un subespacio de dimensi´on menor que p tal que al proyectar sobre
´el los puntos conserven su estructura con la menor distorsi´on posible. Veamos c´omo
convertir esta noci´on intuitiva en un criterio matem´atico operativo. Consideremos
primero un subespacio de dimensi´on uno, una recta. Se desea que las proyecciones
de los puntos sobre esta recta mantengan, lo m´as posible, sus posiciones relativas.
Para concretar, consideremos el caso de dos dimensiones (p = 2). La Figura 5.1
indica el diagrama de dispersi´on y una recta que, intuitivamente, proporciona un
5.2. Planteamiento del problema 135
Figura 5.1. Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a
ella.
buen resumen de los datos, ya que la recta pasa cerca de todos los puntos y las
distancias entre ellos se mantienen aproximadamente en su proyecci´on sobre la recta.
La condici´on de que la recta pase cerca de la mayor´ıa de los puntos puede concretarse
exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la
recta sean lo m´as peque˜nas posibles. En consecuencia, si consideramos un punto xi
y una direcci´on a1 = (a11, ..., a1p)0, definida por un vector a1 de norma unidad, la
proyecci´on del punto xi sobre esta direcci´on es el escalar:
zi = a11xi1 + . . . + a1pxip = a0
1xi (5.1)
y el vector que representa esta proyecci´on ser´a zia1. Llamando ri a la distancia entre
el punto xi, y su proyecci´on sobre la direcci´on a1, este criterio implica:
minimizar
Xn
i=1
r2
i =
Xn
i=1
|xi − zia1|2 , (5.2)
donde |u| es la norma eucl´ıdea o m´odulo del vector u.
La Figura 5.1 muestra que al proyectar cada punto sobre la recta se forma un
tri´angulo rect´angulo donde la hipotenusa es la distancia del punto al origen, (x0
ixi)1/2,
y los catetos la proyeccion del punto sobre la recta (zi) y la distancia entre el punto
y su proyecci´on (ri). Por el teorema de Pit´agoras, podemos escribir:
x0
ixi = zi
2 + r2
i , (5.3)
y sumando esta expresi´on para todos los puntos, se obtiene:
Xn
i=1
x0
ixi =
Xn
i=1
z2
i +
Xn
i=1
r2
i . (5.4)
136 Cap´ıtulo 5: Componentes principales
Como el primer miembro es constante, minimizar
Pn
i=1 r2
i , la suma de las distancias
a la recta de todos los puntos, es equivalente a maximizar
Pn
i=1 z2
i , la suma
al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, por
(5.1) variables de media cero, maximizar la suma de sus cuadrados equivale a maximizar
su varianza, y obtenemos el criterio de encontrar la direcci´on de proyecci´on
que maximice la varianza de los datos proyectados. Este resultado es intuitivo: la
recta de la Figura 5.1 parece adecuada porque conserva lo m´as posible la variabilidad
original de los puntos. El lector puede convencerse considerando una direcci´on
de proyecci´on perpendicular a la de la recta en esta figura: los puntos tendr´ıan muy
poca variabilidad y perder´ıamos la informaci´on sobre sus distancias en el espacio.
Si en lugar de buscar la direcci´on que pasa cerca de los puntos buscamos la
direcci´on tal que los puntos proyectados sobre ella conserven lo m´as posible sus
distancias relativas llegamos al mismo criterio. En efecto, si llamamos d2
ij = x0
ixj a
los cuadrados de las distancias originales entre los puntos y b d2
ij = (zi − zj)2 a las
distancias entre los puntos proyectados sobre una recta, deseamos que
D =
X
i
X
j
(d2
ij − b d2
ij)
sea m´ınima. Como la suma de las distancias originales es fija, minimizar D requiere
maximizar
P
i
P
j
b d2
ij , las distancias entre los puntos proyectados. Se demuestra en
el Ap´endice 5.1 que la direcci´on es la misma que proporciona una variable escalar de
varianza m´axima.
b) Enfoque estad´ıstico
Representar puntos p dimensionales con la m´ınima p´erdida de informaci´on en un
espacio de dimensi´on uno es equivalente a sustituir las p variables originales por una
nueva variable, z1, que resuma ´optimamente la informaci´on. Esto supone que la nueva
variable debe tener globalmente m´axima correlaci´on con las originales o, en otros
t´erminos, debe permitir prever las variables originales con la m´axima precisi´on. Esto
no ser´a posible si la nueva variable toma un valor semejante en todos los elementos,
y, se demuestra en el Ap´endice 5.2, que la condici´on para que podamos prever con
la m´ınima p´erdida de informaci´on los datos observados, es utilizar la variable de
m´axima variabilidad.
Volviendo a la Figura 5.1 se observa que la variable escalar obtenida al proyectar
los puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta
indicada en la figura no es la l´ınea de regresi´on de ninguna de las variables con respecto
a la otra, que se obtienen minimizando las distancias verticales u horizontales,
sino la que minimiza las distancias ortogonales o entre los puntos y la recta y se
encuentra entre ambas rectas de regresi´on.
Este enfoque puede extenderse para obtener el mejor subespacio resumen de
los datos de dimensi´on 2. Para ello, calcularemos el plano que mejor aproxima a
5.3. C´alculo de los componentes 137
los puntos. El problema se reduce a encontrar una nueva direcci´on definida por
un vector unitario, a2, que, sin p´erdida de generalidad, puede tomarse ortogonal
a a1, y que verifique la condici´on de que la proyecci´on de un punto sobre este eje
maximice las distancias entre los puntos proyectados. Estad´ısticamente esto equivale
a encontrar una segunda variable z2, incorrelada con la anterior, y que tenga varianza
m´axima.
...