ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Componentes

rigott15 de Enero de 2014

9.590 Palabras (39 Páginas)205 Visitas

Página 1 de 39

1

Karl Pearson (1857-1936) Cient´ıfico

brit´anico. Inventor del contraste que lleva

su nombre y uno de los fundadores de la

Estad´ıstica en el siglo xix. Sus trabajos sobre

ajustes ortogonales precedieron el an´alisis

de componentes principales. Fue Catedr´atico

de matem´aticas y despu´es de Eugenesia

en la Universidad de Londres. Fundador

con Weldon, y con el apoyo econ´omico de

Galton, de la prestigiosa revista de estad´ıstica

Biometrika.

5.1. Introducci´on

Un problema central en el an´alisis de datos multivariantes es la reducci´on de la

dimensionalidad: si es posible describir con precisi´on los valores de p variables por

un peque˜no subconjunto r < p de ellas, se habr´a reducido la dimensi´on del problema

a costa de una peque˜na p´erdida de informaci´on.

134 Cap´ıtulo 5: Componentes principales

El an´alisis de componentes principales tiene este objetivo: dadas n observaciones

de p variables, se analiza si es posible representar adecuadamente esta informaci

´on con un n´umero menor de variables construidas como combinaciones lineales

de las originales. Por ejemplo, con variables con alta dependencia es frecuente que

un peque˜no n´umero de nuevas variables (menos del 20 por 100 de las originales)

expliquen la mayor parte (m´as del 80 por 100 de la variabilidad original).

La t´ecnica de componentes principales es debida a Hotelling (1933), aunque sus

or´ıgenes se encuentran en los ajustes ortogonales por m´ınimos cuadrados introducidos

por K. Pearson (1901). Su utilidad es doble:

1. Permite representar ´optimamente en un espacio de dimensi´on peque˜na observaciones

de un espacio general p-dimensional. En este sentido, componentes

principales es el primer paso para identificar las posibles variables latentes, o

no observadas que generan los datos.

2. Permite transformar las variables originales, en general correladas, en nuevas

variables incorreladas, facilitando la interpretaci´on de los datos.

En este cap´ıtulo presentamos ´unicamente esta t´ecnica como una herramienta

exploratoria. El problema de inferir si las propiedades de reducci´on de la dimensi´on

encontradas en los datos puede extenderse a la poblaci´on de la que provienen se

estudiara en el Cap´ıtulo 12, an´alisis factorial.

5.2. Planteamiento del problema

Supongamos que se dispone de los valores de p-variables en n elementos de una

poblaci´on dispuestos en una matriz X de dimensiones n × p, donde las columnas

contienen las variables y las filas los elementos. Supondremos en este cap´ıtulo que

previamente hemos restado a cada variable su media, de manera que las variables de

la matriz X tienen media cero y su matriz de covarianzas vendr´a dada por 1/n X0X.

El problema que se desea resolver es encontrar un espacio de dimensi´on m´as

reducida que represente adecuadamente los datos. Puede abordarse desde tres perspectivas

equivalentes.

a) Enfoque descriptivo

Se desea encontrar un subespacio de dimensi´on menor que p tal que al proyectar sobre

´el los puntos conserven su estructura con la menor distorsi´on posible. Veamos c´omo

convertir esta noci´on intuitiva en un criterio matem´atico operativo. Consideremos

primero un subespacio de dimensi´on uno, una recta. Se desea que las proyecciones

de los puntos sobre esta recta mantengan, lo m´as posible, sus posiciones relativas.

Para concretar, consideremos el caso de dos dimensiones (p = 2). La Figura 5.1

indica el diagrama de dispersi´on y una recta que, intuitivamente, proporciona un

5.2. Planteamiento del problema 135

Figura 5.1. Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a

ella.

buen resumen de los datos, ya que la recta pasa cerca de todos los puntos y las

distancias entre ellos se mantienen aproximadamente en su proyecci´on sobre la recta.

La condici´on de que la recta pase cerca de la mayor´ıa de los puntos puede concretarse

exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la

recta sean lo m´as peque˜nas posibles. En consecuencia, si consideramos un punto xi

y una direcci´on a1 = (a11, ..., a1p)0, definida por un vector a1 de norma unidad, la

proyecci´on del punto xi sobre esta direcci´on es el escalar:

zi = a11xi1 + . . . + a1pxip = a0

1xi (5.1)

y el vector que representa esta proyecci´on ser´a zia1. Llamando ri a la distancia entre

el punto xi, y su proyecci´on sobre la direcci´on a1, este criterio implica:

minimizar

Xn

i=1

r2

i =

Xn

i=1

|xi − zia1|2 , (5.2)

donde |u| es la norma eucl´ıdea o m´odulo del vector u.

La Figura 5.1 muestra que al proyectar cada punto sobre la recta se forma un

tri´angulo rect´angulo donde la hipotenusa es la distancia del punto al origen, (x0

ixi)1/2,

y los catetos la proyeccion del punto sobre la recta (zi) y la distancia entre el punto

y su proyecci´on (ri). Por el teorema de Pit´agoras, podemos escribir:

x0

ixi = zi

2 + r2

i , (5.3)

y sumando esta expresi´on para todos los puntos, se obtiene:

Xn

i=1

x0

ixi =

Xn

i=1

z2

i +

Xn

i=1

r2

i . (5.4)

136 Cap´ıtulo 5: Componentes principales

Como el primer miembro es constante, minimizar

Pn

i=1 r2

i , la suma de las distancias

a la recta de todos los puntos, es equivalente a maximizar

Pn

i=1 z2

i , la suma

al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, por

(5.1) variables de media cero, maximizar la suma de sus cuadrados equivale a maximizar

su varianza, y obtenemos el criterio de encontrar la direcci´on de proyecci´on

que maximice la varianza de los datos proyectados. Este resultado es intuitivo: la

recta de la Figura 5.1 parece adecuada porque conserva lo m´as posible la variabilidad

original de los puntos. El lector puede convencerse considerando una direcci´on

de proyecci´on perpendicular a la de la recta en esta figura: los puntos tendr´ıan muy

poca variabilidad y perder´ıamos la informaci´on sobre sus distancias en el espacio.

Si en lugar de buscar la direcci´on que pasa cerca de los puntos buscamos la

direcci´on tal que los puntos proyectados sobre ella conserven lo m´as posible sus

distancias relativas llegamos al mismo criterio. En efecto, si llamamos d2

ij = x0

ixj a

los cuadrados de las distancias originales entre los puntos y b d2

ij = (zi − zj)2 a las

distancias entre los puntos proyectados sobre una recta, deseamos que

D =

X

i

X

j

(d2

ij − b d2

ij)

sea m´ınima. Como la suma de las distancias originales es fija, minimizar D requiere

maximizar

P

i

P

j

b d2

ij , las distancias entre los puntos proyectados. Se demuestra en

el Ap´endice 5.1 que la direcci´on es la misma que proporciona una variable escalar de

varianza m´axima.

b) Enfoque estad´ıstico

Representar puntos p dimensionales con la m´ınima p´erdida de informaci´on en un

espacio de dimensi´on uno es equivalente a sustituir las p variables originales por una

nueva variable, z1, que resuma ´optimamente la informaci´on. Esto supone que la nueva

variable debe tener globalmente m´axima correlaci´on con las originales o, en otros

t´erminos, debe permitir prever las variables originales con la m´axima precisi´on. Esto

no ser´a posible si la nueva variable toma un valor semejante en todos los elementos,

y, se demuestra en el Ap´endice 5.2, que la condici´on para que podamos prever con

la m´ınima p´erdida de informaci´on los datos observados, es utilizar la variable de

m´axima variabilidad.

Volviendo a la Figura 5.1 se observa que la variable escalar obtenida al proyectar

los puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta

indicada en la figura no es la l´ınea de regresi´on de ninguna de las variables con respecto

a la otra, que se obtienen minimizando las distancias verticales u horizontales,

sino la que minimiza las distancias ortogonales o entre los puntos y la recta y se

encuentra entre ambas rectas de regresi´on.

Este enfoque puede extenderse para obtener el mejor subespacio resumen de

los datos de dimensi´on 2. Para ello, calcularemos el plano que mejor aproxima a

5.3. C´alculo de los componentes 137

los puntos. El problema se reduce a encontrar una nueva direcci´on definida por

un vector unitario, a2, que, sin p´erdida de generalidad, puede tomarse ortogonal

a a1, y que verifique la condici´on de que la proyecci´on de un punto sobre este eje

maximice las distancias entre los puntos proyectados. Estad´ısticamente esto equivale

a encontrar una segunda variable z2, incorrelada con la anterior, y que tenga varianza

m´axima.

...

Descargar como (para miembros actualizados) txt (67 Kb)
Leer 38 páginas más »
Disponible sólo en Clubensayos.com