Análisis Avanzado de Datos. Informe 2. Métodos de análisis multivariante

maria jose peña navarroTarea14 de Enero de 2018

1.460 Palabras (6 Páginas)256 Visitas

Página 1 de 6

Análisis Avanzado de Datos. Informe 2. Métodos de análisis multivariante.

El conjunto de datos “mtcars”, disponible en el paquete “datasets” de R Commander contiene información relativa al rendimiento y diseño de 32 coches extraída de los números publicados en 1974 de la revista “Motor Trend”. En concreto recoge las siguientes variables:

1. mpg. Consumo de los vehículos, expresado en millas recorridas por galón de combustible

2. cyl. Número de cilindros

3. disp. Cilindrada, expresada en pulgadas cúbicas

4. hp. Potencia, expresada en CV

5. drat. Relación del eje trasero

6. wt. Peso, expresado en miles de libras

7. qsec. Aceleración, expresada en segundos necesarios para recorrer un cuarto de milla

8. vs. Geometría del motor; 0 = motor en V, 1 = motor en línea

9. am. Transmisión; 0 = automática, 1 = manual

10. gear. Número de marchas en sentido de avance

11. carb. Número de carburadores

Para realizar el análisis de componentes principales partimos del conjunto de datos mtcars del paquete datasets de Rcomander, que es una matriz de datos de 32 filas y 11 columnas. Si quisiéramos representar gráficamente los datos podríamos seleccionar dos variables y representar los valores correspondientes a los 32 vehículos; o bien representar tres de las variables en un gráfico tridimensional. Pero no podríamos visualizar más dimensiones ya que es imposible ver en un gráfico una representación de todos los vehículos respecto a todas las variables al mismo tiempo.

El análisis de componentes principales es una técnica que sirve para reducir la dimensionalidad y su objetivo es explicar la mayor parte de la variabilidad total del conjunto de variables cuantitativas con el menor número de componentes posibles. Estos componentes principales son una combinación lineal de las variables originales y se caracterizan por no estar correlacionadas entre sí. En principio se general tantos componentes principales como variables originales, pero lo que se busca es obtener un menor número de variables (combinación lineal de las variables originales que no estén correlacionadas) pero que recojan la mayor parte de la información o variabilidad de los datos.

Si las variables originales están muy correlacionadas entre sí, la información que contienen se podrá expresar a través de unos pocos componentes principales. Por el contrario, si las variables originales presentan muy poca correlación el número de componentes principales necesario para expresar la variabilidad de los datos será muy similar al de las variables originales.

Normalmente los componentes principales se calculan sobre las variables originales estandarizadas (variables con media 0 y varianza 1) para dar igual importancia a todas las variables originales y evitar el problema de que las mismas presenten distintas unidades de medida, hecho que afectaría al cálculo de los componentes principales

Se pide:

1.- Realizar un análisis en componentes principales considerando las variables disp, hp, mpg, qsec y wt. Seleccionar justificadamente el número de componentes principales a considerar y comentar los pesos de las cinco variables sobre ellos. Representar gráficamente las observaciones y las variables en la proyección sobre el plano que definen los dos primeros componentes principales y, si es posible, identificar grupos entre las observaciones.

[pic 1]

[pic 2]

Seleccionaremos aquellos componentes principales cuyo autovalor (component variances) sea mayor que 1, porque explican más variabilidad que cualquiera de las variables originales tomadas individualmente (que al estar tipificada presenta una varianza de 1). La suma de las varianzas de los componentes principales es igual al número total de componentes principales y de variables (5).

[pic 3]

Otro criterio que se puede emplear es trabajar con los componentes principales que expliquen más de un 70% de variabilidad total (proportion of variance)

[pic 4]

Otro elemento que aporta a la delimitación de cantidad de componentes a elegir, es el gráfico de sedimentación, que muestra en el eje “y” los autovalores, y en el eje “x” posiciona los componentes.

[pic 5]

Figura 1.- Gráfica de sedimentación.

Atendiendo a estos criterios seleccionaríamos LA COMPONENTE PRINCIPAL NUMERO 1, que explicaría el 73’93% de la varianza total del conjunto de variables.

[pic 6]

Cada columna representa una combinación lineal de las variables originales. Así la primera componente se obtiene con la siguiente combinación:

PC1=-0,4900784*disp.-0,4746341*hp+0,4841972*mpg-0,3079815*qsec-0,4530409*wt

Para interpretar una componente principal, en primer lugar, hay que mirar el valor absoluto de los coeficientes, distinguiendo los que tienen un valor grande o un valor pequeño y, en segundo lugar, mirar entre los coeficientes con valor absoluto grande el signo (si es positivo o negativo). En nuestro ejemplo en la PC1 todas las variables, menos qsec, tienen un “peso” bastante aproximado (entre 0,45 y 0,49), siendo con signo positivo la variable mpg y con signo negativo las variables disp, hp y wt. En la PC2 la variable qsec es la que mayor peso tiene, con un signo positivo

...

Descargar como (para miembros actualizados) txt (10 Kb) pdf (628 Kb) docx (473 Kb)

Leer 5 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com