Regresión Lineal Y Correlacion

estrella19922 de Diciembre de 2013

3.714 Palabras (15 Páginas)1.071 Visitas

Página 1 de 15

INTRODUCCION

El objetivo de este trabajo es analizar el grado de la relación existente entre variables utilizando modelos matemáticos y representaciones gráficas. Así pues, para representar la relación entre dos o más variables desarrollaremos una ecuación que permitirá estimar una variable en función de la otra.

En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.

Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple. Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk, cuáles son las que más influyen en la variable dependiente Y.

INDICE

2.1 Modelo de regresión múltiple ……………………………………….………………5

2.2 Estimación de la ecuación de regresión múltiple……………….………………6-7

2.3 Matriz de varianza-covarianza ………………………………………………..….8-9

2.4 Pruebas de hipótesis para los coeficientes de regresión……….…………. 10-11

2.5 Correlación lineal múltiple ………………………………………………..…….11-14

2.6 Aplicaciones ……………………………………………………………………..15-20

Conclusión………………………………………………………………………………..21

2.1 Modelo de regresión múltiple

2.2 Estimación de la ecuación de regresión múltiple

2.3 Matriz de varianza-covarianza

2.4 Pruebas de hipótesis para los coeficientes de regresión.

2.5 Correlación lineal múltiple

2.6 Aplicaciones

2.1 Modelo de regresión múltiple

La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.

Muchos problemas de regresión múltiple involucran más de una variable regresiva. Tales modelos se denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas más ampliamente utilizada. Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicos genéticos, etc.

Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad.

La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es

a0: media de Y cuando todas las Xi son cero (cuando no tiene sentidoXi=0, p.e. edad, se interpreta como la media de Y que no depende de lasXi).

ai: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las demás.

Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II.

La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyen como caso particular la RLS):

siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño

es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas

un buen estimador de s2 es

que se distribuye como una c2 con n - (k+1) grados de libertad.

Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:

1. El número de observaciones (n), es menor o igual que el número de variables independientes (k).

2. Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).

2.2 Estimación de la ecuación de regresión múltiple

Usando la teoría resumida anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.

y los contrastes de hipótesis

H0: aI =0

H1: ai ¹ 0

se realizan con el estadístico

Ejemplo 5

Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás variables.

Tabla de datos

Paciente Colesterol Edad Grasas Ejercicio.

1 350 80 35 0

2 190 30 40 2

3 263 42 15 1

4 320 50 20 0

5 280 45 35 0

6 198 35 50 1

7 232 18 70 1

8 320 32 40 0

9 303 49 45 0

10 220 35 35 0

11 405 50 50 0

12 190 20 15 2

13 230 40 20 1

14 227 30 35 0

15 440 30 80 1

16 318 23 40 2

17 212 35 40 1

18 340 18 80 0

19 195 22 15 0

20 223 41 34 0

La salida del programa de ordenador es

2.3 Matriz de varianza-covarianza

De un modo similar a RLS se puede descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si el modelo lineal no es adecuado, ambos estimadores estimarían la varianza de Y y si es adecuado no. Comparando ambos estimadores con la prueba de la Fse contrasta lo adecuado del modelo.

Para el ejemplo 5

Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los coeficientes.

Se define también el coeficiente de determinación como el cociente entre la suma de cuadrados de la regresión y la suma de cuadrados total (R2 = SSR/SST) y a su raíz cuadrada (R) se le denomina coeficiente de correlación múltiple

Además de esta prueba global del modelo basado en el análisis de la varianza, se pueden plantear pruebas parciales sobre si una variable, o un grupo de variables, añadidas a un modelo previo lo mejoran.

Se tiene un modelo

y se añade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas será lo que ha mejorado la suma de cuadrados por añadir la variable X* y tendrá 1 grado de libertad.

SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X*)

y el cociente

llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en la hipótesis nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es totalmente equivalente a contrastar que el coeficiente a* de la nueva variable es cero con la prueba basada en la t.

Del mismo modo, si al modelo original se le añaden p variables X1*,...,Xp*, se puede definir

SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*)

que tiene p grados de libertad, y el cociente

se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha hipótesis.

Ejemplo 6

Con los datos del ejemplo 5, realizar el contraste de la F parcial para añadir la variable ejercicio a un modelo que sólo contenga la edad y las

...

Descargar como (para miembros actualizados) txt (24 Kb)

Leer 14 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com