Regresión Lineal, Simple Y Correlacional
Kate2 de Mayo de 2014
13.435 Palabras (54 Páginas)580 Visitas
Estadística Inferencial II.
PROFESOR: L.A. Isaac Vázquez Esqueda.
UNIDAD 1: Regresión Lineal Simple y Correlación.
ALUMNA: Kate Aleidy Ramírez Valenzuela.
No. De Control: 11560097.
Cd. Y Pto. Lázaro Cárdenas, Michoacán 03/Septiembre/2013.
.
UNIDAD 1: REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN.
1.1 MODELO DE REGRESIÓN SIMPLE.
El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta y la variable regresora , a partir de una muestra i = 1n, que sigue el siguiente modelo:
Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial:
Dónde: t = , t = , t = , t = .
Se supone que se verifican las siguientes hipótesis:
La función de regresión es lineal,
o, equivalentemente, E = 0, i = 1,...,n.
La varianza es constante (homocedasticidad),
o, equivalentemente, V ar = 2, i = 1,...,n.
La distribución es normal,
o, equivalentemente, i ~ N , i = 1,...,n.
Las observaciones Y i son independientes. Bajo las hipótesis de normalidad, esto equivale a que la Cov(Y i,Y j) = 0, si i j.
Esta hipótesis en función de los errores sería “los i son independientes”, que bajo normalidad, equivale a que Cov = 0, si i j.
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO.
En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión, 0 y 1; y la varianza de la distribución normal, 2. El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos, siendo los más utilizados el método de máxima verosimilitud y el método de mínimos cuadrados.
Método de máxima verosimilitud:
Conocida una muestra de tamaño n , de la hipótesis de normalidad se sigue que la densidad condicionada en yi es
y, por tanto, la función de densidad conjunta de la muestra es,
Una vez tomada la muestra y, por tanto, que se conocen los valores de i = 1n, se define la función de verosimilitud asociada a la muestra cómo sigue:
Esta función (con variables 0, 1 y 2) mide la verosimilitud de los posibles valores de estas variables en base a la muestra recogida.
El método de máxima verosimilitud se basa en calcular los valores de 0, 1 y 2 que maximizan la función y, por tanto, hacen máxima la probabilidad de ocurrencia de la muestra obtenida. Por ser la función de verosimilitud una función creciente, el problema es más sencillo si se toman logaritmos y se maximiza la función resultante, denominada función soporte,
Maximizando la anterior se obtienen los siguientes estimadores máximo verosímiles,
Donde se ha denotado e a las medias muéstrales de X e Y, respectivamente; sx2 es la varianza muestral de X y sXY es la covarianza muestral entre X e Y.
MÉTODO DE MÍNIMOS CUADRADOS.
A partir de los estimadores: 0 y 1, se pueden calcular las predicciones para las observaciones muéstrales, dadas por,
O, en forma matricial,
Donde t = . Ahora se definen los residuos como
ei = yi - i, i = 1,2,...,n,
Residuo = Valor observado -Valor previsto,
En forma matricial,
Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los cuadrados de los residuos, esto es, minimizando la siguiente función,
Derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas ecuaciones canónicas,
De donde se deducen los siguientes estimadores mínimo cuadráticos de los parámetros de la recta de regresión
Se observa que los estimadores por máxima verosimilitud y los estimadores mínimos cuadráticos de 0 y 1 son iguales. Esto es debido a la hipótesis de normalidad y, en adelante, se denota 0 = 0,MV = 0,mc y 1 = 1,MV = 1,mc.
PROPIEDADES DE LOS ESTIMADORES.
De la primera ecuación canónica se deduce que la recta de regresión pasa por el punto que es el centro geométrico de la nube de datos.
El estimador 1 es la pendiente de la recta regresión, se denomina coeficiente de regresión y tiene una sencilla interpretación, indica el crecimiento (o decrecimiento) de la variable respuesta Y asociado a un incremento unitario en la variable regresora X.
Utilizando las hipótesis de normalidad e independencia se obtiene que la distribución del estimador 1 es una normal de media 1 y varianza . Ésto es,
Por tanto la V ar
- disminuye al aumentar n,
- disminuye al aumentar sx2
- disminuye al disminuir 2.
El estimador 0 indica el valor de la ordenada en la recta de regresión estimada para x = 0 tiene menor importancia y, en muchos casos, no tiene una interpretación práctica. La distribución de 0 es una normal de media 0 y varianza + = .
Esto es,
Por tanto la V ar
- disminuye al disminuir V ar (disminuye al aumentar n o al aumentar sx2
o al disminuir 2).
- disminuye al disminuir 2.
Nuevamente, utilizando las hipótesis de normalidad e independencia se obtiene que la distribución del estimador máximo-verosímil de 2, viene dado por
De las ecuaciones canónicas se deduce que los residuos verifican que i = 1nei = 0 y i = 1neixi = 0. Por tanto, el número de grados de libertad de los residuos es n - 2 porque hay n residuos relacionados por dos ecuaciones. De donde
y MV 2 es un estimador consistente pero sesgado. Por este motivo, como estimador de 2 se utiliza la varianza residual, R2 definida como la suma de residuos al cuadrado dividida por el número de grados de libertad
R2 es un estimador consistente e insesgado.
La relación entre los dos estimadores de la varianza es
Para tamaños muéstrales grandes, ambos estimadores, MV 2 y R2 toman valores muy próximos.
La distribución de la varianza residual viene dada por
A partir de este estadístico se pueden obtener intervalos de confianza de la varianza poblacional, 2. Con nivel de confianza 1 - el intervalo de confianza es
En la práctica, de la distribución de 1 no se pueden calcular intervalos de confianza de 1, porque la varianza poblacional ( 2) no es conocida y se tiene que sustituir por un estimador, R2. De la distribución de éste se obtiene que la distribución del estadístico pivote 1 que sigue la distribución tn-2,
Un intervalo de confianza para 1 a un nivel de confianza 1 - es
Donde tn-2 es un número que verifica que P = , siendo una variable aleatoria con distribución t con n - 2 grados de libertad.
De forma análoga se puede obtener un intervalo de confianza del parámetro 0. De las funciones de distribución de 0 y R2 se deduce que la distribución del estadístico 0 verifica que
Los estimadores 0 y 1 no son variables aleatorias independientes ya que su covarianza viene dada por
por tanto, si es positiva, la Cov es negativa, ésto es, al crecer 1 disminuye 0.
Como ya se ha indicado el parámetro 0 tiene menor importancia que 1 y, en algunas situaciones, no tiene una interpretación realista si el cero no es un punto del rango de la X, por ejemplo, al estudiar la relación entre las variables peso y altura de un colectivo de personas. Por ello tiene interés la ecuación de la recta de regresión que utiliza solo el parámetro 1. Esta ecuación es la siguiente
O bien,
Para ello basta con centrar las dos variables en estudio y calcular la recta de regresión que pasa por el origen de coordenadas.
La recta de regresión de X sobre Y es distinta de la recta de regresión de Y sobre X. En el primer caso se obtiene que
Donde 1 = y 0 = - 1 .
El objeto básico de la Econometría consiste en especificar y estimar un modelo de relación entre las variables económicas relativas a una determinada cuestión conceptual. Por ejemplo, para conocer en profundidad el comportamiento del consumo privado agregado de un país, ser preciso especificar y estimar un modelo de relación entre observaciones temporales de consumo privado y renta disponible. De modo similar, para analizar si la expansión monetaria en un país ha sido in accionista, ser preciso especificar y estimar un modelo de relación entre las tasas de in acción y las tasas de crecimiento históricas de algún agregado monetario. En su forma más general y, por tanto, más abstracta, tal modelo de relación puede representarse como:
y = f(X1; X2; X3; :::; Xk ;)
Dónde:
y = es la variable cuyo comportamiento se pretende explicar, y
X1 ; X2 ; :::; Xk = Son las distintas variables que se suponen potencialmente relevantes como factores explicativos de la primera.
El vector denota una lista de parámetros que recogen la magnitud con que las variaciones en los valores de las variables Xi se transmiten a variaciones en
...