Undad 1 Egresion Lineal Simple

gallgos31 de Diciembre de 2012

3.876 Palabras (16 Páginas)642 Visitas

Página 1 de 16

1 Regresión lineal simple y correlación.

1.1 Modelo de regresión simple.

El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta y la variable regresora , a partir de una muestra i = 1n, que sigue el siguiente modelo:

(6.1)

Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial

(6.2)

donde t = , t = , t = , t = .

Se supone que se verifican las siguientes hipótesis:

La función de regresión es lineal,

o, equivalentemente, E = 0, i = 1,...,n.

La varianza es constante (homocedasticidad),

o, equivalentemente, V ar = 2, i = 1,...,n.

La distribución es normal,

o, equivalentemente, i ~ N , i = 1,...,n.

Las observaciones Y i son independientes. Bajo las hipótesis de normalidad, esto equivale a que la Cov(Y i,Y j) = 0, si i j.

Esta hipótesis en función de los errores sería “los i son independientes”, que bajo normalidad, equivale a que Cov = 0, si i j.

1.2 Supuestos.

1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de especificación.

En el caso de que sean varias variables independientes, la opción Analizar-RegresiónLineal-Gráficos-Generar todos los gráficos parciales nos da los diagramas de dispersión parcial para cada variable independiente. En ellos se ha eliminado el efecto proveniente de las otras variables y así la relación que muestran es la relación neta entre las variables representadas.

2. Independencia de la variable aleatoria “residuos” (especialmente importante si los datos se han obtenidos siguiendo una secuencia temporal).

Independencia entre los residuos mediante el estadístico de Durbin-Watson que toma valor 2 cuando los residuos son completamente independientes (entre 1.5 y 2.5 se considera que existe independencia), DW<2 indica autocorrelación positiva y DW>2 autocorrelación negativa

3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos. Esta condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y

ZRESID=residuos tipificados mediante:

• el estadístico de Levene (ver explorar)

• un gráfico de dispersión .Que se obtiene en Analizar-Regresión-Lineal-Gráficos.

El supuesto de homocedasticidad implica que la variación de los residuos sea uniforme en

todo el rango de valores de los pronósticos (gráfico sin pautas de asociación).

4. Normalidad de los residuos tipificados. Podemos contrastarla mediante:

• La prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q

(cuantiles) o P-P(proporciones) (ver explorar)

• gráficamente en Analizar-Regresión-Lineal-Gráficos . La opción

Histograma: añade una curva N(0,1)

Gráfico de Probabilidad Normal de tipo P-P: Representa las proporciones acumuladas de la variable esperada respecto a las proporciones acumuladas de la variable observada.

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser: colinealidad perfecta si una de las variables independientes tiene una relación lineal con otra/as independientes, colinealidad parcial si entre las variables independientes existen altas correlaciones

1.3 Determinación de la ecuación de regresión.

El primer paso para determinar si existe o no una relación entre dos variables es observar la grafica de datos observados. Esta grafica se llama diagrama de dispersión.

Un diagrama nos puede da dos tipos de información, visualmente podemos buscar patrones que nos indiquen que las variables están relacionadas. Entonces si esto sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta relación.

Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar se construye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre estas dos variables. Como resultado, también podemos trazar, “o ajustar” una línea recta a través de nuestro diagrama de dispersión para representar la relación. Es común intentar trazar estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la línea.

Estimación mediante la línea de regresión

Hasta el momento las líneas de regresión se colocaron al ajustar las líneas visualmente entre los puntos de datos, pero para graficar estas líneas de una forma más precisa podemos utilizar una ecuación que relaciona las dos variables matemáticamente.

La ecuación para una línea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es:

Usando esta ecuación podemos tomar un valor dado en X y calcular el valor de Y la a se denomina intersección en Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la pendiente de la línea, representa que tanto cada cambio de unidad de la variable independiente X cambia la variable dependiente Y. Tanto a como b son constantes numéricas, puesto que para cada recta dada, sus valores no cambian.

Recta de regresión por el método de mínimos cuadrados.

Ahora que hemos visto como determinar la ecuación para una línea recta, pensemos como podemos calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión. Para esto debemos minimizar el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla.

Para esto debemos introducir un nuevo símbolo, para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que caen en la línea de estimación. En consecuencia escribiremos la ecuación para la línea de estimación como

Una forma en que podemos medir el error de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos observados y los puntos estimados.

La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.

El problema al añadir los errores individuales es el efecto de cancelación de los valores positivos y negativos, por eso usamos valores absolutos en esta diferencia a modo de cancelar la anulación de los signos positivos y negativos, pero ya que estamos buscando el menor error debemos buscar un método que nos muestre la magnitud del error, decimos que la suma de los valores absolutos no pone énfasis en la magnitud del error.

Parece razonable que mientras más lejos este un punto de la línea e estimación, mas serio seria el error, preferiríamos tener varios errores pequeños que uno grande. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los errores individuales antes de sumarlos. Con estos se logran dos objetivos:

• penaliza los errores más grandes

• cancela el efecto de valores positivos y negativos

Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores a esto llamamos método de mínimos cuadrados.

Si usamos el método de mínimos cuadrados, podemos determinar si una línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto de puntos de datos a través de los cuales podríamos trazar un numero infinito de líneas de estimación, ¿cómo podemos saber cuando hemos encontrado la mejor línea de ajuste?

Los estadísticos han derivado dos ecuaciones que podemos utilizar para encontrar la pendiente y la intersección Y de la línea de regresión del mejor ajuste. La primera formula calcula la pendiente.

• b = pendiente de la línea de estimación de mejor ajuste

• X = valores de la variable independiente

• Y = valores de la variable dependiente

• = media de los valores de la variable independiente

• = media de los valores de la variable dependiente

• n = numero de puntos de datos

La segunda ecuación calcula la intersección en Y

• a = intersección en Y

• b = pendiente de la ecuación anterior

• = media de los valores de la variable dependiente

• = media de los valores de la variable independiente

Verificación de la ecuación de estimación

Ahora que sabemos como calcular la línea de regresión, podemos verificar que tanto se ajusta.

Tomando los errores individuales positivos y negativos deben dar cero

Error estándar de la estimación

El error estándar nos permite deducir la confiabilidad de la ecuación de regresión que hemos desarrollado.

Este error se simboliza Se y es similar a la desviación estándar en cuanto a que ambas son medidas de dispersión.

El error estándar de la estimación mide la variabilidad, o dispersión de los valores observados alrededor de la línea de regresión y su formula es la siguiente

• = media de los valores de la variable dependiente

• Y = valores de la variable dependiente

• n = numero

...

Descargar como (para miembros actualizados) txt (24 Kb)

Leer 15 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com