REGRESION LINEAL SIMPLE Y MULTIPLE
danahel24 de Mayo de 2013
4.078 Palabras (17 Páginas)869 Visitas
INSTITUTO TECNOLOGICO DE LAS CHOAPAS
MATERIA: ESTADISTICA INFERENCIAL 2
ALUMNO: MIGUEL ANGEL ISIDRO ANTONIO
CATEDRATICO: RAUL RAMOS URGELL
SEMESTRE: 4
GRUPO: C
TRABAJO: INVESTIGACION DE LA UNIDAD 1
(REGRESION LINEAL SIMPLE Y MULTIPLE)
UNIDAD 1
REGRESION LINEAL SIMPLE Y MULTIPLIQUE
INTRODUCCION
Los análisis de regresión pueden ser de varios tipos, según el número de variables independientes de la función.
Si el número de variables independientes es una la regresión es simple y si el número de variables independientes es mayor que una la regresión es múltiple.
Otra característica que se debe tener en cuenta en la clasificación de de la regresión es la función, si la dependencia funcional de la variable respuesta respecto a las variables independientes es lineal, la regresión es lineal, y si la función es no lineal, la regresión es no lineal.
En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε.
El término regresión fue utilizado por primera vez en el estudio de variables antropométricas (medidas del hombre): al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática.
1.1.-REGRESION LINEAL SIMPLE
Es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
: Variable dependiente, explicada o regresando.
: Variables explicativas, independientes o regreso res.
: Parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.
Donde es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
Regresión lineal simple
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:
Donde es el error asociado a la medición del valor y siguen los supuestos de modo que (media cero, varianza constante e igual a un y con ).
Análisis
Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:
Derivando respecto a y e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:
La interpretación del parámetro es que un incremento en Xi de una unidad, Yi incrementará en
Regresión lineal múltiple
La regresión lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las variables pueda relacionarse matemáticamente en función de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:
Donde es el error asociado a la medición del valor y siguen los supuestos de modo que (media cero, varianza constante e igual a un y con ).
1.1.1.-PRUEBA DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE
Para realizar un análisis de regresión lineal múltiple se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el siguiente modelo lineal:
UBXY+=*
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
2)(σ=iuV
c) Independencia: las perturbaciones aleatorias son independientes entre sí:
jiuuEji≠∀=⋅,0)
d) Normalidad: la distribución de la perturbación aleatoria tiene distribución normal: ,0(2σNU)
e) Las variables explicativas Xk se obtienen sin errores de medida.
Si admitimos que los datos presentan estas hipótesis entonces el teorema de Gauss-Markov establece que el método de estimación de mínimos cuadrados va a producir estimadores óptimos, en el sentido que los parámetros estimados van a estar centrados y van a ser de mínima varianza.
1.1.2.-CALIDAD DEL AJUSTE EN REGRESION LINEAL SIMPLE
El ajuste de un modelo de regresión requiere de varias suposiciones. La estimación de los parámetros del modelo requiere la suposición de que los errores son variables aleatorias no correlacionadas con media 0 y varianza constante. Las pruebas de hipótesis y la estimación del intervalo requieren que los errores se distribuyan normalmente. Además se debe suponer que el orden del modelo es correcto, esto es, si ajustamos un polinomio de primer orden, entonces estamos suponiendo que el fenómeno se comporta en realidad en un modo de primer orden. Así que un analista siempre debe considerar dudosa la validez de estas suposiciones y conducir los análisis para examinar la adecuación del modelo que se ha considerado en forma tentativa. En esta sección analizamos métodos útiles
Un Análisis residual es la diferencia entre el valor observado y el valor estimado por la línea de regresión, El residual puede ser considerado como el error aleatorio observado.
Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el estudio de la regresión lineal entre las variables. Normalmente, la variable explicativa no explica al 100% los resultados que se observan en la variable explicada.
El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso general. Vamos a cuantificar la calidad de la explicación de Y por X mediante el
COEFICIENTE DE DETERMINACIÓN.
Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de la X (independiente), pero sí por la de Y, por estar influenciada por la otra variable. La varianza de Y está generada, de una parte, por los datos de X (es decir, por la varianza), y de otra parte por causas desconocidas (a no ser que los datos formen una línea recta).
El coeficiente de determinación va a ser él % de varianza de Y que se puede explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porque valora lo cerca que está la nube de puntos de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de puntos a la recta de regresión).
Como yi = y*i + ei, desarrollando la expresión de la varianza de Y se puede llegar a qué:
Y por tanto, el % de varianza de Y explicada por X es:
Que resulta ser, es decir, el coeficiente de correlación lineal r definido en el capítulo anterior, elevado al cuadrado y multiplicado por 100. Es por ello que al coeficiente de determinación se le llama R2, es decir
Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del ajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o decreciente. Otro ejemplo: si conocemos el coeficiente de correlación lineal, r = - 0.77, entre dos variables X e Y, ya sabemos que la recta de regresión es decreciente (por el signo negativo de r), y calculando R2 = r2 • 100 = 59.29% tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede calificar de buena).
Estimación y predicción por intervalo en regresión lineal simple
En estadística, la probabilidad que asociamos con una estimación de intervalo se conoce como el nivel de confianza. Esta probabilidad nos indica que tanta confianza tenemos en que la estimación del intervalo incluya al parámetro de la población. Una probabilidad más alta significa más confianza.
El intervalo de confianza es el alcance de la estimación que estamos haciendo pero a menudo hacemos el intervalo de confianza en términos de errores estándar, para esto debemos calcular el error estándar.
1.1.3.-ESTIMACION
...