REGRESION LINEAL SIMPLE Y CORRELACION
karime14029516 de Septiembre de 2014
4.426 Palabras (18 Páginas)394 Visitas
1-. REGRESION LINEAL SIMPLE Y CORRELACION.
• MODELO DE REGRESION SIMPLE
• SUPUESTOS
• DETERMINACION DE LA ECUACION DE REGRESION
• MWDIDAS DE VARIACION
• CALCULO DE LOS COEFICIENTES DE CORRELACION Y DETERMINACION
• ANALISIS RESIDUAL
• INFERENCIAS ACERCA DE LA PENDIENTE
• APLICACIONES
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.
"Y es una función de X" Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:
Y = f (X) "Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También se le llama regresando ó variable de respuesta.
La variable Independiente X se le denomina variable explicativa ó regresor y se le utiliza para explicar y.
Supuestos
Supuestos del modelo clásico de regresión lineal
Como el propósito del modelo no es solo estimar B1 y B2 sino hacer inferencia sobre los verdaderos B1 y B2, entonces se hace necesario establecer los siguientes supuestos:
1. El modelo de regresión es lineal en los parámetros.
Las variables deben ser lineales en sus valores originales o después de alguna transformación adecuada.
2. El valor esperado de la perturbación aleatoria debe ser cero para cualquier observación.
para todo i
3. La varianza de las perturbaciones es constante – homoscedasticidad (IGUAL VARIANZA).
para toda i
4. Independencia o no autocorrelación entre las perturbaciones
Dados dos valores cualesquiera de X, xi xj para i ¹ j, la correlación entre Ui, Uj es cero.
para cualquier i ¹ j
5. Independencia entre Ui y Xj para toda i y j
para toda i y j , esto para separar el efecto sobre Y de U y X
6. Los valores de X son fijos en muestreos repetidos es decir son no estocásticos.
7. Debe disponerse de una información estadística suficientemente amplia sobre el conjunto de variables observables implicadas en el modelo. Como requisito mínimo para que pueda determinarse una solución se exige que el numero de datos (n) debe ser superior al numero de parámetros (k) (n>k) se habla para datos anuales mínimo 15.
8. En modelos de regresión múltiples se necesita que no haya relación lineal perfecta entre las variables independientes o explicativas, a esto se le llama no multicolinealidad. X de nxk con rango k ( rango completo).
9. Normalidad Ui esta normalmente distribuido para toda i
Lo anterior implica que:
Estimados los a partir de datos muestrales, se requiere de alguna medida para verificar la confiabilidad o precisión de los estimadores y En estadística la precisión de un valor estimado es medida por su desviación estándar o error estándar.
Desarrollando una demostración matemática se puede concluir que:
El estimador de mínimos cuadrados de la verdadera varianza de los errores es:
DETERMINACION DE LA ECUACION DE REGRESION
La ecuación de la recta de regresión permite pronosticar la puntuación que alcanzará cada sujeto en una variable Y conociendo su puntuación en otra variable X. A la variable Y se le denomina criterio y a la variable X predictor.
Sin embargo, raramente la nube de puntos que representa la relación entre dos variables X e Y adopta la forma de una línea recta perfecta. En el caso en que exista una relación alta entre las variables, la nube de puntos tiende a parecerse a una recta. Sólo en el caso de rxy=1 la nube de puntos se ajusta perfectamente a la línea recta.
Teniendo esto en cuenta, la recta de regresión es la línea recta que mejor se ajusta a la nube de puntos para dos variables X e Y, es decir, la que permitiría minimizar el error medio cometido al hacer los pronósticos como si la nube de puntos tuviera una forma lineal.
Por ejemplo: Consideremos un grupo de 4 personas para las que conocemos sus puntuaciones en determinadas variables X e Y, según se muestra en las dos primeras columnas de la siguiente tabla:
X Y Y´ Y´-Y (Y´-Y)2
5
6
7
8 3
2
4
5 2
4
6
8 -1
2
2
3 1
4
4
9
A partir de estos valores, y suponiendo que existe una relación lineal entre X e Y, podemos tratar de pronosticar el valor que alcanzará en la variable Y un sujeto, conociendo su puntuación en la variable X.
Supongamos que la relación existente entre ambas variables viene determinada por la recta Y = 2X-8. Para comprobar si esta recta permite realizar un buen pronóstico, comprobaremos si los valores que toma Y para los cuatro sujetos (según la recta) coinciden con los que efectivamente hemos observado. Denominamos Y´ a las puntuaciones pronosticadas usando la recta Y = 2X-8.
Así observamos que la puntuación pronosticada para el primer sujeto es de 2, mientras que la puntuación real obtenida por dicho sujeto ha sido de 3.Se ha cometido un error en la predicción, que viene determinado por (Y´-Y) (a menudo interesa que el error no aparezca negativo, es decir, nos da igual que sea por exceso o por defecto; una forma de evitar el signo es considerando las diferencias al cuadrado).
La diferencia entre las puntuaciones pronosticadas y las observadas en los sujetos se aprecian en la figura 3, que representa el diagrama de dispersión y la ecuación de la recta utilizada para predecir los valores Y´.
[D]
Figura 3: Diagrama de dispersión y predicción de la recta Y=2X+8
Como hemos podido comprobar, la recta no estima demasiado bien los valores de Y´. Nuestro interés se centrará en encontrar la recta que permita llevar a cabo una estimación de los valores de Y´ con el menor error posible. Esa recta es la que denominaremos recta de regresión de Y sobre X.
El criterio que ha de satisfacer esta recta, es que la suma de los errores cuadráticos ( [D]) en la predicción de Y a partir de X sea mínima.
La recta de regresión vendrá determinada por una ecuación del tipo: Y´= A+BX.
El valor de las constantes A y B puede ser hallado a partir del cálculo diferencial. Presentamos en el siguiente cuadro los valores de A y B en el caso de que trabajemos con puntuaciones directas, diferenciales y típicas, y pretendamos calcular las constantes correspondientes a la recta de regresión de Y sobre X
ECUACIÓN DE LA RECTA DE REGRESIÓN DE Y SOBRE X
Puntuaciones Directas Puntuaciones Diferenciales Puntuaciones Típicas
Y´=A+BX
A= -B
y´=A+Bx
A=0
A=0
B= rxy
MEDIDAS DE VARIACION
Medidas de variabilidad - introducción
Una medida de dispersión o variabilidad nos determina el grado de acercamiento o distanciamiento de los valores de una distribución frente a su promedio de localización, sobre la base de que entre más grande sea el grado de variación menor uniformidad tendrán los datos (sinónimo de heterogeneidad) y por lo tanto menor representatividad o confiabilidad del promedio de tendencia central o localización por haber sido obtenido de datos dispersos. Por el contrario, si este valor es pequeño (respecto a la unidad de medida) entonces hay una gran uniformidad entre los datos. Cuando es cero quiere decir que todos los datos son iguales.
Hay básicamente dos tipos de medidas de dispersión: Medidas Absolutas y Medidas Relativas. Las absolutas se caracterizan por ser números concretos, es decir, valores expresados en las mismas unidades de la variable en estudio y que por lo tanto no permiten comparaciones o análisis respecto a la mayor o menor dispersión de series expresadas en diferentes unidades. Estas medidas son: la varianza, la desviación estándar y el rango intercuartilico.
Las medidas relativas de dispersión son valores abstractos, es decir, medidas adimensionales y por lo tanto no expresadas en ninguna unidad especifica, obviando así el inconveniente señalado para las medidas absolutas. La principal medida es el coeficiente de variación.
La varianza muestral
Se puede definir como el "casi promedio" de los cuadrados de las desviaciones de los datos con respecto a la media muestral. Su formula matemática para el caso de datos referentes a una muestra es:
Y para el caso de datos de una población es dada por
Propiedades de la varianza
Dos propiedades importantes de la varianza
...