Verificación de supuestos del modelo de regresión lineal (Assumption’s verification of linear regression model)

PEÑA SOTO ZAMARA LIZETHPráctica o problema6 de Octubre de 2015

2.056 Palabras (9 Páginas)399 Visitas

Página 1 de 9

Econometría II– GRUPO 6A

Taller #1: Verificación de supuestos del modelo de regresión lineal (Assumption’s verification of linear regression model)

Nombre: Andres Felipe Rojas Rodríguez – Código 304062113

Nombre: Jessica Lorena Balladares Tinjaca – Código 304009113

Nombre: Paula Andrea Chavez Wong- Código 304023113

Nombre: Zamara Lizeth Peña Soto – Código 304048113

Each group will make the exercise for a distinct municipality, in accordance with class assignation. The code could be consulted at DANE in next link:

http://geoportal.dane.gov.co:8084/Divipola/

La base de datos sbpro_gen20143.dta contiene información acerca de los resultados de la prueba Saber Pro (total) para 33.662 estudiantes de todo el país. Las variables que se consideran que puedan ser determinantes del puntaje (total) son: el género del estudiante (estu_genero, M:male, F:female), el estado civil del estudiante (estu_estado_civil, 1:soltero, 2 casado, 3:viudo, 4:separado, 5:unión libre), el estrato donde vive el estudiante (estu_estrato, 1 a 6, 8:rural), el ingreso mensual familiar donde habita el estudiante (fami_ing_fmliar_mensual, 1: menos de 1 SM, 2:entre 1 y 2 SM, 3:entre 2 y 3 SM, 4:entre 3 y 5 SM, 5:entre 5 y 7 SM, 6: entre 7 y 10 SM y 7: más de 10 SM) y la disponibilidad de internet en el hogar (econ_sn_internet). Realizar los ejercicios solo para el municipio designado, el código del municipio se encuentra en la variable estu_reside_codmpio. Calcule un promedio en base a los resultados de las 5 competencias: razonamiento cuantitativo, lectura crítica, comunicación escrita, inglés y competencias ciudadanas.

Realice un diagrama de dispersión del promedio versus estrato. ¿Qué observa en los datos? ¿Cuáles serían las consecuencias de este comportamiento sobre los estimadores de MCO? ¿Y sobre las varianzas?

Gráfico 1. Diagrama de Dispersión entre la Variable Total Y Estrato[pic 1]

Fuente: sbpro_gen20143.dta-Saber Pro

En el gráfico 1, se puede evidenciar un comportamiento entre las variables: estrato y promedio de los puntajes, que arroja los siguientes resultados

El estrato 6 obtuvo los resultados más constantes por encima del promedio de la población.
Los estratos 2 y 5 obtuvieron los mejores resultados, no obstante, el estrato 2 también obtuvo el peor resultado promedio de la prueba.
El estrato 3 obtuvo uno de los peores resultados de la prueba, sus resultados promedio fueron muy similares a los obtenidos por el estrato 2
Los estratos 1 y 4 lograron resultados constantes por encima de los peores resultados promedio y debajo de los mejores resultados promedio promedios.

Se puede concluir que el estrato 1, 2,3 a pesar de poseer condiciones de vulnerabilidad no tienen una diferencia significativa respecto a los estratos 4, 5,6.

Gráfico 2. Diagrama de dispersión entre las medias del promedio de resultados y el estrato.

[pic 2]

Fuente: sbpro_gen20143.dta-Saber Pro

En la anterior gráfica se encuentran comprimidas las variables, sin embargo, no es posible ver con claridad la existencia de una tendencia entre el puntaje total y el estrato, debido a que los datos por estrato están dispersos y ninguno toca la línea de tendencia. Se afirma que para un mayor estrato no necesariamente se obtiene un puntaje promedio mayor, la diferencia entre los puntajes y el estrato, no es significativa, pues la media del puntaje oscila entre 9,8 y 10.3

En base a las gráficas, se puede decir que los estimadores de MCO pueden tener problemas en su varianza, (problemas de Heterocedasticidad) porque en la gráfica 1 las observaciones varían bastante sobre la media, así que posiblemente los estimadores no sean eficientes, esto puede ocurrir porque no existe información suficiente para conseguir una estimación precisa de los parámetros del modelo. La varianza de los betas es muy pequeña. Se puede afirmar que el estrato es relevante para explicar el promedio a un nivel de significancia del 1%, sin embargo, el R-squared, determina que la variable independiente (estu_estrato) explica a la dependiente (prom) en tan solo un 3%.

La variable estrato es una variable discreta que mide el estrato donde reside el estudiante. Para cada uno de estos niveles calcule la varianza muestral con respecto al total. Describa la relación observada y si puede, grafique la varianza en función del estrato. ¿Se relaciona su respuesta con el problema encontrado en a)?

Tabla 1. Varianza por estrato

ESTU_ESTRATO	VARIANCE
1	0,4020607
2	0,4324987
3	0,4638337
4	0,4501434
5	0,5777987
6	0,4824409
Total	0,4792146

Fuente: sbpro_gen20143.dta-Saber Pro

Gráfico 3. Varianza por estratos

[pic 3]

Fuente: sbpro_gen20143.dta-Saber Pro

Al analizar la tabla 1 y el gráfico 3, se puede observar que:

Los estratos 1,2 y 3 estan muy cerca a la a la linea de tendencia o linea de prediccion del modelo, dada la varianza.
Se Observa que los estratos 4, 5 y 6 se encuentran mas dispersos en relación a los demas, dada la varianza. Por lo que se concluye que la varible estrato, tiene problemas de Heterocedasticidad.

Estime la regresión del promedio en función de todas las variables independientes sugeridas en el enunciado por MCO. De acuerdo con lo observado en b), ¿qué puede decir sobre los resultados? (discuta en términos de los estimadores y sus varianzas, encontrando la matriz de varianza – covarianza de los estimadores y realizando una prueba de detección de heterocedasticidad).

El modelo se especificó de la siguiente manera:

[pic 4]

Tabla 2. Modelo 1 [pic 5]

[pic 6]

Fuente: sbpro_gen20143.dta-Saber Pro

De acuerdo al anterior modelo, se puede observar de los signos de cada estimador que, el ingreso mensual familiar donde habita el estudiante y el estrato, influyen positivamente, lo que significa que a mayores ingresos y estrato, el estudiante obtendrá un mayor puntaje en la prueba SABER PRO. Además, se evidencia que las variables estu_estado_civil, estu_estrato y eco_sn_internet resultaron ser insignificantes en el modelo. Las variables ESTU_GENERO y fami_ing_fmliar_mensual fueron significantes al 5%.

En relación a los errores estándar, los más elevados pertenecen a las variables ESTU_GENERO y econ_sn_internet, mientras que los más bajos pertenecen a estu_estado_civil, estu_estrato (no relevantes), y fami_ing_fmliar_mensual (relevante).

Tabla 3. Varianza de las variables[pic 7]

Fuente: sbpro_gen20143.dta-Saber Pro

En la anterior tabla, se observa que los estimadores correspondientes a ESTU_GENERO y econ_sn_internet, tienen una varianza mínima si se comparan con los demás estimadores. La variable estu_estrato tiene la varianza más alta y de acuerdo a la gráfica del segundo punto (Gráfica 3.Varianza por estratos), se confirma que la variable estrato presenta heterocedasticidad.

Tabla 4. Matriz de varianza-covarianza

[pic 8]

Fuente: sbpro_gen20143.dta-Saber Pro

De acuerdo a la anterior gráfica, se puede observar la inexistencia de varianza constante en las variables, lo cual es una característica de que el modelo viola el supuesto de Homocedasticidad.

A través de la prueba Breusch-Pagan, se corrobora la Heterocedasticidad, ya que, el p-value es menor a 0.05

[pic 9]

Fuente: sbpro_gen20143.dta-Saber Pro

¿Cuál es la diferencia en promedio del puntaje total entre solteros y casados, y cuál entre solteros y los que viven en unión libre?

Tabla 6. Promedio puntaje total solteros-casados y solteros-unión libre

...

Descargar como (para miembros actualizados) txt (16 Kb) pdf (1 Mb) docx (762 Kb)

Leer 8 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com