VARIABLES FICTICIAS EN REGRESIÓN
variables2 de Mayo de 2014
11.505 Palabras (47 Páginas)551 Visitas
UNIDAD TEMÁTICA 02
VARIABLES
EXPLICATIVAS
CUALITATIVAS
INTRODUCCIÓN
1. MODELO CON UNA VARIABLE EXPLICATIVA CUALITATIVA
2. MODELO CON DOS O MÁS VARIABLES EXPLICATIVAS CUALITATIVAS
3. EJEMPLOS DE APLICACIÓN
RESUMEN Y CONCLUSIONES
CUESTIONES
42 MÍNIMOS CUADRADOS ORDINARIOS
INTRODUCCIÓN
En la relación que liga a la variable explicada con la variable explicativa tal vez
fuera interesante tener en cuenta un nuevo tipo de variable de naturaleza diferente
de las dos anteriores, una variable de tipo cualitativo, una variable que identifique
a dos o más grupos en los datos disponibles. Porque si bien el consumo de un
producto puede explicarse mediante la renta de los consumidores y por el precio del
propio producto, parece claro que la relación pueda ser diferente dependiendo de
si se está en un momento de crisis económica o de si no se está. Y estar, o no estar
en crisis, no es una variable cuantitativa que pueda formar parte (sin más) del
modelo de regresión.
De la misma forma tal vez interese agrupar los valores de una variable cuantitativa
en ciertos valores representativos, y así convertirla en una variable cualitativa. En
esencia, se estarían identificando diferentes poblaciones en el modelo de regresión,
con lo que sería posible establecer y cuantificar las diferencias existentes entre
dichas poblaciones. Algunos ejemplos de ello son:
- sexo (hombre, mujer)
- raza (blanco, negro, otros)
- estado civil (soltero, casado, divorciado, viudo)
- educación (analfabeto, est. básicos, est. medios, est. superiores)
- edad (menor de 16, entre 16 y 55, mayor de 55 años)
- poder adquisitivo (mísero, pobre, medio, rico, podrido de dinero)
En estos casos se recurrirá a las llamadas variables ficticias, unas variables que,
mediante una codificación numérica adecuada, indican los niveles de la variable
cualitativa para así poder utilizarlas en los modelos de regresión. Se verá cómo
pueden utilizarse para describir y cuantificar efectos temporales, cuando los grupos
se refieren a distintos períodos de tiempo; espaciales, cuando se refieren a regiones
o países; industriales, cuando hacen referencia al sector industrial, etc. En resumen,
las variables ficticias son útiles para separar las observaciones muestrales en sus
respectivas poblaciones, y para encontrar así influencias de una variable cualitativa
en la variable cuantitativa estudiada. En los dos primeros apartados de la presente
unidad temática se va a ver la forma en que se crean las variables ficticias, y la
interpretación que tienen los parámetros que las acompañan, comenzando de forma
simple con una sola variable cualitativa, y pasando al caso de dos o más variables
cualitativas.
Tras la definición y la interpretación de las variables ficticias, en el tercer apartado
se presentarán algunos ejemplos de aplicación. El primer ejemplo muestra el uso
de las variables ficticias para tener en cuenta en el modelo la estacionalidad de las
variables analizadas, el segundo caso corresponde a la regresión por tramos, que
corresponde al ajuste de una recta quebrada en un punto, y en último lugar se
presenta la forma de analizar en un modelo la combinación de datos de corte
transversal (grupos) y longitudinal (tiempo).
VARIABLES FICTICIAS 43
1. MODELO CON UNA VARIABLE EXPLICATIVA CUALITATIVA.
Para introducir el estudio de las variables cualitativas, se va a plantear el
problema de si el salario que reciben los empleados, que es función de sus años de
experiencia, depende también de su sexo. A lo largo del presente apartado se
propondrán una serie de modelos y se analizarán los significados que tienen sus
parámetros. El objetivo del apartado no es tanto proponer el modelo final, que
explique la relación entre ambas (un modelo cuadrático), como el entender los
cambios que se producen en el significado de los parámetros de cada nuevo modelo
al ir añadiendo variables ficticias, las variables que permitirán introducir las variables
cualitativas en los modelos de regresión.
Ejemplo 2.1 Se dispone de información sobre los salarios (en miles de pesetas), los años de
experiencia y el sexo de un determinado número de trabajadores (fuente: elaborado a partir de datos
del INE). A la vista de los datos presentados, ¿puede afirmarse que el sexo es un factor diferenciador
del salario percibido?.
Figura 2.1: Salario frente a años de experiencia y sexo.
Tabla 2.1: Salario frente a años
de experiencia y sexo.
SALARIO AÑOS DE
EXPERIENCIA
HOMBRES
1010,7 0
2261,7 1
2994,6 4
3258,2 7
3633,0 11
3604,2 16
MUJERES
714,3 0
1574,3 1
2150,9 4
2369,4 7
2522,6 11
2487,4 16
Fuente: confeccionada a partir de datos
INE, base de datos Tempus.
1.1. ERRORES HABITUALES EN LA PROPUESTA DE MODELOS CON
VARIABLES CUALITATIVAS
Al objeto de responder a la pregunta de si el sexo influye o no en el salario
percibido, uno podría pensar en plantear los dos siguientes modelos:
44 MÍNIMOS CUADRADOS ORDINARIOS
para los hombres
para las mujeres
donde 1 es el salario medio percibido por los hombres sin experiencia laboral y 1
es el incremento medio del salario percibido por año de experiencia adquirido para
los hombres, y 2 es el salario medio percibido por las mujeres sin experiencia
laboral y 2 es el incremento medio del salario percibido por año de experiencia
adquirido para las mujeres. Todo esto sin más que aplicar las definiciones vistas en
la unidad temática anterior.
Una vez calculados los parámetros, bastaría con comparar sus valores y
comprobar que ambas rectas son diferentes. Señalar que la palabra utilizada es
calcular, lo cual implica que se dispone de toda la población, y que se realiza el
cálculo de los valores de los parámetros del modelo, valores reales, valores únicos.
Sin embargo, uno dispone habitualmente de una muestra, y por lo tanto estima los
valores de los parámetros, valores aproximados que dependen de la muestra , y que
cambian según sea la muestra.
Autoevaluación 2.1: ¿Qué inconveniente presenta esta forma de proceder?. Utilizar los
ajustes realizados que aparecen en el Cuadro 2.1 para responder a la pregunta.
Cuadro 2.1: Intervalos de confianza para los parámetros de ambos modelos.
Una alternativa sería introducir la propia variable sexo en la regresión. Para ello
podría pensarse en asignar valores numéricos a la variable cualitativa sexo (X1),
convertirla de esta forma en una variable cuantitativa, e incluirla sin más en el
modelo de regresión. Así, por ejemplo, se asignaría el valor 1 para hombres, y el
valor 2 para mujeres, con lo que el modelo de regresión sería
95,0% confidence intervals for coefficient estimates HOMBRES
-----------------------------------------------------------------------------
Standard
Parameter Estimate Error Lower Limit Upper Limit
-----------------------------------------------------------------------------
CONSTANT 1911,44 393,311 819,437 3003,45
NEXPER 135,737 45,773 8,65009 262,823
-----------------------------------------------------------------------------
95,0% confidence intervals for coefficient estimates MUJERES
-----------------------------------------------------------------------------
Standard
Parameter Estimate Error Lower Limit Upper Limit
-----------------------------------------------------------------------------
CONSTANT 1369,97 293,576 554,87 2185,07
NEXPER 92,2842 34,166 -2,57607 187,144
-----------------------------------------------------------------------------
VARIABLES FICTICIAS 45
En este modelo, el parámetro 31 sería muy interesante, pues cuantificaría algún
concepto (habrá que determinar su significado) que relaciona salario y sexo junto
con los años de experiencia. Según la expresión, el valor esperado del salario
cuando no se tiene experiencia laboral (AÑOSEXP=0) y se es hombre (SEXO=1)
sería 30+31, mientras que el valor esperado del salario en el caso de ser mujer
(SEXO=2), y en las mismas circunstancias, sería 30+231. Ahora se averigua el
significado de 31 y listo, si es que tiene un significado.
Autoevaluación 2.2: ¿Por qué la contribución de #1 (sea lo que sea lo que signifique) es
el doble para mujeres que para hombres?, ¿y si los hombres tienen ahora el código 2 y las
mujeres el 1?. ¿Qué significa #1?.
1.2. VARIABLES FICTICIAS
La forma de introducir variables cualitativas en los modelos de regresión son las
variables ficticias. Estas variables se crean de forma que sólo toman los valores 0
ó 1, y se utilizan como variables indicadoras de los niveles de la variable cualitativa.
Si se definen las variables D1 y D2, variables ficticias que toman los valores:
D1 0 si es hombre
9 1 si es mujer
D2 1 si
...