Regresion logistica.
clamunozgApuntes22 de Noviembre de 2016
1.877 Palabras (8 Páginas)249 Visitas
Regresión Logística.
Regresión logística
Permite modelar la relación entre una variable respuesta de naturaleza dicotómica (binaria) en relación a una o más variables independientes o regresoras.
Consideremos el siguiente modelo simple:
Yi β0 β1Xi εi
Donde Y = 1 (Si tiene la característica ) ,Y= 0 (Si no)
Suponiendo que E(εi) = 0, como es lo usual, se obtiene que
E(Yi / Xi) = β0 + β1Xi
Regresión logística ,
Ahora suponiendo que pi = P(Yi = 1), es decir, la probabilidad que el evento ocurra, y 1 - pi = P(Yi = 0), es decir la probabilidad que el evento no ocurra, la variable Y tiene una distribución Bernoulli.
Donde:
E(Yi) = 0* (1 - pi) + 1*pi = pi
Comparando las ecuaciones (1) y (2), se puede igualar
E(Yi / Xi) = β0 + β1Xi = pi
Pero, como pi es una probabilidad, 0 ≤ E(Yi / Xi) ≤ 1.
El modelo de regresión convencional no puede asegurar
que los valores predichos estén entre 0 y 1.
Modelo logit o modelo logistico
El modelo de regresión logística puede ser usado para predecir la probabilidad (pi) de que la variable respuesta asuma un valor determinado, por ejemplo, probabilidad de éxito (y=1) en una variable dicotómica que asume los valores 0 y 1.
De lo anterior se obtiene la siguiente relación, que sí satisface la condición de asegurar predicciones en el intervalo (0,1):
pi E(Y
1 | Xi )
1 _
1 e(β1 β2 Xi )
La ecuación representa lo que se conoce como función de
distribución logística (acumulada).
Modelo logit o modelo logistico
Para simplificar la exposición, asumiremos Zi=1+2Xi ,
de donde:
pi
1 _
1 eZi
ez _
1 ez
Si pi es la probabilidad éxito (tiene la característica), entonces (1 – pi) es la probabilidad de no poseer dicha
característica:
1 p
1 _
i 1
e Zi
Por consiguiente, se puede escribir el cuociente de
probabilidades a favor y en contra del éxito:
pi _
1 pi
1 eZi
1 e _ Zi
eZi
[pic 1]
Esta expresión se conoce como la razón de probabilidad
a favor del éxito.
Modelo logit o modelo logistico
Si se toma el logaritmo natural a dicho cuociente, se obtiene un resultado muy interesante, a saber:
pi
Li ln
Zi
β1 β2 Xi
1 pi
Note que L, el logaritmo de la razón de probabilidades a
favor y en contra del éxito, no es solamente lineal en X, sino también (desde el punto de vista de estimación) lineal en los parámetros. L es llamado logit y de ahí surge el nombre modelo logit o modelo logistico.
Para fines de estimación, se escribe de la siguiente manera:
pi
Li ln
1 pi
β1 β2 Xi
εi
Modelo logit o modelo logistico
Cuando se analiza un modelo de regresión logística, se
opera en forma muy similar al modelo de regresión convencional, pero hay algunos aspectos importantes a tener en cuenta:
No se calcula R2. Una forma de saber si un modelo es mejor que otro es a través de la DEVIANZA, pero en este caso, los valores pequeños (incluso negativos) son los que indican un mejor ajuste.
No se requiere el cumplimiento de supuestos ni diagnósticos.
Se cuenta con una tabla que presenta los valores p del estadístico de Wald asociados a cada predictora, permitiendo eliminar aquellas que no son significativas para el modelo hasta lograr un modelo adecuado.
Modelo logit o modelo logistico
Se cuenta con intervalos de confianza para los coeficientes.
Se pueden obtener los residuos y los predichos.
Hay que tener cuidado de verificar que el algoritmo ha convergido, en caso contrario, el resultado no es confiable. Esto puede deberse a multicolinealidad o a que las variables no son significativas. Conviene probar otros modelos.
Las estimaciones puntuales de los coeficientes permiten estimar pi, condicionado a los valores de las predictoras.
Ejemplo: Se presenta a continuación un ejemplo en el que se
estudia el efecto de la edad, la pérdida de peso inicial como
% del peso normal (PPI) y el sexo (1:Masculinos,
0:Femeninos) en la sobrevida de pacientes con cáncer de pulmón evaluada a los tres meses de iniciado el tratamiento (Dra. Norma Pilnik, Hospital Tránsito Cáceres de Allende, Córdoba).
Edad | PPI | sexo (1=varón) | sobrevida (1=muere) |
68 | 19 | 0 | 0 |
69 | 9 | 1 | 0 |
45 | 0 | 1 | 0 |
63 | 0 | 1 | 0 |
39 | 0 | 0 | 0 |
70 | 0 | 1 | 0 |
53 | 5 | 1 | 0 |
53 | 20 | 0 | 0 |
53 | 25 | 1 | 1 |
44 | 6 | 1 | 0 |
59 | 22 | 1 | 0 |
50 | 0 | 0 | 0 |
63 | 27 | 1 | 0 |
58 | 15 | 1 | 1 |
55 | 3 | 1 | 0 |
57 | 0 | 1 | 0 |
65 | 28 | 1 | 0 |
65 | 21 | 0 | 0 |
46 | 20 | 1 | 0 |
53 | 16 | 1 | 0 |
54 | 10 | 1 | 1 |
68 | 22 | 1 | 1 |
70 | 12 | 1 | 0 |
62 | 11 | 1 | 0 |
70 | 10 | 1 | 0 |
56 | 0 | 1 | 0 |
53 | 10 | 1 | 0 |
66 | 12 | 1 | 0 |
52 | 17 | 1 | 0 |
67 | 11 | 1 | 0 |
...