Regresion logistica

Roberto GarcíaApuntes11 de Noviembre de 2015

1.724 Palabras (7 Páginas)446 Visitas

Página 1 de 7

Regression Logistica [Apuntes]

La regresión logística es la regresión múltiple pero con una variable de resultado que es una variables categóricas variables predictoras y que son continuas o categóricas.

En su forma más simple, esto significa que podemos predecir cuál de las dos categorías de una persona es probable que pertenecen a dado alguna otra información.

Cuando estamos tratando de predecir la pertenencia de los dos únicos resultados categóricos el análisis se conoce como regresión logística binaria, pero cuando queremos predecir membresía de más de dos categorías que usamos regresión logística multinomial (o policotómico).

La ecuación de regresión logística tiene muchas similitudes con las ecuaciones de regresión multiple. En su forma más simple, cuando sólo hay un predictor X1, la ecuación de regresión logística de la que la probabilidad de Y es predicho está dada por:

P(Y) = 1/ 1+e^-(b₀+ b₁X₁)

en la que P(Y) es la probabilidad de Y que ocurre, “e" es la base de los logaritmos naturales, y los otros coeficientes forman una combinación lineal de la misma como en la regresión simple.

para más predictores es:

P(Y) = 1/ 1+e^-(b₀+ b₁X₁ + b₂X₂ + …)

Uno de los supuestos de la regresión lineal es que la relación entre las variables es lineal. Cuando la variable de resultado es categórico, esta suposición es violada (Berry, 1993). Una forma de evitar este problema es transformar los datos mediante la transformación logarítmica (ver Berry & Feldman, 1985)

Esta transformación es una forma de expresar una relación no lineal de una manera lineal. La ecuación de regresión logística se ha descrito anteriormente se basa en este principio: expresa la ecuación de regresión lineal múltiple en términos logarítmicos (llamado LOGIT) y por lo tanto supera el problema de la violación de la asunción de linealidad.

También, al igual que la regresión lineal, cada variable predictora en la ecuación de regresión logística tiene su propio coeficiente.

Estos parámetros se estiman mediante el ajuste de modelos, basado en los predictores disponibles, a los datos observados. El modelo elegido será el que, cuando los valores de las variables predictoras se colocan en el mismo, se traduce en valores de Y más cercano a los valores observados. Específicamente, los valores de los parámetros se estiman utilizando la estimación de máxima verosimilitud, que selecciona coeficientes que hacen que los valores observados más probable que haya ocurrido.

***

Evaluación del modelo: la estadística de log-verosimilitud

El modelo de regresión logística predice la probabilidad de que ocurra un evento para una persona determinada (podríamos denominar esto como P(Yᵢ).

En regresión múltiple que si queremos evaluar si un modelo se ajusta a los datos podemos comparar los valores observados y predichos de los resultados (R²).

En la regresión logística, podemos utilizar los valores observados y pronosticados para evaluar el ajuste del modelo. La medida que utilizamos es el log-likelihood:

log-likelihood = ∑[Y ln(P(Yᵢ)) + (1-Yᵢ) ln(1-P(Yᵢ))]

log-likelihood = log(L) = LL( ) = ∑[y*log(θ(x)) (m-y)*log(1-θ(x)) + log(m : y)]

Se basa en la suma de las probabilidades asociadas con los resultados previstos y los reales (Tabachnick y Fidell, 2007).

La estadística de log-likelihood es análoga a la suma residual de cuadrados (RSS) en regresión múltiple, que es un indicador de la cantidad de información sin explicación después de que el modelo ha sido equipado: Grandes valores de log-likelihood indican modelos estadísticos mal ajustados.

Es posible comparar estos modelos observando la diferencia entre sus log-likelihood.

Una opción es comparar un modelo de regresión logística con una especie de estado de "línea de base” (modelo saturado). El estado de línea de base que se utiliza por lo general es el modelo que se incluye sólo la constante. La desviación asociada con un modelo de regresión logística (M) se basa en la comparación del log-likelihood(M) con la log-likelihood(S) o modelo saturado que tiene un parámetro para cada la observación.

En regresión logística no podemos usar la puntuación media porque nuestro resultado es de ceros y unos, y por lo que la media no tiene sentido. Sin embargo, si se conoce la frecuencia de ceros y unos, entonces la mejor estimación será la categoría con el mayor número de casos.

Esto es, el modelo de regresión logística cuando se incluye sólo la constante. Si a continuación, añadimos uno o más predictores con el modelo, podemos calcular la mejora del modelo de la siguiente manera:

desviancia:

χ² = 2[LL(new) - LL(baseline)]

G² = 2[log(L_s) - log(L_m)]

(df=k_new - k_baseline)

*se multiplica por 2 por que el resultado se utiliza una distribución chi-cuadrado (revisar log-likehood ratio).

La desviación se refiere a menudo como -2LL debido a la forma en que se calcula. En realidad es bastante conveniente para (casi) siempre usar la desviación en lugar del log-likelihood, ya que tiene una distribución de chi-cuadrado.

La distribución chi-cuadrado utilizada tiene df igual al número de parámetros, k en el nuevo modelo menos el número de parámetros en el modelo de línea de base (df=k_new - k_baseline)

El número de parámetros en el modelo de línea de base siempre será 1 (la constante es el único parámetro que ser estimado); cualquier modelo posterior tendrá grados de libertad igual al número de predictores más 1 (es decir, el número de predictores más uno parámetro que representa la constante).

H₀: modelo de regresión logístico es apropiado.

H₁:

...

Descargar como (para miembros actualizados) txt (11 Kb) pdf (156 Kb) docx (825 Kb)

Leer 6 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com