Departamento Ingeniería Industrial Análisis de Datos II

Microzoft exelExamen21 de Octubre de 2020

526 Palabras (3 Páginas)174 Visitas

Página 1 de 3

[pic 1][pic 2][pic 3]

Departamento Ingeniería Industrial

Análisis de Datos II

Parcial 2

Nombre: __________________________________ Código: _______________________________

NOTA: Debe enviar al link habilitado en el catálogo web un archivo en Word con las respuestas y análisis, y un archivo en R con ambos problemas.

Problema 1 (1.5 pts)

Un banco de la ciudad desea predecir si sus clientes van a estar en mora o en estado de cuenta normal (1 si entra en mora, 0 en caso contrario). Se recolecta información de 30000 clientes en donde se recopila la información del archivo credit.csv con las siguientes variables:

X1: Cupo Tarjeta

X2: Género (1 = male; 2 = female).

X3: Educación (1 = graduate school; 2 = university; 3 = high school; 4 = others).

X4: Estado Civil (1 = married; 2 = single; 3 = others).

X5: Age (year)

Y: Si está en mora o no , 1 o 0

Responda las siguientes preguntas:

Encuentre el mejor modelo posible para la predicción del estado de cuenta de los clientes del banco. Analice e interprete variables significativas y el desempeño del modelo
Considera adecuado el modelo?. Que recomendación haría al banco para mejorar el desempeño del modelo?

Solución:

credit<-read.csv(file="credit.csv")

credit$X2<-factor(credit$X2)

credit$X3<-factor(credit$X3)

credit$X4<-factor(credit$X4)

fitl<-glm(Y~.-ID,data=credit,family=binomial)

summary(fitl)

fitl<-glm(Y~.-ID-X3,data=credit,family=binomial)

summary(fitl)

credit$theta<-predict(fitl,type="response")

library(pROC)

theta<-predict(fitl,type="response",newdata=credit)

roc1<-roc(credit$Y,credit$theta)

roc1$auc

plot(roc1)

coords(roc1, "best", ret=c("threshold", "specificity", "sensitivity"))

Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.877e+00 4.761e-01 -3.942 8.07e-05 ***

X1 -3.408e-06 1.279e-07 -26.652 < 2e-16 ***

X22 -1.719e-01 2.886e-02 -5.958 2.55e-09 ***

X41 1.219e+00 4.714e-01 2.586 0.00972 **

X42 1.011e+00 4.715e-01 2.143 0.03210 *

X43 1.079e+00 4.881e-01 2.210 0.02708 *

X5 3.724e-03 1.707e-03 2.182 0.02909 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

AUC=0.62

threshold specificity sensitivity

0.2337214 0.5836329 0.6056359

[pic 4]

Problema 2 (2.0 pts)

Una empresa Naviera registra el número de incidentes que sufrieron sus barcos durante el tiempo de operación. El archivo “ships.csv” contiene la información de las siguientes variables:

-type: Tipo de embarcación (a,b,c,d, y e)

-construction: Periodo en que se construyó (1960-64, 1965-70, 1970-74, 1975-79)

-operation: Periodo en el que el barco estuvo en funcionamiento (1960-74, 1975-79)

-months: Meses de servicio de la embarcación

-damage: Número de incidentes de la embarcación

Utilice un nivel de confianza del 99% para responder las siguientes preguntas:

Explore las variables y analice potenciales relaciones entre la variable dependiente y las potenciales variables predictoras.
Ajuste un modelo predictivo para el numero de incidentes en una embarcación. Discuta las variables predictoras que son significativas y cuales no. Evite eliminar observaciones.
Utilizando la información del caso de la embarcación tipo C con mayor número de incidentes encuentre el intervalo de confianza y predicción (nivel de confianza 99%). Interprete los resultados.

datos<-read.csv(file="ships.csv")

summary(datos)

datos<-datos[,-1]

pairs(datos)

datos$lmonths<-log(datos$months)

...

Descargar como (para miembros actualizados) txt (4 Kb) pdf (136 Kb) docx (294 Kb)

Leer 2 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com