ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Departamento Ingeniería Industrial Análisis de Datos II

Microzoft exelExamen21 de Octubre de 2020

526 Palabras (3 Páginas)129 Visitas

Página 1 de 3

[pic 1][pic 2][pic 3]

Departamento Ingeniería Industrial

Análisis de Datos II

Parcial 2

Nombre: __________________________________ Código: _______________________________

NOTA: Debe enviar al link habilitado en el catálogo web un archivo en Word con las respuestas y análisis, y un archivo en R con ambos problemas.

Problema 1 (1.5 pts)

Un banco de la ciudad desea predecir si sus clientes van a estar en mora o en estado de cuenta normal (1 si entra en mora, 0 en caso contrario). Se recolecta información de 30000 clientes en donde se recopila la información del archivo credit.csv con las siguientes variables:

X1: Cupo Tarjeta

X2: Género (1 = male; 2 = female).

X3: Educación (1 = graduate school; 2 = university; 3 = high school; 4 = others).

X4: Estado Civil (1 = married; 2 = single; 3 = others).

X5: Age (year)

Y: Si está en mora o no , 1 o 0

Responda las siguientes preguntas:

  1. Encuentre el mejor modelo posible para la predicción del estado de cuenta de los clientes del banco. Analice e interprete variables significativas y el desempeño del modelo
  2. Considera adecuado el modelo?. Que recomendación haría al banco para mejorar el desempeño del modelo?

Solución:

credit<-read.csv(file="credit.csv")

credit$X2<-factor(credit$X2)

credit$X3<-factor(credit$X3)

credit$X4<-factor(credit$X4)

fitl<-glm(Y~.-ID,data=credit,family=binomial)

summary(fitl)

fitl<-glm(Y~.-ID-X3,data=credit,family=binomial)

summary(fitl)

credit$theta<-predict(fitl,type="response")

library(pROC)

theta<-predict(fitl,type="response",newdata=credit)

roc1<-roc(credit$Y,credit$theta)

roc1$auc

plot(roc1)

coords(roc1, "best", ret=c("threshold", "specificity", "sensitivity"))

      Estimate Std. Error z value Pr(>|z|)    

(Intercept) -1.877e+00  4.761e-01  -3.942 8.07e-05 ***

X1          -3.408e-06  1.279e-07 -26.652  < 2e-16 ***

X22         -1.719e-01  2.886e-02  -5.958 2.55e-09 ***

X41          1.219e+00  4.714e-01   2.586  0.00972 **

X42          1.011e+00  4.715e-01   2.143  0.03210 *  

X43          1.079e+00  4.881e-01   2.210  0.02708 *  

X5           3.724e-03  1.707e-03   2.182  0.02909 *  

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

AUC=0.62

threshold specificity sensitivity

  0.2337214   0.5836329   0.6056359

[pic 4]

Problema 2 (2.0 pts)

Una empresa Naviera registra el número de incidentes que sufrieron sus barcos durante el tiempo de operación. El archivo “ships.csv” contiene la información de las siguientes variables:

-type: Tipo de embarcación (a,b,c,d, y e)

-construction: Periodo en que se construyó  (1960-64, 1965-70, 1970-74, 1975-79)

-operation: Periodo en el que el barco estuvo en funcionamiento (1960-74, 1975-79)

-months: Meses de servicio de la embarcación

-damage: Número de incidentes de la embarcación

Utilice un nivel de confianza del 99% para responder las siguientes preguntas:

  1. Explore las variables y analice potenciales relaciones entre la variable dependiente y las potenciales variables predictoras.
  2. Ajuste un modelo predictivo para el numero de incidentes en una embarcación. Discuta las variables predictoras que son significativas y cuales no. Evite eliminar observaciones.
  3. Utilizando la información del caso de la embarcación tipo C con mayor número de incidentes encuentre el intervalo de confianza y predicción (nivel de confianza 99%). Interprete los resultados.

datos<-read.csv(file="ships.csv")

summary(datos)

datos<-datos[,-1]

pairs(datos)

datos$lmonths<-log(datos$months)

...

Descargar como (para miembros actualizados) txt (4 Kb) pdf (136 Kb) docx (294 Kb)
Leer 2 páginas más »
Disponible sólo en Clubensayos.com