Departamento Ingeniería Industrial Análisis de Datos II
Enviado por Microzoft exel • 21 de Octubre de 2020 • Examen • 526 Palabras (3 Páginas) • 107 Visitas
[pic 1][pic 2][pic 3]
Departamento Ingeniería Industrial
Análisis de Datos II
Parcial 2
Nombre: __________________________________ Código: _______________________________
NOTA: Debe enviar al link habilitado en el catálogo web un archivo en Word con las respuestas y análisis, y un archivo en R con ambos problemas.
Problema 1 (1.5 pts)
Un banco de la ciudad desea predecir si sus clientes van a estar en mora o en estado de cuenta normal (1 si entra en mora, 0 en caso contrario). Se recolecta información de 30000 clientes en donde se recopila la información del archivo credit.csv con las siguientes variables:
X1: Cupo Tarjeta
X2: Género (1 = male; 2 = female).
X3: Educación (1 = graduate school; 2 = university; 3 = high school; 4 = others).
X4: Estado Civil (1 = married; 2 = single; 3 = others).
X5: Age (year)
Y: Si está en mora o no , 1 o 0
Responda las siguientes preguntas:
- Encuentre el mejor modelo posible para la predicción del estado de cuenta de los clientes del banco. Analice e interprete variables significativas y el desempeño del modelo
- Considera adecuado el modelo?. Que recomendación haría al banco para mejorar el desempeño del modelo?
Solución:
credit<-read.csv(file="credit.csv")
credit$X2<-factor(credit$X2)
credit$X3<-factor(credit$X3)
credit$X4<-factor(credit$X4)
fitl<-glm(Y~.-ID,data=credit,family=binomial)
summary(fitl)
fitl<-glm(Y~.-ID-X3,data=credit,family=binomial)
summary(fitl)
credit$theta<-predict(fitl,type="response")
library(pROC)
theta<-predict(fitl,type="response",newdata=credit)
roc1<-roc(credit$Y,credit$theta)
roc1$auc
plot(roc1)
coords(roc1, "best", ret=c("threshold", "specificity", "sensitivity"))
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.877e+00 4.761e-01 -3.942 8.07e-05 ***
X1 -3.408e-06 1.279e-07 -26.652 < 2e-16 ***
X22 -1.719e-01 2.886e-02 -5.958 2.55e-09 ***
X41 1.219e+00 4.714e-01 2.586 0.00972 **
X42 1.011e+00 4.715e-01 2.143 0.03210 *
X43 1.079e+00 4.881e-01 2.210 0.02708 *
X5 3.724e-03 1.707e-03 2.182 0.02909 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
AUC=0.62
threshold specificity sensitivity
0.2337214 0.5836329 0.6056359
[pic 4]
Problema 2 (2.0 pts)
Una empresa Naviera registra el número de incidentes que sufrieron sus barcos durante el tiempo de operación. El archivo “ships.csv” contiene la información de las siguientes variables:
...