Caso práctico grupal
Victor LeonDocumentos de Investigación27 de Junio de 2021
635 Palabras (3 Páginas)340 Visitas
Caso práctico grupal
[pic 1][pic 2][pic 3]
[pic 4]
1. Justifica razonablemente los predictores elegidos
Las variables de interés que identificamos como indicador de respuesta sobre los clientes son: Number Children, YearlyInCome, NumberCarsOwned, Birth Year AvgMonthSpend lo cuales nos permitirá identificar si es un posible comprador de acuerdo con las características presentadas.
Se analizó que el nivel de niños en casa es alto lo cual permitirá identificar la viabilidad de la compra, ésta es relacionada con los ingresos anuales lo cual nos permitirá realizar el proceso de ventas con los clientes que si tienen la necesidad de adquirir bicicletas y que tenga el nivel de ingresos esperado para la compra.
[pic 5]
2. La elección del modelo de clasificación está debidamente justificada
En este caso utilizamos un modelo de árbol de decisión, ya que al ser una variable (Y/N) nos permitió identificar el segmento con mayor probabilidad de compra. El modelo de clasificación cruzada utilizado es correcto debido a que nos permite evaluar los resultados del conjunto de datos de acuerdo con las variables predictoras detalladas anteriormente, la validación cruzada permite comprobar si los datos del análisis son viables de acuerdo con la muestra establecida.
La validación de datos se puede realizar identificando el resultado obtenido de las muestras estimadas sobre las reales.
formula_1<- "BikeBuyerText ~ HomeOwnerFlag +NumberCarsOwned + NumberChildrenAtHome+ YearlyIncome+ AvgMonthSpend + birth_YEAR"
[pic 6]
3. Explica correctamente la matriz de confusión generada
Objetivo del modelo
El objetivo fue crear un modelo que permita etiquetar a un cliente como posible comprador de bicicleta, en función de sus características. Basándose en el valor de los datos que contiene la hoja de información sobre si han comprado alguna bicicleta (BikeBuyerText) y el gasto medio mensual que hacen comprando recambios (AvgMonthSpend).
Regresión logística
En este ejemplo, aplicamos el modelo de clasificación cruzada. La matriz de confusión trata de un modelo de probabilidad lineal, en el que la probabilidad condicionada es función lineal de los valores de las variables de entrada. Por tanto, obtenemos la probabilidad de que la variable dependiente tenga un valor categórico u otro (en nuestro ejemplo o “infidelity”= 0, o “infidelity”= 1), en función de los valores de las variables de entrada.
Evaluación del modelo
Llegado el momento de evaluar el modelo, es cuando vamos a echar mano de la matriz de confusión. Para ello, dividimos el dataset en dos partes. Dejamos un 75% de los datos como datos de entrenamiento (train), y reservamos el 25% restando como datos de prueba (test). A continuación, entrenamos el modelo de nuevo, pero ahora sólo con los datos de entrenamiento.
Matriz de confusión
[pic 7]
La matriz de confusión obtenida fue la siguiente:
[pic 8]
[pic 9]
4. Realiza y razona debidamente la predicción realizada
En este caso la predicción realizada tiene un accuracy del 77% , la matriz de confusión muestra que para el data set de entrenamiento, pudo predecir correctamente los valores positivos en un 82% y los negativos en un 74%.
[pic 10]
De acuerdo con el árbol de decisión se pudo identificar que el segmento de población con mayor probabilidad de compra son las personas que tienen niños en casa, y que tienen un ingreso anual mayor a 30000.
...