MAESTRÍA EN TECNOLOGÍAS DE LA INFORMACIÓN
Nell Miranda RomeroApuntes2 de Octubre de 2021
634 Palabras (3 Páginas)54 Visitas
Maestrantes:
Tema:
Módulo:
Docente:
MAESTRÍA EN TECNOLOGÍAS DE LA
[pic 1]
INFORMACIÓN
David Chaguay, Nell Miranda, David Andrade, Efraín Macías
Modelos de clasificación
APRENDIZAJE DE MÁQUINA (MACHINE LEARNING)
Prof. PURIS CÁCERES AMILKAR YUDIER
1
Introducción:
Según se comentó en el primer artículo de esta serie, la clasificación es una subcategoría del aprendizaje supervisado en la que el objetivo es predecir las etiquetas de clase categóricas (discreta, valores no ordenados, pertenencia a grupo) de las nuevas instancias, basándonos en observaciones pasadas.
Es importante indicar que no todos los modelos de clasificación serán útiles para separar adecuadamente las diferentes clases de un conjunto de datos. Algunos algoritmos, como el “perceptron” (que se basa en redes neuronales artificiales básicas) no convergerán al aprender los pesos del modelo si las clases no pueden separarse por una frontera de decisión lineal.
Preprocesado
- En el preprocesado nuestros datos tiene que ser cero no pueden aparecer datos ausentes todo esto se puede lograr mediante el proceso RandomForest y Sample.
[pic 2]
Imputación de Variables con el método RandomForest[pic 3]
[pic 4]
Eliminación de Variables Innecesarias
[pic 5]
- Después lo que hace es eliminar las variables NAME- TICKET- CABIN- PASSENGER las cuales no son necesarias para el análisis y después se los trasforman a variables categóricas. [pic 6]
Transformación de Variables Categóricas
[pic 7]
- Como se puede observar ya no se muestran variables ausentes missing todo se refleja en cero. [pic 8]
Información preprocesada sin Datos Ausentes
[pic 9]
- Después analizamos los modelos bayesiano y el modelo árbol de decisión se lo corre para que se almacene o lo procese y en el análisis de la métrica no muestre las matrices. [pic 10][pic 11]
Matrices [pic 12]
Como se puede observar en la imagen tenemos las dos matrices bayesiano y árbol de decisión veamos cual es el mejor modelo.
Nos muestra en la primera matriz 501 pasajeros que van a morir y se equivoca 48 veces vemos que 0 con 0 significa que se van a morir y el 1 es el que lleva la contraria.
En la segunda matriz nos dicen que 513 pasajeros iban a morir y se murieron y solo se equivocan 39 veces.
Por obvias razones el mejor modelo es el de árbol de decisión.
- Después calculamos el Accuracy de igual manera el que más se acerca a 1 es el mejor modelo en este caso es el de árbol de decisión que tiene 0.83%
Accuracy
[pic 13]
- Y para calcular nuestro Auc de igual manera sigue predominando el árbol de decisión con un 0.80% sobre el bayesiano que es de 0.76% para resumir para el análisis nuestro mejor modelo fue el árbol de decisión.
Auc [pic 14]
Conclusión
Para empezar nuestro estudio escogimos la data del Titanic y primero realizamos la imputación de las variables mediante el método randomforest, se procedió con la eliminación de variables innecesarias y también con la transformación a variables categóricas.
Para nuestro análisis utilizamos los modelos Bayesianos y Arboles de decisión en el resultados arrojados en las matrices obtuvimos mejor respuestas con el modelo de Arboles de decisión teniendo 513 pasajeros que se iban a fallecer y se equivocó 36 mucho más acertado que el modelo bayesiano. En nuestro Accuracy tuvimos resultados aceptables de igual forma el modelo que mostro un mejor accuracy fue el arboles con 83%.
...