Laboratorio: Árboles y random forest para regresión y clasificación

David Andres Romero ArenasTrabajo18 de Diciembre de 2022

910 Palabras (4 Páginas)161 Visitas

Página 1 de 4

Asignatura	Datos del alumno	Fecha
Aprendizaje Automático	Apellidos:
Nombre:

Objetivos

Mediante este laboratorio se pretende que aplique los conocimientos adquiridos en los temas de Árboles y Random forest trabajando con un conjunto de datos médico.

Descripción

El conjunto de datos con el cual vamos a trabajar se encuentra en el siguiente link:

https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names

https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv

En esta primera actividad se trata de familiarizarse con los pasos generales a realizar para generar un modelo de aprendizaje automático. Podemos resumir estos pasos en:

Análisis descriptivo de los datos
Tratamiento de valores faltantes o nulos
Aplicación del algoritmo de aprendizaje automático
Evaluación

Para ello, se deben seguir los pasos que indicamos a continuación.

Metodología

Análisis descriptivo de los datos: Se adjunta un archivo .txt con la descripción de cada una de las columnas.

Comentar de manera general qué se puede observar en la figura 1.

[pic 1]

Figura 1. Resumen del conjunto de datos

En la figura 2 se pueden observar las estadísticas de las columnas numéricas. ¿Si se tienen 768 observaciones, a qué conclusiones podríamos llegar con estos datos? ¿Podríamos eliminar alguna variable?[pic 2]

Figura 2. Estadísticas de columnas numéricas.

En la figura 3 se muestran los histogramas de cada una de las columnas. ¿Qué se puede decir de la distribución de las variables?

[pic 3]

Figura 3. Histogramas de cada columna del conjunto de datos.

En la figura 3 tenemos el mapa de calor de la matriz de correlaciones, por favor revise cuáles son las variables que mayor correlación tienen y si se puede eliminar alguna columna con base en este mapa de calor. Justifique su respuesta:

[pic 4] [pic 5]

Figura 4. Matriz de correlación

Tratamiento de valores faltantes:

en la figura 5 se puede observar que en este conjunto de datos no existen valores faltantes.

[pic 6]

Figura 5. Columnas con valores faltantes o NA.

En la figura 6 podemos ver que existen columnas con ceros. Puede comentar ¿Qué puede estar ocurriendo con este conjunto de datos?

[pic 7]

Figura 6. Cantidad de ceros por columna.

¿Puede completar la descripción de la Figura 7? ¿Qué acciones se realizan?

[pic 8]

Figura 7. ¿?

Entrenamiento de algoritmos

Al aplicar árboles de decisión y Random Forest con el dataframe en los que se eliminaron todas las filas con valores faltantes. Las métricas obtenidas a partir de la matriz de confusión se ven en las figuras 8 y 9:

[pic 9]

[pic 10]

Figura 8. Métricas obtenidas de árboles de decisión. Validación cruzada 5 folds.

[pic 11]

[pic 12]

Figura 9. Métricas obtenidas al aplicar Random Forest. Validación cruzada 5 folds.

Comente los resultados.

Al aplicar árboles de decisión y Random Forest con el dataframe en los que se eliminaron columnas con un % de valores faltantes. Las métricas obtenidas a partir de la matriz de confusión se ven en las figuras 10 y 11:

[pic 13]

[pic 14]

...

Descargar como (para miembros actualizados) txt (7 Kb) pdf (420 Kb) docx (531 Kb)

Leer 3 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com