ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Laboratorio: Árboles y random forest para regresión y clasificación


Enviado por   •  18 de Diciembre de 2022  •  Trabajos  •  910 Palabras (4 Páginas)  •  80 Visitas

Página 1 de 4

Asignatura

Datos del alumno

Fecha

Aprendizaje Automático

Apellidos:

Nombre:

Laboratorio: Árboles y random forest para regresión y clasificación

Objetivos

Mediante este laboratorio se pretende que aplique los conocimientos adquiridos en los temas de Árboles y Random forest trabajando con un conjunto de datos médico.

Descripción

El conjunto de datos con el cual vamos a trabajar se encuentra en el siguiente link:

https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names

https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv

En esta primera actividad se trata de familiarizarse con los pasos generales a realizar para generar un modelo de aprendizaje automático. Podemos resumir estos pasos en:

  • Análisis descriptivo de los datos
  • Tratamiento de valores faltantes o nulos
  • Aplicación del algoritmo de aprendizaje automático
  • Evaluación

Para ello, se deben seguir los pasos que indicamos a continuación.

Metodología

  1. Análisis descriptivo de los datos: Se adjunta un archivo .txt con la descripción de cada una de las columnas.
  1. Comentar de manera general qué se puede observar en la figura 1.

[pic 1]

Figura 1. Resumen del conjunto de datos

  1. En la figura 2 se pueden observar las estadísticas de las columnas numéricas. ¿Si se tienen 768 observaciones, a qué conclusiones podríamos llegar con estos datos? ¿Podríamos eliminar alguna variable?[pic 2]

Figura 2. Estadísticas de columnas numéricas.

  1. En la figura 3 se muestran los histogramas de cada una de las columnas. ¿Qué se puede decir de la distribución de las variables?

[pic 3]

Figura 3. Histogramas de cada columna del conjunto de datos.

  1. En la figura 3 tenemos el mapa de calor de la matriz de correlaciones, por favor revise cuáles son las variables que mayor correlación tienen y si se puede eliminar alguna columna con base en este mapa de calor. Justifique su respuesta:

[pic 4] [pic 5]

Figura 4. Matriz de correlación

  1. Tratamiento de valores faltantes:
  1. en la figura 5 se puede observar que en este conjunto de datos no existen valores faltantes.

[pic 6]

Figura 5. Columnas con valores faltantes o NA.

En la figura 6 podemos ver que existen columnas con ceros. Puede comentar ¿Qué puede estar ocurriendo con este conjunto de datos?

[pic 7]

Figura 6. Cantidad de ceros por columna.

¿Puede completar la descripción de la Figura 7? ¿Qué acciones se realizan?

[pic 8]

Figura 7. ¿?

  1. Entrenamiento de algoritmos
  1. Al aplicar árboles de decisión y Random Forest con el dataframe en los que se eliminaron todas las filas con valores faltantes. Las métricas obtenidas a partir de la matriz de confusión se ven en las figuras 8 y 9:

[pic 9]

[pic 10]

Figura 8. Métricas obtenidas de árboles de decisión. Validación cruzada 5 folds.

[pic 11] 

[pic 12]

Figura 9. Métricas obtenidas al aplicar Random Forest. Validación cruzada 5 folds.

Comente los resultados.

  1. Al aplicar árboles de decisión y Random Forest con el dataframe en los que se eliminaron columnas con un % de valores faltantes. Las métricas obtenidas a partir de la matriz de confusión se ven en las figuras 10 y 11:

[pic 13]

[pic 14]

...

Descargar como (para miembros actualizados)  txt (6.9 Kb)   pdf (420.4 Kb)   docx (531 Kb)  
Leer 3 páginas más »
Disponible sólo en Clubensayos.com