Mineria de datos

camilo GalanTarea24 de Agosto de 2022

569 Palabras (3 Páginas)275 Visitas

Página 1 de 3

PARCIAL TERCER CORTE

MINERIA DE DATOS

JUAN JOSE OCHOA ORTIZ

CAMILO ENRIQUE GALAN VERA

DOCENTE

CARLOS ENRIQUE CABRERA MARTINEZ

UNIVERSIDAD SAN BUENAVENTURA

FACULTAD DE INGENIERIA

INGENIERIA DE SISTEMAS

BOGOTA D.C.

2020

Descripción y contextualización

El vino es la bebida que resulta de la fermentación alcohólica del mosto de uvas. Existen factores como el proceso de vinificación, la variedad y el método de cultivo, que marcan diferencias en los atributos de un vino, sin embargo, el llamado terruño, influenciado por la luminosidad, altitud, latitud, régimen pluvial, pendiente, orientación y tipo de suelo, es el que define la tipicidad de la uva y del vino, lo cual se expresa en el contenido de azúcar, acidez, color y aroma, entre otros.

Según lo anterior, los porcentajes de alcohol, acido volátil y dióxido de sulfuro pueden variar cambiando así la calidad en los resultados que se obtienen.

Justificación del proyecto.

Se realizará un análisis de datos para obtener una estimación de la calidad del Vino, partiendo de varias características que presenta este como sus porcentajes de alcohol, acido volátil y dióxido de sulfuro.

Objetivo

Por medio de la técnica de minería de datos llamada arboles de decisión, se realizará el proceso de análisis de datos, analizando algunas características

Anteriormente mencionadas.

Algoritmo propuesto (Arboles de decisión).

Es un método analítico que a través de una representación esquemática de las alternativas disponible facilita la toma de mejores decisiones, especialmente cuando existen riesgos, costos, beneficios y múltiples opciones.

Transformación de datos.

El archivo punto csv contiene varios datos nulos y otros en blanco, sin embargo, como se mencionaba anteriormente el análisis solo se hará sobre las siguientes 4 variables:

Alcohol.
Acido volátil.
Dióxido de sulfuro.

Desarrollo

A continuación, se presenta el código del algoritmo realizado en el lenguaje de programación R.

library(rpart)

library(rpart.plot)

url<-"http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv"

wine <- read.table(file=url, header = T, sep=";")

knitr:kable(head(wine), caption = "Resumen de datos")

set.seed(pi)

itrain <- sample( 1:4898, size=3750, replace = FALSE)

wine_train <- wine[itrain, ]

nrow(wine_train)

wine_test <- wine[-itrain, ]

m.rpart <- rpart(quality ~.

, data = wine_train)

m.rpart

rpart.plot(m.rpart)

[pic 1]

Ilustración 1

El árbol de decisiones resultante muestra los datos analizados, mostrando los condicionales para ver que

Conclusiones

Fuentes

La fuente se tomo del repositorio http://archive.ics.uci.edu/ml/machine-learning-databases/ y se hizo el análisis sobre los vinos blancos.

...

Descargar como (para miembros actualizados) txt (3 Kb) pdf (80 Kb) docx (24 Kb)

Leer 2 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com