Entrega fundamentos
sedonkDocumentos de Investigación27 de Junio de 2022
3.568 Palabras (15 Páginas)60 Visitas
[pic 1]
[pic 2][pic 3] | UNIVERSIDAD ADOLFO IBAÑEZ Fundamentos de ciencias de datos SEMESTRE I 2021
Prueba I |
Profesor: Sebastián Hughes Sección 3
[pic 4]
Informe primer entregable proyecto
José Pedro Guzmán Sierralta
Eduardo Andrés Pérez Durán
Año 2021
El presente informe, tiene como objetivo analizar una base de datos correspondiente a deportistas olímpicos, además determinar factores relevantes que puedan servir para el estudio analítico futuro. Se indagará en el análisis exploratorio de datos de las variables, así como también en la dispersión de cada una de ellas. Luego, se estudiará la relación entre ellas, haciendo especial énfasis en correlaciones entre variables categóricas y variables numéricas. La base de datos estará conformada por diez variables categóricas y cuatro de carácter numérico. Para el procedimiento de análisis de datos, se utilizará la metodología de programación en lenguaje R.
- Descripción de variables
En primer lugar, se analizará cada una de las variables presentes en la base de datos, comenzando por las del tipo numérico:
- Age, edad del atleta
- Height, altura en centímetros del atleta
- Weight, peso en kilogramos del atleta
- Year, año de la olimpiada
Variable numérica 1 “Age”: Esta variable es la edad en la que un atleta determinado se presentó a los deportes olímpicos de un año y temporada determinados. Pudimos darnos cuenta que estos datos tienen un rango que va desde los 10 hasta los 97 años de edad, rango bastante amplio. También nos damos cuenta que distribuyen normal con la curva sesgada hacia la izquierda. Esto quiere decir que un 50% de los datos tienen entre 21 y 28 años, pero que el 25% de los atletas que tienen entre 28 y 97 años están más repartidos de una manera más heterogénea que el 25% restante de los atletas que tienen entre 10 y 21 años. [pic 5]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Total de NA | Desviación estándar |
10.00 | 21.00 | 24.00 | 25.56 | 28.00 | 97.00 | 9474 | 6.393561 |
Variable numérica 2 “Height”: Esta variable dentro de la base de datos representa básicamente la altura en centímetros de un atleta determinado. Como se puede apreciar en el gráfico adjunto, los datos distribuyen absolutamente normal con una media de 175,3 centímetros y una curva de un histograma que calza muy bien con una curva de distribución normal. [pic 6]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Total de NA | Desviación estándar |
127.0 | 168.0 | 175.0 | 175.3 | 183.0 | 226.0 | 60171 | 10.51846 |
Variable numérica 3 “Weight”: Esta variable se refiere al peso que tenía un determinado atleta la vez que compitió en alguna de las ocasiones previstas. Cabe destacar que hubo un inconveniente al leer correctamente esta variable, ya que tenía un problema con los decimales, pero se pudo solucionar usando el código: “d$Weight <- as.numeric(d$Weight)”. Con el gráfico adjunto se ve que tiene una distribución normal bastante suave. Cabe destacar que el 50% de los atletas tienen un peso entre los 60 y los 79 kg.
[pic 7]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Total de NA | Desviación estándar |
25.0 | 60.0 | 70.0 | 70.7 | 79.0 | 214.0 | 62881 | 14.3482 |
Variable numérica 4 “Year”: La cuarta y última variable numérica (sin considerar el ID el cual es irrelevante para sacar estadísticas) con la que trabajaremos será el año. No se debe confundir con la variable “Games”, ya que esta última nos dice el año y la temporada, por ejemplo, puede que dentro de un mismo año haya 2 tipos de juegos de temporada distintos, como en el 1992 se incluyen los juegos de invierno de 1992 y los juegos de verano de 1992. Uno podría incorrectamente pensar que un gráfico de los años o utilizar un “summary” no tendría interpretación, pero la verdad es que si se puede obtener algo de ellos. Al hacer un histograma, notamos que a medida que pasan los años, hay más frecuencia de datos, es decir, que mientras más recientes son los juegos olímpicos, más datos de atletas se van almacenando y guardando en la base de datos. Recordar que esto es una tendencia con una estacionalidad determinada, lo cual hace que no se cumpla con exactitud para todos los años. Una particularidad que tiene este gráfico, es que se ve una ausencia total de datos en 2 sectores, los cuales, si se ven minuciosamente, calzan con la primera guerra mundial (1914-1918) y la segunda guerra mundial (1939-1945) con lo que se da a evidenciar que ese año no hubo juegos olímpicos, ya que estos no se podrían haber realizado sin tener los datos de sus atletas. Con un summary podemos notar que las primeras tomas de datos datan del año 1896, mientras que las más recientes son del año 2016.
[pic 8]
Mínimo | Primer Cuartil | Mediana | Media | Tercer Cuartil | Máximo | Desviación estándar |
1896 | 1960 | 1988 | 1978 | 2002 | 2016 | 29.87763 |
Ahora, se analizarán las variables del tipo categórico:
- Name, nombre del atleta. Como es de esperar, es muy común que en esta categoría se encuentren atletas repetidos. Esto puede ser por variadas razones, tales como: que hayan competido durante varios años, que realicen su deporte de manera individual, dual o grupal (en el caso que el deporte lo amerite), y más. Una particularidad es que hay ciertos atletas que, entre su nombre y su apellido, tienen su sobrenombre incluido.
- Sex, sexo del atleta. Aquí se pueden destacar 2 cosas. La primera es que dentro de esta categoría hay solo 2, las cuales son masculino y femenino. Un dato interesante que se puede ver aquí, es la estadística de la participación de mujeres durante los años, ya que no fue hasta cerca del año 1920 que comenzó un leve aumento de la participación femenina en los juegos olímpicos, y no fue hasta cerca del año 1990 que la participación femenina logró superar en número a la masculina.
- Team, equipo del atleta. Acá se sitúa a grandes rasgos el país perteneciente que representa un atleta. Algo interesante que se puede notar, es que se pueden visualizar nacionalidades que ya no existen o que han cambiado de nombre, como la Unión Soviética, Yugoslavia, etc.
- NOC, “comité nacional olímpico” relacionado al atleta. Acá no hay mucho que agregar, ya que estas son las siglas con las que se abrevian al país que un atleta representa, como es el caso de “Team”.
- Games, año y temporada de la olimpiada. Esta variable es bastante parecida a la numérica “Year”, a diferencia de que aquí se da a conocer (junto con el año) si es que la participación de cierto atleta fue en la temporada de invierno o de verano de la realización de los juegos olímpicos.
- Season, temporada de la olimpiada. Tal como la variable “Games”, en esta variable cualitativa no se da a concer el año, sino únicamente la temporada (invierno o verano).
- City, ciudad donde se realizó la olimpiada. Aquí no se puede agregar mucha información extra, ya que se entrega sólo el nombre de la ciudad hospedadora de los juegos, pero sin el nombre de su país. Cabe destacar que no hay una variable aparte que sea exclusivamente para el país.
- Sport, deporte realizado. No hay mucha información al respecto, tan solo decir que una sola categoría de “Sport” puede ser muy amplia. Como es el caso de “Athletics”, se puede ver que abarca muchos deportes distintos, como por ejemplo las corridas de 100 metros de hombres, 100 metros de mujeres, salto largo, maratón, lanzamiento de jabalina, etc. Estas no se definirán con exactitud no sino hasta la siguiente variable.
- Event, nombre del evento. Aquí se sitúa de una manera específica cada uno de los distintos deportes/categorías que ha habido. Ya se pueden separar los 100 metros de hombres con los 100 metros de mujeres, los 100 metros de los 400 metros, los 400 metros de un maratón, etc.
- Medal, en caso de haber ganado algún puesto en la competición, medalla recibida. Las únicas tres medallas disponibles serían las de bronce, plata y oro. Es importante recalcar que muchas filas poseen un “NA” en la columna de las medallas. Esto es totalmente entendible debido a que es lógico pensar que cada vez que alguien participe en unos juegos olímpicos, no se asegura que este tendrá su medalla asegurada, lo cual hace que la minoría de los datos, posean una medalla en sí.
- Relación entre variables continuas con categóricas
En este apartado, se escogerán dos variables numéricas y serán analizadas en torno a las variables categóricas, con el fin de encontrar posibles correlaciones entre ellas. Luego, se procederá a escoger dos variables categóricas y generar un gráfico de distribución condicional, con el fin de encontrar posibles
- Gráfico de dispersión condicional
En primer lugar, Eduardo Pérez decidió utilizar a la variable Age (edad) para poder compararla con todas las variables categóricas que se encontraban en la base de datos.
...