Estadística descriptiva, gráficos, regresión lineal en r y r-commande
Lilián SarabiaTarea2 de Enero de 2024
11.686 Palabras (47 Páginas)103 Visitas
- TEMA
Estadística descriptiva, gráficos, regresión lineal en r y r-commande
- RESULTADOS
EJERCICIO 3
Escogemos dos conjuntos de datos incorporados en los paquetes Datasets y MASS de R. Los data frame que usaremos son Orange. (https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/Orange.html) e Iris del que ya hemos hablado anteriormente. Deberemos:
- Buscar un resumen de las variables de cada dataset.
- Generar una tabla de frecuencias absolutas y una de relativas con cualquier variable del dataset.
- Generar una tabla de frecuencias absolutas con cada una de las variables del conjunto de datos Orange. ¿Todas las tablas generadas tienen sentido para vosotros?
Desarrollo:
- Resetear el directorio de trabajo para evitar errores al cargar los archivos.
- Instalar los paquetes Dataset y MASS.
installed.packages("dataset")
## Package LibPath Version Priority Depends Imports LinkingTo Suggests
## Enhances License License_is_FOSS License_restricts_use OS_type Archs
## MD5sum NeedsCompilation Built
installed.packages("MASS")
## Package LibPath Version Priority Depends Imports LinkingTo Suggests
## Enhances License License_is_FOSS License_restricts_use OS_type Archs
## MD5sum NeedsCompilation Built
- Cargar el conjunto de datos de los data frame “Orange” e “Iris”.
data("Orange")
data("iris")
Literal A
- Realizar el resumen de las variables del dataset Orange.
summary(Orange)
## Tree age circumference
## 3:7 Min. : 118.0 Min. : 30.0
## 1:7 1st Qu.: 484.0 1st Qu.: 65.5
## 5:7 Median :1004.0 Median :115.0
## 2:7 Mean : 922.1 Mean :115.9
## 4:7 3rd Qu.:1372.0 3rd Qu.:161.5
## Max. :1582.0 Max. :214.0
- Realizar el resumen de las variables del dataset Iris.
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
Literal B
- Generar una tabla de frecuencias absolutas de la variable “Sepal.Width” del dataset Iris.
table(iris$Sepal.Width)
##
## 2 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4
## 1 3 4 3 8 5 9 14 10 26 11 13 6 12 6 4 3 6 2 1
## 4.1 4.2 4.4
## 1 1 1
- Crear una tabla de frecuencias relativas de la variable “Sepal.Width” del dataset Iris.
prop.table(iris$Sepal.Width)
## [1] 0.007631923 0.006541648 0.006977758 0.006759703 0.007849978 0.008504143
## [7] 0.007413868 0.007413868 0.006323594 0.006759703 0.008068033 0.007413868
## [13] 0.006541648 0.006541648 0.008722198 0.009594418 0.008504143 0.007631923
## [19] 0.008286088 0.008286088 0.007413868 0.008068033 0.007849978 0.007195813
## [25] 0.007413868 0.006541648 0.007413868 0.007631923 0.007413868 0.006977758
## [31] 0.006759703 0.007413868 0.008940253 0.009158308 0.006759703 0.006977758
## [37] 0.007631923 0.007849978 0.006541648 0.007413868 0.007631923 0.005015264
## [43] 0.006977758 0.007631923 0.008286088 0.006541648 0.008286088 0.006977758
## [49] 0.008068033 0.007195813 0.006977758 0.006977758 0.006759703 0.005015264
## [55] 0.006105539 0.006105539 0.007195813 0.005233319 0.006323594 0.005887484
## [61] 0.004361099 0.006541648 0.004797209 0.006323594 0.006323594 0.006759703
## [67] 0.006541648 0.005887484 0.004797209 0.005451374 0.006977758 0.006105539
## [73] 0.005451374 0.006105539 0.006323594 0.006541648 0.006105539 0.006541648
## [79] 0.006323594 0.005669429 0.005233319 0.005233319 0.005887484 0.005887484
## [85] 0.006541648 0.007413868 0.006759703 0.005015264 0.006541648 0.005451374
## [91] 0.005669429 0.006541648 0.005669429 0.005015264 0.005887484 0.006541648
## [97] 0.006323594 0.006323594 0.005451374 0.006105539 0.007195813 0.005887484
## [103] 0.006541648 0.006323594 0.006541648 0.006541648 0.005451374 0.006323594
## [109] 0.005451374 0.007849978 0.006977758 0.005887484 0.006541648 0.005451374
## [115] 0.006105539 0.006977758 0.006541648 0.008286088 0.005669429 0.004797209
## [121] 0.006977758 0.006105539 0.006105539 0.005887484 0.007195813 0.006977758
## [127] 0.006105539 0.006541648 0.006105539 0.006541648 0.006105539 0.008286088
## [133] 0.006105539 0.006105539 0.005669429 0.006541648 0.007413868 0.006759703
## [139] 0.006541648 0.006759703 0.006759703 0.006759703 0.005887484 0.006977758
## [145] 0.007195813 0.006541648 0.005451374 0.006541648 0.007413868 0.006541648
Literal C
- Generar una tabla de frecuencias absolutas de la variable “Tree” del conjunto de datos Orange.
table(Orange$Tree,useNA="ifany")
##
## 3 1 5 2 4
## 7 7 7 7 7
- Ejecutar una tabla de frecuencias absolutas de la variable “Age” del conjunto de datos Orange.
table(Orange$age)
##
## 118 484 664 1004 1231 1372 1582
## 5 5 5 5 5 5 5
- Crear una tabla de frecuencias absolutas de la variable “Circumference” del conjunto de datos Orange.
table(Orange$circumference)
##
## 30 32 33 49 51 58 62 69 75 81 87 108 111 112 115 120 125 139 140 142
## 3 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2
## 145 156 167 172 174 177 179 203 209 214
## 1 1 1 1 1 1 1 2 1 1
¿Todas las tablas generadas tienen sentido para vosotros?
Todas las tablas de frecuencias absolutas generadas para las variables del dataset “Orange” tienen sentido por varias razones: los datos son únicamente numéricos, agrupándose en las variables “tree, age y circunference”; las tablas no presentan valores faltantes, lo cual es evidente en el literal 8 y en las variables restantes; la suma de todas las frecuencias absolutas de cada variable es igual al tamaño total de la muestra, en este caso, 35 observaciones (Kenton, 2021). Por último, las tablas son organizadas y coherentes en las tres variables, ya que se relacionan con el problema inicial que es el crecimiento de los naranjos.
EJERCICIO 5
Deben seguir los pasos y solucionar el ejercicio.
- Incorporar el dataset VaDeaths de R: https://www.rdocumentation.org/packages/datasets/versions/3.6.1/topics/VADeat hs) y generar un gráfico barplot.
- Usar la función pairs sobre el conjunto de datos iris.
- Generar unos datos inventados y crear un boxplot con ellos.
- Dibujar una parábola y=x^2 con valores que van de x entre -10 y 10.
Desarrollo:
Literal A
- Visualizar un resumen de los datos de VADeaths (Dataset integrado en el lenguaje de R)
summary(VADeaths)
## Rural Male Rural Female Urban Male Urban Female
## Min. :11.70 Min. : 8.70 Min. :15.40 Min. : 8.40
## 1st Qu.:18.10 1st Qu.:11.70 1st Qu.:24.30 1st Qu.:13.60
## Median :26.90 Median :20.30 Median :37.00 Median :19.30
## Mean :32.74 Mean :25.18 Mean :40.48 Mean :25.28
## 3rd Qu.:41.00 3rd Qu.:30.90 3rd Qu.:54.60 3rd Qu.:35.10
...