ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Estadística descriptiva, gráficos, regresión lineal en r y r-commande

Lilián SarabiaTarea2 de Enero de 2024

11.686 Palabras (47 Páginas)104 Visitas

Página 1 de 47
  1. TEMA

Estadística descriptiva, gráficos, regresión lineal en r y r-commande

  1. RESULTADOS

EJERCICIO 3

Escogemos dos conjuntos de datos incorporados en los paquetes Datasets y MASS de R. Los data frame que usaremos son Orange. (https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/Orange.html) e Iris del que ya hemos hablado anteriormente. Deberemos:

  1. Buscar un resumen de las variables de cada dataset.
  2. Generar una tabla de frecuencias absolutas y una de relativas con cualquier variable del dataset.
  3. Generar una tabla de frecuencias absolutas con cada una de las variables del conjunto de datos Orange. ¿Todas las tablas generadas tienen sentido para vosotros?

Desarrollo:

  1. Resetear el directorio de trabajo para evitar errores al cargar los archivos.
  2. Instalar los paquetes Dataset y MASS.

installed.packages("dataset")

##      Package LibPath Version Priority Depends Imports LinkingTo Suggests
##      Enhances License License_is_FOSS License_restricts_use OS_type Archs
##      MD5sum NeedsCompilation Built

installed.packages("MASS")

##      Package LibPath Version Priority Depends Imports LinkingTo Suggests
##      Enhances License License_is_FOSS License_restricts_use OS_type Archs
##      MD5sum NeedsCompilation Built

  1. Cargar el conjunto de datos de los data frame “Orange” e “Iris”.

data("Orange")
data("iris")

Literal A

  1. Realizar el resumen de las variables del dataset Orange.

summary(Orange)

##  Tree       age         circumference  
##  3:7   Min.   : 118.0   Min.   : 30.0  
##  1:7   1st Qu.: 484.0   1st Qu.: 65.5  
##  5:7   Median :1004.0   Median :115.0  
##  2:7   Mean   : 922.1   Mean   :115.9  
##  4:7   3rd Qu.:1372.0   3rd Qu.:161.5  
##        Max.   :1582.0   Max.   :214.0

  1. Realizar el resumen de las variables del dataset Iris.

summary(iris)

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width  
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                

Literal B

  1. Generar una tabla de frecuencias absolutas de la variable “Sepal.Width” del dataset Iris.

table(iris$Sepal.Width)

##
##   2 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9   3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9   4
##   1   3   4   3   8   5   9  14  10  26  11  13   6  12   6   4   3   6   2   1
## 4.1 4.2 4.4
##   1   1   1

  1. Crear una tabla de frecuencias relativas de la variable “Sepal.Width” del dataset Iris.

prop.table(iris$Sepal.Width)

##   [1] 0.007631923 0.006541648 0.006977758 0.006759703 0.007849978 0.008504143
##   [7] 0.007413868 0.007413868 0.006323594 0.006759703 0.008068033 0.007413868
##  [13] 0.006541648 0.006541648 0.008722198 0.009594418 0.008504143 0.007631923
##  [19] 0.008286088 0.008286088 0.007413868 0.008068033 0.007849978 0.007195813
##  [25] 0.007413868 0.006541648 0.007413868 0.007631923 0.007413868 0.006977758
##  [31] 0.006759703 0.007413868 0.008940253 0.009158308 0.006759703 0.006977758
##  [37] 0.007631923 0.007849978 0.006541648 0.007413868 0.007631923 0.005015264
##  [43] 0.006977758 0.007631923 0.008286088 0.006541648 0.008286088 0.006977758
##  [49] 0.008068033 0.007195813 0.006977758 0.006977758 0.006759703 0.005015264
##  [55] 0.006105539 0.006105539 0.007195813 0.005233319 0.006323594 0.005887484
##  [61] 0.004361099 0.006541648 0.004797209 0.006323594 0.006323594 0.006759703
##  [67] 0.006541648 0.005887484 0.004797209 0.005451374 0.006977758 0.006105539
##  [73] 0.005451374 0.006105539 0.006323594 0.006541648 0.006105539 0.006541648
##  [79] 0.006323594 0.005669429 0.005233319 0.005233319 0.005887484 0.005887484
##  [85] 0.006541648 0.007413868 0.006759703 0.005015264 0.006541648 0.005451374
##  [91] 0.005669429 0.006541648 0.005669429 0.005015264 0.005887484 0.006541648
##  [97] 0.006323594 0.006323594 0.005451374 0.006105539 0.007195813 0.005887484
## [103] 0.006541648 0.006323594 0.006541648 0.006541648 0.005451374 0.006323594
## [109] 0.005451374 0.007849978 0.006977758 0.005887484 0.006541648 0.005451374
## [115] 0.006105539 0.006977758 0.006541648 0.008286088 0.005669429 0.004797209
## [121] 0.006977758 0.006105539 0.006105539 0.005887484 0.007195813 0.006977758
## [127] 0.006105539 0.006541648 0.006105539 0.006541648 0.006105539 0.008286088
## [133] 0.006105539 0.006105539 0.005669429 0.006541648 0.007413868 0.006759703
## [139] 0.006541648 0.006759703 0.006759703 0.006759703 0.005887484 0.006977758
## [145] 0.007195813 0.006541648 0.005451374 0.006541648 0.007413868 0.006541648

Literal C

  1. Generar una tabla de frecuencias absolutas de la variable “Tree” del conjunto de datos Orange.

table(Orange$Tree,useNA="ifany")

##
## 3 1 5 2 4
## 7 7 7 7 7

  1. Ejecutar una tabla de frecuencias absolutas de la variable “Age” del conjunto de datos Orange.

table(Orange$age)

##
##  118  484  664 1004 1231 1372 1582
##    5    5    5    5    5    5    5

  1. Crear una tabla de frecuencias absolutas de la variable “Circumference” del conjunto de datos Orange.

table(Orange$circumference)

##
##  30  32  33  49  51  58  62  69  75  81  87 108 111 112 115 120 125 139 140 142
##   3   1   1   1   1   1   1   1   1   1   1   1   1   1   2   1   1   1   1   2
## 145 156 167 172 174 177 179 203 209 214
##   1   1   1   1   1   1   1   2   1   1

¿Todas las tablas generadas tienen sentido para vosotros?

Todas las tablas de frecuencias absolutas generadas para las variables del dataset “Orange” tienen sentido por varias razones: los datos son únicamente numéricos, agrupándose en las variables “tree, age y circunference”; las tablas no presentan valores faltantes, lo cual es evidente en el literal 8 y en las variables restantes; la suma de todas las frecuencias absolutas de cada variable es igual al tamaño total de la muestra, en este caso, 35 observaciones (Kenton, 2021). Por último, las tablas son organizadas y coherentes en las tres variables, ya que se relacionan con el problema inicial que es el crecimiento de los naranjos.

EJERCICIO 5

Deben seguir los pasos y solucionar el ejercicio.

  1. Incorporar el dataset VaDeaths de R: https://www.rdocumentation.org/packages/datasets/versions/3.6.1/topics/VADeat hs) y generar un gráfico barplot.
  2. Usar la función pairs sobre el conjunto de datos iris.
  3. Generar unos datos inventados y crear un boxplot con ellos.
  4. Dibujar una parábola y=x^2 con valores que van de x entre -10 y 10.

   Desarrollo:

   Literal A

  1. Visualizar un resumen de los datos de VADeaths (Dataset integrado en el lenguaje de R)

summary(VADeaths)

##    Rural Male     Rural Female     Urban Male     Urban Female  

##  Min.   :11.70   Min.   : 8.70   Min.   :15.40   Min.   : 8.40  

##  1st Qu.:18.10   1st Qu.:11.70   1st Qu.:24.30   1st Qu.:13.60  

##  Median :26.90   Median :20.30   Median :37.00   Median :19.30  

##  Mean   :32.74   Mean   :25.18   Mean   :40.48   Mean   :25.28  

##  3rd Qu.:41.00   3rd Qu.:30.90   3rd Qu.:54.60   3rd Qu.:35.10  

...

Descargar como (para miembros actualizados) txt (54 Kb) pdf (598 Kb) docx (446 Kb)
Leer 46 páginas más »
Disponible sólo en Clubensayos.com