DESCRIPCIÓN DE VARIABLES CUANTITATIVAS: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA
gilvae30 de Enero de 2014
3.303 Palabras (14 Páginas)601 Visitas
TEMA 2: DESCRIPCIÓN DE VARIABLES CUANTITATIVAS: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN GRÁFICA
● La naturaleza numérica de las variables cuantitativas permite un tratamiento estadístico más elaborado que con las variables cualitativas.
● Con las variables cuantitativas pueden realizarse operaciones matemáticas, lo que permite una descripción más precisa y completa.
● En este tema estudiaremos la distribución de frecuencias y su representación gráfica (como hemos hecho para las variables cualitativas en el Tema 1) y en los siguientes temas veremos otras formas de describir una variable cuantitativa.
A) Variables Discretas
● La distribución de frecuencias para las variables discretas es semejante a lo que hemos visto para el caso de las variables cualitativas, ya que las categorías en que se agrupan los datos vienen dadas de forma natural por los valores que toma la variable.
Ejemplo 1:
Cien familias se han clasificado según el número de hijos, resultando los siguientes datos:
Nº de Hijos 0 1 2 3 4 5 6 7 8
Nº de familias 11 13 20 25 14 10 4 2 1
N=100; k=9
Frecuencias absolutas:
n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1
Frecuencias relativas:
Distribución de frecuencias:
Categorías ni fi
0 11 0,11
1 13 0,13
2 20 0,2
3 25 0,25
4 14 0,14
5 10 0,1
6 4 0,04
7 2 0,02
8 1 0,01
N=100 1
La categoría más numerosa es la de familias con 3 hijos y la
menos frecuente es la de familias con 8 hijos
Diagrama de barras
Frecuencias relativas fi
Frecuencias absolutas ni
● En general, las clases vienen ordenadas de forma natural de menor a mayor por lo que tiene sentido definir la distribución de frecuencias acumulada.
● Para construir la distribución de frecuencias acumulada hay que sumar a la frecuencia de cada clase (absoluta o relativa) la de las clases anteriores.
● Los valores de la distribución de frecuencias acumulada no decrecen.
● La información sobre los datos que proporcionan la distribución de frecuencias y la distribución de frecuencias acumulada es equivalente. Cada una puede obtenerse a partir de la otra.
Ejemplo: Nº de hijos
Categorías Frecuencias absolutas
ni Frecuencias absolutas acumuladas
Ni Frecuencias relativas
fi Frecuencias relativas acumuladas
Fi
0 11 11 0,11 0,11
1 13 24 0,13 0,24
2 20 44 0,2 0,44
3 25 69 0,25 0,69
4 14 83 0,14 0,83
5 10 93 0,1 0,93
6 4 97 0,04 0,97
7 2 99 0,02 0,99
8 1 100 0,01 1
N=100 1
● El último valor de la distribución de frecuencias absolutas acumuladas coincide con N.
● El último valor de la distribución de frecuencias relativas acumuladas es 1 (salvo error de redondeo).
● La distribución de frecuencias acumulada nos permite conocer la proporción (o el número) de observaciones por debajo de cierto valor, entre dos valores o por encima de una cantidad.
Ejemplo: Nº de hijos
- ¿Qué proporción de familias tiene menos de 2 hijos? 0,24
- ¿Cuántas familias tienen menos de 4 hijos? 69
- ¿Qué proporción de familias tiene más de 6 hijos?
0,03=1-0,97=0,01+0,02
- ¿Qué proporción de familias tiene más de 3 hijos pero menos de 7? 0,28=0,14+0,1+0,04=0,97-0,69
Representación gráfica de la distribución de frecuencias acumulada
Frecuencias relativas Fi
Ejercicio 3.2 de Peña y Romo
Los siguientes datos corresponden al número de bibliotecarios en las bibliotecas públicas de las diferentes provincias españolas:
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12
(a) Hallar la distribución de frecuencias relativas y representarla mediante un diagrama de barras
(b) Obtener y representar la distribución de frecuencias relativas acumuladas
(c) ¿Qué proporción de provincias tiene más de 7 bibliotecarios?
Bibliotecarios Frecuencias absolutas
ni Frecuencias absolutas acumuladas
Ni Frecuencias relativas
fi Frecuencias relativas acumuladas
Fi
1 3 3 0,06 0,06
2 7 10 0,14 0,2
3 9 19 0,18 0,38
4 10 29 0,2 0,58
5 6 35 0,12 0,7
6 4 39 0,08 0,78
7 4 43 0,08 0,86
8 2 45 0,04 0,9
10 1 46 0,02 0,92
12 2 48 0,04 0,96
15 1 49 0,02 0,98
16 1 50 0,02 1
Frecuencias relativas: fi
Frecuencias relativas acumuladas: Fi
- La proporción de provincias con más de 7 bibliotecarios es de 0,14
0,14=1-0,86=0,04+0,02+0,04+0,02+0,02
- La mayoría de las provincias (62%) tiene 4 bibliotecarios o más: 0,62=1-0,38=
=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02
- 4 es la clase más frecuente con una frecuencia relativa de 0,2
- Más de la mitad de las provincias españolas (F4=0,58) tiene menos de 5 bibliotecarios
- La proporción de provincias españolas que tienen entre 5 y 7 bibliotecarios es de 0,28
0,28=0,12+0,08+0,08=0,86-0,58
B) Variables Continuas
● El análisis de la distribución de frecuencias de las variables cuantitativas continuas es más complejo que el de las variables cualitativas o discretas.
● Las categorías o clases no vienen dadas de forma natural sino que deben elegirse.
● Tendremos que dividir el recorrido (o conjunto de posibles valores de la variable) en intervalos que no se solapen.
● El punto central de cada intervalo se llama marca de clase (ci).
● El resto de los elementos y conceptos de la distribución de frecuencias de una variable continua es equivalente a lo visto en las cualitativas y discretas.
Ejemplo:
La variable GTINE representa el gasto total. Los datos correspondientes a 75 hogares son:
81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431 276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829 278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465 321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425 427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772 531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595 228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920 255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705 455.125 122.696 479.791
- Tomando intervalos o clases iguales y de tamaño 100.000 pesetas, vamos a calcular la distribución de frecuencias.
- Por ejemplo, el primer intervalo será: 0<GTINE≤100.000 y la marca de clase c1=50.000.
- El número de intervalos o clases será k=9.
Gasto Total (GTINE ó G)
Gasto
(en miles de ptas.) Frecuencias absolutas
ni Frecuencias absolutas acumuladas
Ni Frecuencias relativas
fi Frecuencias relativas acumuladas
Fi
0<G≤100 10 10 0,13 0,13
100<G≤200 22 32 0,29 0,42
200<G≤300 17 49 0,23 0,65
300<G≤400 8 57 0,11 0,76
400<G≤500 10 67 0,13 0,89
500<G≤600 3 70 0,04 0,93
600<G≤700 2 72 0,03 0,96
700<G≤800 2 74 0,03 0,99
800<G≤900 1 75 0,01 1
N=75 1
- La proporción de familias que gasta 200.000 pesetas o menos es de 0,42.
- La proporción de familias que gasta más de 600.000 pesetas es 0,07=1-0,93=0,03+0,03+0,01.
- La proporción de familias que gasta más de 100.000 pero no más de 300.000 es 0,52=0,29+0,23=0,65-0,13
Representación gráfica de la distribución de frecuencias
1) El Histograma
● El histograma es un gráfico que representa las frecuencias mediante áreas. Sobre cada clase (o rango de valores) se dibuja un rectángulo cuyo área representa la frecuencia (absoluta o relativa) de esa clase.
● Cuando las clases (o intervalos) en que dividimos los datos son de distinta longitud el eje vertical no tiene sentido. Como la frecuencia es el área de cada rectángulo, si dibujamos rectángulos con distinta base su mayor o menor altura no nos da información.
(Ver Ejemplo de GTINE en Figura 3.4 de Peña y Romo)
● Cuando las clases (o intervalos) son de la misma longitud, las frecuencias son proporcionales a las alturas de los rectángulos. La altura nos informa sobre la densidad o concentración de datos en ese intervalo:
- donde los rectángulos son más altos hay más datos de la variable
- donde los rectángulos son más bajos los datos de la variable son
...