ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Medios Estadistica


Enviado por   •  28 de Noviembre de 2013  •  7.223 Palabras (29 Páginas)  •  443 Visitas

Página 1 de 29

Unidad Didáctica Dos

MEDIDAS ESTADÍSTICAS

INTRODUCCIÓN A LA UNIDAD

La Unidad Didáctica 1 se dedicó a explicar los métodos que deben aplicarse en una investigación estadística tales como la planeación, recolección, organización y presentación de ella. Esta unidad tiene como propósito indicar otros métodos para medir e interpretar el comportamiento de un conjunto de datos dados.

Se ha visto que tanto las tablas como las muy diversas formas de graficar la información describen fenómenos de una población o muestra, pero no siempre lo hacen en forma satisfactoria; es allí donde se hace visible la importancia de las medidas estadísticas bien sean univariantes, en donde interviene una variable, o bivariantes cuando lo hacen dos.

Esta Unidad Didáctica se ha dividido en dos grandes capítulos: Medidas Estadísticas Univariantes y Medidas Estadísticas Bivariantes, obedeciendo al número de variables que intervienen en estos cálculos aritméticos. En el primer capítulo, se considerarán cuatro clases de medidas: de posición o de tendencia central, de dispersión o variabilidad, de asimetría o de deformación y de apuntamiento o curtosis.

En el segundo capítulo, se estudiará el comportamiento de dos variables, a fin de determinar si existe alguna relación entre sí y de cuantificar dicho grado de relación. Se desarrollarán aquí los conceptos de regresión y correlación de dos variables y el concepto y usos de los números índices.

Pero antes de iniciar con estos nuevos conceptos, se hace indispensable recordar algunas nociones aritméticas y algebraicas básicas en estadística, es por esto que se recomienda al lector iniciar el capítulo repasando la sumatoria como propiedad aritmética fundamental para entender las medidas estadísticas de una población o muestra. Todo cuanto tiene que ver con sumatoria y productoria puede ser repasado y consultado en el anexo A, que se encuentra al final del texto.

OBJETIVOS ESPECÍFICOS

• Ejecutar las operaciones indicadas por la notación sumatoria y productoria.

• Desarrollar destrezas para calcular algunas medidas de tendencia central.

• Interpretar las medidas de tendencia central y comprender sus aplicaciones.

• Comparar las medidas de tendencia central y seleccionar la más útil según las circunstancias.

• Desarrollar destrezas para calcular algunas medidas de dispersión.

• Comparar las medidas de dispersión y seleccionar la más útil para una determinada aplicación.

• Reconocer que las medidas de dispersión complementan la descripción que proporcionan las medidas de tendencia central.

• Interpretar y utilizar las medidas de dispersión.

• Identificar los tipos de asimetría y apuntamiento en una distribución de datos.

• Identificar hechos que admitan intuitivamente un comportamiento lineal simple.

• Interpretar y manejar los conceptos de regresión y correlación.

• Dibujar y aplicar gráficos de dispersión.

• Calcular el coeficiente de correlación entre dos variables.

• Calcular la ecuación de regresión para dos variables.

• Identificar e interpretar correctamente números índices.

• Desarrollar destrezas necesarias para elaborar y aplicar números índices en circunstancias específicas.

1. MEDIDAS ESTADÍSTICAS UNIVARIANTES

1.1. MEDIDAS DE TENDENCIA CENTRAL

Al ver la forma de representar los conjuntos de datos en histogramas y polígonos de frecuencia se puso de relieve un comportamiento peculiar de estos, y es el de mostrar una tendencia a agruparse alrededor de los datos más frecuentes, haciendo de esta forma que estas representaciones adquieran una forma de campana. Esta tendencia al agrupamiento de los datos hacia la parte central de los gráficos que los representan da lugar a lo que se conoce como medidas de tendencia central, correspondientes a la media, mediana y moda

1.1.1. Media aritmética

Es la medida más conocida y la más fácil de calcular. Se define como la suma de los valores de una cantidad dada de números dividido entre la cantidad de números.

donde:

n = cantidad de elementos

Xi = valor de cada elemento

= media aritmética, o simplemente media

El precio de la bolsa de un litro de leche en diferentes supermercados fue: $1.300, $1.350, $1.250, $1.400 y $1.325. El valor promedio o media aritmética es entonces:

La media aritmética tiene la propiedad de asignar a cada elemento de la suma el mismo valor, o sea el valor promedio.

Si se conoce el valor de la media y el número n de elementos u observaciones, se puede conocer el valor de la suma total multiplicando la media por el número de elementos. Esto es:

Las ventas de un almacén durante el primer semestre del año fueron $3’422.000; hallar el total de ventas de este período de tiempo.

Venta total primer semestre = 6 x (3’422.000) = $20’532.000

También puede suceder que los elementos que se analizan se encuentren agrupados, en este caso para encontrar el valor de la media aritmética se debe realizar la ponderación de estos elementos agrupados, es decir, encontrar el peso que le corresponde a cada valor. Esto da lugar a la media aritmética ponderada.

Un agricultor vende la cosecha de papas de la siguiente forma: 30 sacos a $256.000, 18 sacos a $264.000 y 25 sacos a $261.500. ¿Cuál es el precio promedio del saco de papa vendida por el agricultor?

Precio promedio saco de papa = =$259.856

La media ponderada se halla al realizar el cociente entre la suma de los productos de los valores por sus respectivos pesos y la suma de los pesos. El caso general se expresa así:

Siendo X1 X2,… Xn, las cantidades ponderadas y m1, m2,,…, mn los pesos o ponderaciones.

Un caso similar al anterior consiste en la media de una distribución de frecuencias agrupadas, donde los pesos o ponderaciones corresponderían a las frecuencias de los valores de las marcas de clase, recordando que la marca de clase es el valor promedio de un intervalo de clase. Esta similitud entre la media de una distribución de frecuencias agrupadas y la media aritmética ponderada se muestra en el siguiente ejemplo.

Dada la siguiente distribución de frecuencias agrupadas, calcule su correspondiente media aritmética:

Tabla 1.1.

Distribución de frecuencias agrupadas

Intervalo Marca de clase

X Frecuencia

f f .X

16-20 18 4 72

21-25 23 6 138

26-30 28 7 196

31-35 33 5 165

36-40 38 3 114

Total 25 685

De lo anterior puede verse que:

Dada la importancia que tiene el cálculo de la media aritmética y su frecuente uso, se hace necesario considerar algunas de sus propiedades:

• La suma de las desviaciones respecto a la media aritmética es igual a cero.

Una desviación es la diferencia que se presenta entre los valores que toma la variable y un valor constate, en este caso es la media aritmética. Esta propiedad, al igual que las demás, es válida para datos agrupados o no agrupados. Y en términos aritméticos ella plantea:

Tenga en cuenta que cuando los datos están agrupados en una tabla de frecuencias, las desviaciones con respecto a la media deben ponderarse. Si la distribución es simétrica no hay necesidad de ponderar.

• La suma de los cuadrados de las desviaciones respecto a la media es siempre menor que la suma de los cuadrados de las desviaciones con respecto a cualquier otro valor.

Esto quiere decir que sólo la media aritmética hace mínima la suma de los cuadrados de las desviaciones en torno a ella. Esta importante propiedad se retomará más adelante cuando se estudie regresión lineal y el método de los mínimos cuadrados para ajuste de curvas.

En síntesis, la media o promedio aritmético es la medida de tendencia central más comúnmente usada, además de ser la única de las medidas de tendencia central que permite un tratamiento algebraico. Sin embargo no siempre es recomendable usarla como un promedio, ya que es muy sensible a los valores extremos del conjunto de datos. Por otra parte, la media es ligeramente más difícil de calcular a mano que las otras medidas que se verán en seguida, puesto que requiere sumar todo el conjunto de datos, que bien podrían ser bastantes, y dividir entre el número de elementos del conjunto.

1.1.2. Mediana

Se define como el valor que divide una distribución de datos ordenados en dos mitades, es decir, se encuentra en el centro de la distribución.

La mediana se simboliza como Me. Es menos usada que la media aritmética. Para su cálculo es necesario que los datos estén ordenados. Cuando la cantidad de datos es impar, fácilmente se identifica la mediana; pero cuando el número de datos es par, la mediana se calcula hallando el valor medio entre los dos valores centrales y no coincidirá con ninguno de los valores del conjunto de datos.

a. Dados los valores: 19, 15, 23, 28, 14, 26, 18, 20, 30, determinar su media.

Lo primero que debe hacerse es ordenar los datos:

14 15 18 19 20 23 26 28 30

Como el número de datos es 9, el valor del medio de estos datos es la mediana, puesto que deja cuatro valores por debajo y cuatro valores por encima. Este valor es 20.

b. Hallar la media del siguiente conjunto de datos ordenados:

14 15 18 19 20 23 26 28 30 32

Observe que son 10 datos, un número par de datos. En este caso se toman los dos valores del medio y se promedian:

Cuando los datos se encuentran agrupados, se calcula el valor de y con él se busca, en las frecuencias acumuladas, el intervalo de clase en donde este se encuentra o se aproxime mejor. Esta clase recibe el nombre de clase de la mediana. Identificada la clase de la mediana, se considera que los valores en esa clase se distribuyen uniformemente de modo que se pueda calcular la mediana por el método de la interpolación lineal. En el siguiente ejemplo se describe paso a paso el cálculo de esta medida de tendencia central.

Tomando la tabla 1.1 de distribución de frecuencias agrupadas del ejemplo 1.4. de esta unidad didáctica, calcular la mediana del conjunto de datos.

Primero se identifica la clase de la mediana (la clase que contiene a la mediana).

La clase de la mediana es (26-30), pues el número de frecuencias acumuladas es el valor más cercano a 12.5.

Tabla 1.2.

Distribución de frecuencias agrupadas

Intervalo Frecuencia

f Frecuencia acumulada

16-20 4 4

21-25 6 10

26-30 7 17

31-35 5 22

36-40 3 25

Total 25

Hay 10 observaciones por debajo del límite inferior de la clase de la mediana.

El valor de 2.5 se interpola en el ancho o amplitud de la clase de la mediana que es 4.

Frecuencia absoluta Ancho de clase

7

4

2.5

X

Así pues, la mediana se encontrará 1.4 unidades más del límite inferior de la clase de la mediana:

En muchas referencias bibliográficas se expone una ecuación para el cálculo de la mediana cuando los datos se encuentran agrupados. Ella se deriva del análisis hecho en el ejemplo anterior y se describe de la siguiente manera:

Donde:

n es el tamaño de la muestra o la suma de todas las frecuencias.

Fk-1 es la frecuencia absoluta acumulada de la clase anterior de la clase de la mediana.

fk es la frecuencia absoluta de la clase de la mediana.

Ak es la amplitud de la clase de la mediana.

Lk es el límite real inferior de la clase de la mediana.

Determine la mediana de la distribución de frecuencias agrupadas del ejemplo 1.6., haciendo uso de la ecuación para su cálculo.

Primero, se identifica cada valor:

n = 25

Fk-1 = 10

fk = 7

Ak = 4

Lk = 26

Otra manera para hallar la mediana de un conjunto de datos agrupados es el método gráfico. Ya se vio algo cuando se estudiaba la ojiva: al graficar en un mismo eje coordenado la ojiva ascendente y descendente, el punto donde estas dos curvas se encuentren corresponde a la mediana de los datos agrupados, leyendo el valor en el eje horizontal.

Si se trabaja en cambio con la ojiva porcentual, es decir con la distribución de frecuencias relativas, la mediana será el valor de la abscisa cuya ordenada es el 50%.

Se concluye entonces que la mediana no está afectada por los valores extremos del conjunto de datos, sean estos grandes o pequeños. No influencian en lo absoluto como sí lo hacen en el cálculo de la media. Cuando la distribución de los datos es muy simétrica, no hay casi diferencia entre la media y la mediana. El cálculo de la mediana es simple, pero siempre requiere que los datos se encuentren ordenados, condición que no requiere el cálculo de la media. Finalmente, se podría decir que la mediana no es una medida muy confiable para describir el conjunto de datos, pues en su cálculo sólo intervienen los valores más centrales sin tener en cuenta los demás y su comportamiento general.

1.1.3. Moda

Se trata del valor más frecuente en un conjunto de datos. Se considera como el valor más representativo o típico de una serie de valores. Es simbolizada como Mo. Si dos valores tienen la misma frecuencia se dice que el conjunto es bimodal. Cuando más de dos valores ocurren con la misma frecuencia y ésta es la más alta, todos los valores son modas, por lo que el conjunto de datos recibe el nombre de multimodal.

Cuando los datos se encuentran agrupados la moda es la marca de clase del intervalo de clase que contiene la mayor frecuencia.

La moda también puede determinarse gráficamente, usando un histograma de frecuencias o un polígono de frecuencias. La barra más alta o el pico más alto corresponde al valor que más se repite. Generalmente las curvas de frecuencia presentan un solo pico, pero a veces se encuentran series con dos o más picos, es decir puntos que corresponden a una mayor densidad de frecuencias. Esto sucede cuando se trabaja con grupos de datos heterogéneos.

Las siguientes tablas de frecuencias indican el número de personas de acuerdo a su edad que asistieron al estreno de una película.

En la tabla 1.3., donde los datos están sin agrupar, la moda es 22, valor correspondiente a la mayor frecuencia que es 5.

En la tabla 1.4., los datos se encuentran agrupados, la moda se encuentra en el intervalo de clase 19.5 – 22.5 y corresponde a la marca de clase que es 21.

Obsérvese que aunque sean el mismo conjunto de datos, la moda varía dependiendo de su tratamiento, es decir, de cómo estos se agrupan. En este caso, debe considerarse el valor obtenido con la tabla de frecuencias de los datos sin agrupar.

Tabla 1.3. Tabla 1.4.

Distribución de frecuencias Distribución de frecuencias agrupadas

de la asistencia a cine de la asistencia a cine

Intervalos de clase Marca de clase Frec.

13.5 – 16.5 15 2

16.5 – 19.5 18 9

19.5 – 22.5 21 13

22.5 – 25.5 24 9

25.5 – 28.5 27 9

28.5 – 31.5 30 1

Total 43

X f X f

14 1 23 4

15 0 24 3

16 1 25 2

17 2 26 4

18 3 27 3

19 4 28 2

20 4 29 0

21 4 30 0

22 5 31 1

Total 43

La moda no es tan usada como la media o la mediana. Para encontrarla se requiere que los datos estén ordenados. Su cálculo es poco preciso debido a que no se puede expresar en términos algebraicos.

Se han visto hasta ahora tres medidas de tendencia central: media, mediana y moda. Determinar cuál de ellas usar en un tratamiento estadístico depende mucho de la información que se tenga y del objetivo que se persigue. La media, a diferencia de la mediana y la moda, presenta una ligera estabilidad en el muestreo, es por eso que su uso es más frecuente. Si la distribución es casi simétrica, cualquiera de ellas puede usarse y resultarán aproximadamente iguales. Cuando los datos no están ordenados, puede resultar más fácil calcular la media aritmética que la mediana. Cuando los datos no están agrupados, el cálculo de la moda se hace más preciso. Si la distribución no es simétrica, es más recomendable emplear la mediana o la moda como medidas de posición.

En cualquier distribución el valor de la mediana se localiza entre la media y la moda. Cuando la distribución es asimétrica a la derecha se cumple que ; si en cambio es asimétrica a la izquierda . Se dice entonces, que una distribución está sesgada si no es simétrica y si se extiende más hacia un lado que hacia el otro. Y será simétrica cuando la mitad de su histograma es aproximadamente igual a su otra mitad. Los datos sesgados a la izquierda (sesgo negativo) presentan una cola izquierda más larga y su media y mediana se encuentran a la izquierda de la moda. Mientras que los datos sesgados a la derecha (sesgo positivo) poseen una cola derecha más larga y su mediana y media están a la derecha de la moda (ver figura 1.1.)

Figura 1.1.

Distribuciones sesgadas

(a) Sesgada a la derecha; (b) Sesgada a la izquierda; (c) Simétrica

La relación de Pearson afirma que la distancia entre la media y la moda es tres veces la distancia entre la media y la mediana. Esta relación es utilizada para calcular cualquiera de ellas, conociendo las otras dos medidas.

En resumen, se puede entender la media aritmética como el punto de equilibrio del conjunto de datos (como el centro de gravedad de un cuerpo); la mediana como la medida que permite dividir el área bajo la curva de distribución en dos parte iguales y la moda como el pico más alto de la curva de distribución.

El cuadro siguiente resume y compara de una manera didáctica y práctica la media, mediana y moda en términos de ventajas y desventajas para su cálculo y uso en la investigación estadística. Ellas tres son las medidas de tendencia central más comúnmente usadas, en el tema siguiente se estudiarán otras medidas no menos importantes pero si menos usadas en el tratamiento estadístico.

Tabla 1.5.

Comparación de la media, mediana y moda

Medida de tendencia central ¿Qué tan común es? ¿Existe siempre? ¿Toma en cuenta cada valor? ¿Se ve afectada por los valores extremos? ¿Requiere que los datos estén ordenados? Ventajas y desventajas

Media Es la más común Si Si Si No Presenta una ligera estabilidad frente al muestreo.

Mediana De uso común Si No No Si No es muy confiable para describir el conjunto de datos, pues en su cálculo sólo intervienen los datos más centrales.

Moda Usada en ocasiones Podría no existir o haber más de una No No Si Es más precisa cuando los datos no están agrupados.

1.1.4. Otras medidas de tendencia central

La media geométrica se utiliza para promediar crecimientos geométricos de la variable, o cuando se quiere dar importancia a valores pequeños, o cuando se quiere determinar el valor medio para un conjunto de porcentajes. Suele utilizarse en negocios y economía para calcular las tasas de cambio promedio, las tasas de crecimiento promedio o tasas promedio. Se simboliza Mg y se define como la raíz n-ésima de la productoria de los n valores de la variable.

Cuando los datos no son agrupados, la media geométrica se calcula hallando el producto de todos los elementos y extrayendo la raíz del orden del número de observaciones.

Cuando los datos están agrupados, la media geométrica se define como la raíz n-ésima de la productoria de los valores de la variable (marca de clase) elevadas cada una de ellas a su correspondiente frecuencia absoluta.

a. Hallar la media geométrica de 2, 4, 6, 9, 12, 15

b. Hallar la media geométrica de la siguiente distribución de frecuencias agrupadas.

Tabla 1.6.

Distribución de frecuencias agrupadas

Intervalos de clase Marcas de clase Frecuencias

0.5 – 1.5 1 2

1.5 – 2.5 2 5

2.5 – 3.5 3 8

3.5 – 4.5 4 5

Total 20

La media armónica de un conjunto de datos es el recíproco de la media aritmética de los recíprocos de los números de la serie de datos. Se simboliza Mh y se define como:

La media armónica es muy influenciable por los valores extremos de la serie, especialmente los más pequeños. Se utiliza preferiblemente para conjuntos de datos que consisten en tasas de cambios, como la velocidad.

Un obrero se gasta 50 minutos en terminar un producto y otro lo hace en 40 minutos. ¿Cuál es el tiempo medio requerido para terminar dicho producto?

44.44 minutos es el tiempo medio requerido.

Los cuartiles, deciles y percentiles son medidas que se utilizan para determinar los intervalos dentro de los cuales quedan proporcionalmente repartidos los términos de la distribución.

Para calcular los cuartiles se divide la distribución en cuatro partes iguales, de manera que cada una tendrá el 25% de las observaciones. Los tres puntos de separación de los valores son los cuartiles. El cuartil inferior (Q1) es aquel valor de la variable que representa el 25% de las observaciones y a la vez, es superado por el 75% restante. El segundo cuartil (Q2) corresponderá a la mediana de la distribución. El tercer cuartil (Q3) es aquel valor que representa el 75% y es superado por el 25% restante de las observaciones.

Para calcular estos tres promedios se procede de manera semejante al cálculo de la media aritmética.

Hallar los cuartiles de la distribución de frecuencias de la tabla 1.2., del ejemplo 1.6.

Primero se identifica la clase en donde se encuentra el primer cuartil.

Intervalo Frecuencia

f Frecuencia acumulada

16-20 4 4

21-25 6 10

26-30 7 17

31-35 5 22

36-40 3 25

Total 25

El intervalo de clase donde se encuentra el primer cuartil es (21-25), pues el número de frecuencias acumuladas es el valor más cercano a 6.25.

Hay 4 observaciones por debajo del límite inferior de la clase del primer cuartil.

El valor de 2.25 se interpola en la amplitud de la clase del primer cuartil que es 4.

Frecuencia absoluta Ancho de clase

6

4

2.25

X

Así pues, el primer cuartil se encontrará 1.5 unidades más del límite inferior de la clase correspondiente:

El segundo cuartil corresponde al punto medio de la distribución, esto es la mediana del grupo de datos.

Para el tercer cuartil se procede de la misma manera.

El intervalo de clase donde se encuentra el tercer cuartil es (31-35) y hay 17 observaciones por debajo del límite inferior de la clase de este cuartil.

Frecuencia absoluta Ancho de clase

5

4

1.75

X

El tercer cuartil se encontrará 1.4 unidades más del límite inferior de su clase:

Lo que quiere decir que el 25% de los valores está por debajo de 22.5; el 50% está por debajo de 27.4 y el 75% está por debajo de 32.4.

Para calcular los deciles se divide el conjunto de datos en 10 partes iguales, de manera que se obtienen nueve valores que dividen la frecuencia total en diez partes iguales. El primer decil (D1) es igual al valor que supera al 10% de las observaciones y es superado por el 90% restante y así para cada uno de los deciles. Su cálculo es muy semejante al de los cuartiles.

De igual manera se puede calcular el centil o percentil al dividir en cien partes iguales la distribución. El primer percentil (P1) es igual al valor que supera al 1% de las observaciones y es superado por el 99% restante y así sucesivamente. Obsérvese que D1=P10; D2=P20;...

El método más sencillo para identificar tanto cuartiles, deciles y percentiles es el gráfico, haciendo uso de la ojiva porcentual ascendente. Sólo requiere buscar en el eje vertical el porcentaje que se busca y leer en el eje horizontal su correspondiente valor.

A partir de la ojiva porcentual de la distribución de frecuencias agrupadas de la tabla 1.2., determine el valor de: Q1, Q2, Q3, D1, D5, D9, P5, P95.

Para construir la ojiva, se debe completar la tabla de distribución de frecuencias agrupadas.

Tabla 1.7.

Distribución de frecuencias agrupadas

Intervalo Frecuencia absoluta Frecuencia acumulada Frecuencia relativa Frecuencia relativa acumulada

16-20 4 4 16% 16%

21-25 6 10 24% 40%

26-30 7 17 28% 68%

31-35 5 22 20% 88%

36-40 3 25 12% 100%

Total 25 100%

Figura 1.2.

Ojiva porcentual ascendente

Con las frecuencias relativas acumuladas se construye la ojiva porcentual ascendente. Una vez construida, se inicia el proceso de identificar cada valor pedido, teniendo en cuenta qué porcentaje representa. Es decir, el primer cuartil representa el 25%, el segundo 50%, el tercero 75%, el primer decil representa el 10%, del quinto es el 50% y el noveno corresponderá al 90%, mientras que el percentil 5 representa al 5% y el 95 al 95%.

Observe en la figura 1.2. que los valores teóricos (calculados en ejemplos anteriores) no son completamente coincidentes. Esto demuestra que el método gráfico no es el más apropiado para su determinación, sin embargo es muy útil y sus valores se aproximan al teórico entre mejor esté graficada la ojiva.

Tabla 1.8.

Resumen de cálculos, ejemplo 1.12.

Medida Porcentaje que representa Valor teórico calculado Valor gráfico obtenido

Q1 25% 22.5 22.2

Q2 50% 27.4 26.9

Q3 75% 32.4 31.8

D1 10% 18

D5 50% 27.4 26.9

D9 90% 35.5

P5 5% 16.5

P95 95% 37.9

Ahora intente lo siguiente: determine los valores teóricos de las medidas que aún no ha calculado y compárelas con las obtenidas por el método gráfico. ¿Son muy diferentes?

El cálculo de percentiles para datos no agrupados se hace más sencillo. Para ello se requiere que los datos se encuentren ordenados de manera ascendente. Luego se determina el valor de la expresión:

Donde:

n es el número de valores del grupo de datos

k es el percentil en cuestión

Si el valor de L es un número entero, el valor del k-ésimo percentil estará por el valor medio entre el L-ésimo valor y el siguiente valor. Si en cambio, el valor de L no es un número entero, este valor debe ser redondeado al siguiente entero más grande y el valor de Pk corresponderá a la posición L-ésima. El siguiente diagrama de flujo clarifica el procedimiento para el cálculo del k-ésimo percentil.

Figura 1.3.

Diagrama de flujo para el cálculo del k-ésimo percentil

Tome el arreglo ordenado del ejemplo 2.1., de la Unidad Didáctica Uno sobre la evaluación de los latidos cardíacos de un grupo de 30 personas después de cierta actividad física y calcule los siguientes percentiles.

58 70 80 85 88 94

60 74 82 85 91 95

62 75 82 85 91 95

64 76 82 87 92 95

68 76 84 88 92 110

a. El valor del percentil 10, P10

Para esto, se sigue el procedimiento planteado en el diagrama de flujo de la figura 1.3. Los datos se encuentran ordenados de forma ascendente; se procede entonces a calcular L, es decir el localizador que da la posición del valor 10.

Después, se verifica si el valor de L es un entero o no. En este caso, L es entero así que se sigue hacia abajo en el diagrama de flujo. De manera que el décimo percentil está a la mitad entre el valor L-ésimo (tercero) y el siguiente valor (cuarto). Es decir, el valor del percentil 10 se ubica entre 62 y 64, que corresponden al tercer y cuarto valor del grupo de datos ordenados, respectivamente. Se tiene entonces:

b. El valor del percentil 43, P43

Se calcula el valor de L:

Como el valor de L no es entero, se redondea al siguiente entero más grande. El valor del percentil 43 es el valor 13º del grupo de datos ordenados contado desde el dato menor. Así:

c. El valor del percentil 81, P81

Se calcula el valor de L:

Como el valor de L no es entero, se redondea al siguiente entero más grande. Observe que no se redondea al entero más cercano sino al entero mayor. El valor del percentil 81 es el valor 25º del grupo de datos ordenados contado desde el dato menor. Así:

d. El valor del cuartil 1, Q1

Recuerde que Q1 es igual que P25, por lo que se procede a calcular el valor del percentil 25. Se halla el valor de L:

El valor del percentil 25 es el valor 8º del grupo de datos ordenados contado desde el dato menor. Así:

EJERCICIOS TEMA 1.1.

1. En la siguiente serie de números indicar:

$4.000 $4.500 $5.000 $5.000 $8.250

$9.300 $9.700 $12.000 $12.500 $35.000

a. La media

b. La mediana

c. La moda

d. ¿Cuál de las medidas es más representativa? ¿Por qué?

e. ¿Qué valor de esta serie afecta a la media aritmética?

2. Calcule la media aritmética, mediana y moda de los siguientes conjuntos de datos:

a. 6, 5, 7, 6, 5, 4, 7, 4, 6, 8, 7, 6

b.

X f

4 8

5 12

6 11

7 20

8 14

9 10

10 7

n 82

c.

Intervalos de clase Frecuencia

39 – 49 5

49 – 59 8

59 – 69 10

69 – 79 9

79 – 89 8

89 – 99 6

99 - 109 4

Total 50

3. De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la noche. Se sabe que el salario promedio de los 100 obreros es $407.200 y que los del turno del día reciben en promedio $28.000 menos que los trabajadores nocturnos. ¿Cuál es el salario promedio en cada grupo?

4. Carlos obtiene calificaciones parciales de 65, 83, 80, y 90. En el examen final recibe una calificación de 92. Calcule la media ponderada, si cada uno de los exámenes parciales cuenta el 15% y el examen final cuenta 40% de la calificación total.

5. Antes del examen final de Estadística, un estudiante obtiene calificaciones de 3.5 en el 20%, 2.0 en el 30%, 4.2 en el 10%. Si la evaluación final equivale al 40% restante, ¿que calificación necesita para obtener un promedio final de 3.5?

6. En una industria se ha controlado el tiempo que tardan tres obreros en ensamblar un motor. Uno demora 6 horas, otro 8 horas y un tercero demora 5 horas. Halle el rendimiento de un obrero tipo, que sirva de base para análisis financieros.

7. Un hombre viaja desde Bogotá hasta Acacías a una velocidad de 60 km/h. Para evitar la noche en carretera, este decide acelerar a 80 km/h para llegar de nuevo a Bogotá. ¿Cuál es la velocidad promedio del viaje completo?

8. El factor de crecimiento promedio de dinero compuesto con tasa de interés anual del 10%, el 8%, el 9%, el 12% y el 7% se obtiene determinando la media geométrica de 1.10, 1.08, 1.09, 1.12 y 1.07. Calcule el factor de crecimiento promedio.

1. Para la siguiente tabla de distribución de frecuencias agrupadas, determine los tres cuartiles tanto teórica como gráficamente.

Intervalos de clase Frecuencia

39 – 49 5

49 – 59 8

59 – 69 10

69 – 79 9

79 – 89 8

89 – 99 6

99 - 109 4

Total 50

2. Tome la combinación ordenada de los datos que corresponden al perímetro craneal de un niño al nacer, del numeral 3 de los ejercicios del tema 2.3., y calcule los siguientes percentiles:

a. 5 b. 15 c. 95 d. 25

e. 50 f. 10 g. 75 g. 30

1.2. MEDIDAS DE DISPERSIÓN

Se veía en el tema anterior la tendencia que tiene un conjunto de datos dado a agruparse hacia el centro, pero también se descubrió que los datos extremos podían estar bastante alejados de esa tendencia central. Medir esa variación respecto a los promedios es un cálculo importante en el tratamiento estadístico de datos, medidas a las que se les denomina de dispersión o de variación.

La información que arrojan las medidas de tendencia central no siempre proporcionan conclusiones contundentes frente al conjunto de datos. Por ejemplo, a un profesor de Estadística poco le dice la media aritmética al afirmar que el promedio de los estudiantes tiene el curso en 3.0 ya que no le termina de aclarar si el grupo completo está muy cerca de esa nota, sea por encima o por debajo de ella, o si al contrario existe tanta variabilidad en las notas de los estudiantes que puede ir desde 1.0 hasta 5.0. Se estudiará a continuación cómo resolver este tipo de problemas y qué medidas de dispersión usar.

1.2.1. Rango o recorrido

Sobre esta medida ya se había trabajado en la construcción de las tablas de frecuencia agrupada. Se trata de la diferencia entre el límite superior y el límite inferior de un conjunto de datos. Es la medida de dispersión más fácil de calcular, sólo requiere que los datos estén ordenados. Pero es poco usada como medida de dispersión porque se deja afectar fácilmente de los valores extremos de poca frecuencia.

Un profesor de Estadística tiene a su cargo dos grupos de 40 estudiantes cada uno. La siguiente tabla de frecuencias reporta las calificaciones del grupo A y grupo B de estudiantes, después de la primera evaluación. ¿Hay diferencia alguna entre estos dos grupos?

Lo primero que se hace para verificar diferencias entre ambos grupos es calcular su media aritmética.

Tabla 1.9.

Distribución de frecuencias

de las calificaciones de estudiantes de Estadística

Calificación Frecuencia

A B

4.0 1 2

4.1 2 9

4.2 3 7

4.3 16 4

4.4 10 5

4.5 4 4

4.6 3 3

4.7 0 2

4.8 0 1

4.9 0 1

5.0 1 2

Total 40 40

Tanto la media como el rango de ambos conjuntos de datos son iguales. Sin embargo, ellos se distribuyen de forma muy diferente. Observe que el grupo A es más compacto hacia las notas entre 4.5 y 4.0. La nota de 5.0 de un solo estudiante interfiere muchísimo en el análisis verdadero del comportamiento académico de los estudiantes del grupo A.

Analice qué tanto cambian los valores de la media y el rango del grupo A de estudiantes si se elimina la nota de 5.0, observe que un dato extremo hace variar completamente el conjunto de datos y demuestra que, comparado con otro, el cálculo de la media y el rango son insuficientes para arrojar análisis certero de comparación.

En cambio, las calificaciones del grupo B se distribuyen mejor alrededor de todo el rango de datos.

Para eliminar la influencia de los extremos en el cálculo del rango, es común hacer uso del rango intercuartílico que consiste en determinar la diferencia entre el tercer cuartil y el primero.

El rango semiintercuartílico o desviación cuartil se obtiene calculando el rango intercuartílico y dividiendo este entre dos.

Ambas medidas son más confiables como variabilidad comparadas con el rango, sin embargo presentan inconvenientes para su uso puesto que no consideran todos los valores de la distribución y puede ocurrir que los valores inferiores a Q1 o superiores a Q3 estén o muy compactos o muy dispersos sin que esto afecte a QD y no sea reflejado en su resultado.

De la misma manera, el rango interdecil corresponde a la diferencia entre el noveno y el primer decil:

1.2.2. Varianza

Es una de las medidas más usadas en estadística, ella a su vez da origen a otra mucho más significativa: la desviación típica o estándar. Se define como la media aritmética de los cuadrados de las desviaciones respecto a la media aritmética. Se simboliza s2 para la varianza muestral y σ2 para la varianza poblacional.

Para datos no agrupados:

Para datos agrupados:

La varianza indica la desviación de los datos respecto a la media. Para comparar dos distribuciones, en cuanto a su variabilidad absoluta, se pueden utilizar sus varianzas de manera que el resultado indique cuál de ellas es más homogénea o cuál es más heterogénea.

Se quiere conocer la verdadera calidad de producción en dos empresas fabricantes de tornillos para fuselaje. La siguiente tabla indica las longitudes de una muestra de tres tornillos tomados al azar. Haga un análisis de variabilidad de ambas empresas.

Empresa A 1,95 pulg. 2,03 pulg. 2,02 pulg.

Empresa B 1,70 pulg. 1,80 pulg. 2,50 pulg.

Es fácil calcular que ambas empresas tienen una media de pulgadas. Pero las muestras difieren mucho en sus tamaños, para visualizar mejor esto se analizan sus respectivas varianzas. Tenga en cuenta que los datos no están agrupados, por lo que se hace uso de la primera ecuación:

Observe que la empresa A tiene una variación mayor respecto a la empresa B en cuanto a la calidad en la fabricación de tornillos. Esto quiere decir que la empresa B varía mucho, en su producción, el tamaño de sus tornillos mientras que la empresa A mantiene un rango constante en el tamaño de los tornillos que produce.

Las unidades de la varianza son los cuadrados de las unidades de los datos: pesos cuadrados, alumnos cuadrados, etc., medidas difíciles de interpretar. De allí que la varianza de origen a la desviación típica o estándar.

1.2.3. Desviación típica o estándar

Esta medida se obtiene extrayendo la raíz cuadrada de la varianza, tomando siempre el valor positivo. Se simboliza por s en la muestra y σ en la población. Esta es la medida de dispersión más conocida y más utilizada en el análisis de datos estadísticos.

Para datos no agrupados:

Para datos agrupados:

Después de estudiar los conceptos de varianza y desviación estándar, se está en capacidad de hacer un análisis mucho más riguroso de la variabilidad de las calificaciones de los estudiantes de Estadística del ejemplo 1.14.

Tabla 1.10.

Distribución de frecuencias

de las calificaciones de estudiantes de Estadística

Calificación Frecuencia X2 f•X2

A B A B

4.0 1 2 16 16 32

4.1 2 9 16,81 33,62 151,29

4.2 3 7 17,64 52,92 123,48

4.3 16 4 18,49 295,84 73,96

4.4 10 5 19,36 193,6 96,8

4.5 4 4 20,25 81 81

4.6 3 3 21,16 63,48 63,48

4.7 0 2 22,09 0 44,18

4.8 0 1 23,04 0 23,04

4.9 0 1 24,01 0 24,01

5.0 1 2 25 25 50

Total 40 40 223,85 761,46 763,24

Para el grupo A se tiene:

Y para el grupo B de estudiantes, se tiene:

La varianza del grupo B es mayor que la del grupo A, se dice entonces que los datos del grupo B tiene mayor variabilidad que los del grupo A; en otras palabras, en el grupo B hubo mayor estabilidad en las notas alrededor de su media: 4.36.

Es importante tener en cuenta las siguientes propiedades de la desviación estándar:

• La desviación estándar es una medida de variación de todos los valores con respecto a la media.

• El valor de la desviación estándar siempre es positivo y sólo es igual a cero cuando los valores de los datos son iguales.

• Si el valor de la desviación estándar es muy grande, este indica mayor variación en el grupo de datos.

• El valor de la desviación estándar puede incrementarse drásticamente cuando se incluye uno o más datos distantes.

• Las unidades de la desviación estándar son las mismas de los datos originales (pulgadas, centímetros, etc.)

1.2.4. Coeficiente de variación

Las medidas de dispersión que se han estudiado son medidas absolutas y se expresan en las mismas unidades con las que se mide la variable. Cuando se comparan dos o más conjuntos de datos con unidades de medida de observación diferentes, no es posible compararlas con estas medidas absolutas. Si las unidades de observación de los conjuntos de datos son iguales, estos pueden compararse usando cualquiera de estos estadísticos (como en el ejemplo anterior) pero siempre y cuando la media aritmética sea la misma, de lo contrario estas apreciaciones no aportarán una buena conclusión sobre las series que se comparan.

Para efectuar comparaciones entre series de observaciones distintas, en estadística se usa el coeficiente de variación y así se puede determinar cuál serie tiene mayor o menor variabilidad relativa.

Cuando el coeficiente de variación es muy alto se dice que la media aritmética no es lo suficientemente representativa en la distribución.

1.2.5. Desviación media

Se define como la media aritmética de las desviaciones respecto a la media, tomadas en valor absoluto . Es una de las medidas más fáciles de calcular y por ello, muy usada. Ella toma todos los valores de la variable y es menos afectada que la desviación estándar por los valores extremos. Su valor siempre será menor que la desviación estándar.

Para datos no agrupados:

Para datos agrupados:

Cuanto mayor sea el valor de la desviación media, mayor será la dispersión de los datos; sin embargo este valor no proporciona una relación matemática precisa con la posición de un dato dentro de la distribución y, puesto que se toman los valores absolutos, mide la desviación de una observación sin determinar si está por encima o por debajo de la media aritmética.

De la misma manera que la desviación estándar, a la desviación media puede calculársele el coeficiente de desviación media:

Los siguientes datos corresponden a los salarios de 10 empleados (en miles de pesos) de dos empresas de alimentos. Calcular los coeficientes de variación y de desviación media.

Empresa A: $420 $680 $690 $720 $720 $720 $730 $740 $740 $760

Empresa B: $415 $480 $510 $650 $700 $700 $730 $735 $750 $760

Empresa A:

Media aritmética:

Varianza:

Desviación estándar:

Desviación media:

Coeficiente de variación:

Coeficiente de desviación media:

Empresa B:

Media aritmética:

Varianza:

Desviación estándar:

Desviación media:

Coeficiente de variación:

Coeficiente de desviación media:

El CVM es menor que el CV debido a que la desviación media es menor que la desviación estándar.

Estos resultados llevan a las siguientes conclusiones:

• El salario promedio de los 10 empleados de la empresa A es de $692.000, mientras que en la empresa B el salario promedio es de sólo $643.000.

• En la empresa B los salarios varían grandemente respecto al media: en 14396 miles de pesos cuadrados, que en términos de la desviación estándar esto es $119.980. En cambio, en la empresa A la variación es de $93.360.

• El coeficiente de variación y el coeficiente de variación media de la empresa B son menores a los coeficientes calculados para la empresa A, esto indica la variación relativa de los salarios en ambas empresas.

1.2.6. Puntaje típico o estandarizado

Cuando se tiene una distribución simétrica, su polígono de frecuencias revelará una forma de campana muy común en estadística. Esta curva es llamada curva normal, de error, de probabilidad o campana de Gauss. En ella la media aritmética se localiza en la mitad de la distribución. En el eje horizontal se ubican los valores que toma la variable y en el vertical la frecuencia absoluta o relativa. El área bajo la curva tendrá un valor del 100%

Figura 1.4.

Curva normal o campana de Gauss

El puntaje típico o estandarizado o variable normalizada, es una medida de dispersión muy utilizada como variable estadística en este tipo de distribución, denominada distribución normal. El puntaje estandarizado mide la desviación de una observación con respecto a la media aritmética, en unidades de desviación estándar, determinándose así la posición relativa de una observación dentro del conjunto de datos. Por lo general se simboliza por Z, pero cuando el tamaño de la muestra es menor de 30, se simboliza por t.

Por ser adimensional, el puntaje Z es útil para comparar datos individuales de distribuciones que tienen distintas unidades de medida, así como diferentes medias y desviaciones estándar. Dentro de sus propiedades, las más importantes son que su media es cero y su desviación estándar y varianza es uno.

Al terminar el semestre, un grupo de 150 estudiantes de primer semestre de Regencia de Farmacia del CEAD de Medellín obtuvieron los siguientes resultados en el puntaje final de los cursos Lógica Matemática y Estadística Descriptiva:

• Lógica Matemática: puntuación media de 3.9 y varianza 3.2.

• Estadística Descriptiva: puntuación media de 3.7 y desviación estándar 1.7.

a. ¿En cuál curso hubo mayor dispersión absoluta? ¿En cuál hubo mayor dispersión relativa?

b. Si un estudiante obtuvo como nota final en Lógica Matemática 3.8 y en Estadística Descriptiva 3.5. ¿En cuál curso fue su puntuación relativa superior?

a. Para determinar la dispersión absoluta, basta con hacer una comparación entre sus desviaciones estándar. Observe que en los datos suministrados, ya se tiene el valor de la desviación estándar de las calificaciones de Estadística Descriptiva en cambio, se tiene la varianza de las calificaciones de Lógica Matemática. Recuerde que la desviación estándar es la raíz cuadrada de la varianza.

Para Lógica Matemática:

Se tiene entonces que en Lógica Matemática hubo una mayor dispersión absoluta, pues 1.79>1.7, aunque no es mucha la diferencia.

Para saber en cuál hubo mayor dispersión relativa, se recurre al coeficiente de variación:

Para Lógica Matemática:

Para Estadística Descriptiva:

En Estadística Descriptiva hubo una mayor dispersión relativa 46%>45.9%

b. Para el cálculo de la puntuación relativa, se hace uso del puntaje estandarizado. Es decir, se requiere estandarizar las calificaciones convirtiéndolas en puntuaciones Z.

Lógica Matemática:

Estadística Descriptiva:

Estos valores de puntuación Z negativos indican que ambas calificaciones se encuentran por debajo de la media. Este es un principio del puntaje estandarizado: Siempre que un valor sea menor que la media, su puntuación Z correspondiente será negativa.

Estos resultados afirman entonces que el estudiante con calificaciones de 3.8 en Lógica Matemática y 3.5 en Estadística Descriptiva, está por debajo del promedio del grupo en ambos cursos.

Dado que -0.06 se encuentra más cera a 0 (la media de la variable estandarizada), se dice que la puntuación relativa del estudiante fue superior en Lógica Matemática.

EJERCICIOS TEMA 1.2.

1. En un café Internet, el rango de tiempo de uso en un mes es de 27 minutos, si el mayor tiempo de consulta en ese mes duró 1 hora y 12 minutos, halle el menor tiempo de consulta en ese mes.

2. Calcule el rango intercuartílico y semiintercuartílico de los datos agrupados en la tabla del numeral 9 de los ejercicios del tema 1.1. de esta Unidad Didáctica.

3. Halle el rango, la varianza, la desviación estándar, desviación media y el coeficiente de variación de las siguientes series:

a. 5 6 3 8 0 1

b. 2.35 3.16 1.20 2.10 5.32 4.8

c. 3 1 0 2 1 0 2 0 3

d. 5.35 6.16 4.20 5.10 8.32 7.8

4. Tome los datos de la tabla de distribución de frecuencias agrupadas del numeral 2c de los ejercicios del tema 1.1. de esta Unidad Didáctica y determine varianza y desviación estándar.

5. Tome los datos del ejemplo 2.1., de la Unidad Didáctica 1 que representan la evaluación de los latidos cardíacos de un grupo de 30 personas después de cierta actividad física. Continúe con esos datos para terminar el análisis completo de ese fenómeno y ahora calcule varianza, desviación estándar, desviación media.

6. En una prueba de tiro al blanco de cinco anillos, dos competidores Johan y Samantha obtuvieron los resultados que se indican a continuación. Determine, usando medidas estadísticas, quién es el mejor.

Johan Samantha

1 Tiro de 5 Puntos 4 Tiros de 5 Puntos

8 Tiros de 4 Puntos 9 Tiros de 4 Puntos

14 Tiros de 3 Puntos 7 Tiros de 3 Puntos

5 Tiros de 2 Puntos 5 Tiros de 2 Puntos

1 Tiro de 1 Punto 3 Tiros de 1 Punto

1 Tiro de 0 Puntos 2 Tiros de 0 Puntos

7. Un fabricante de bombillas de neón tiene dos tipos de tubos, A y B. Los tubos tienen unas duraciones medias respectivas de 1.495 horas y 1.875 horas, y desviaciones estándar de 280 horas y 310 horas respectivamente.

a. ¿Qué tubo tiene la mayor dispersión absoluta?

b. ¿Qué tubo tiene la mayor dispersión relativa?

c. Si se extrajo un tubo de cada tipo y su duración fue de 1.350 horas y 1.750 horas respectivamente, ¿cuál tipo de tubo tiene menor posición relativa?

8. Dada la serie de puntuaciones 9, 5, 6, 11, 1, 2, 10, 4, hallar el puntaje estandarizado de cada puntuación

9. Las estaturas de los hombres adultos tienen una media de 1,75 metros y una desviación estándar de 7 centímetros. Calcule las puntuaciones Z que corresponden a las siguientes personas:

a. Carlos Alberto que mide 156 centímetros.

b. Juan José que mide 1,81 metros.

c. Francisco que mide 1,68 metros.

10. En un grupo de estudiantes la estatura promedio es 163,1 cm., con una desviación estándar de 9,38 cm. y su peso promedio es de 61,3 kg con desviación estándar 11,7 kg. Mauricio mide 1,70 metros y pesa 63 kg, calcule:

a. La puntuación estandarizada de cada medida.

b. ¿En cuál de las dos medidas hay mayor dispersión absoluta?

c. ¿En cuál de las dos medidas hay menor dispersión relativa?

...

Descargar como  txt (47.8 Kb)  
Leer 28 páginas más »
txt