Dispersion
amouest3 de Noviembre de 2012
4.052 Palabras (17 Páginas)412 Visitas
Medidas de localización
Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra.
Medidas de tendencia central
Cuando se tiene un conjunto de datos cuantitativos que representan a una población o a una muestra, se hace necesario obtener a partir de ellos ciertos valores que describan su comportamiento, y que permitan comparar a esta población o muestra con otra, con el objeto de llegar a conclusiones acerca de como es el comportamiento de una con relación al de la otra. Estos valores cuando se calculan sobre toda la población se denominan “Parámetros Poblacionales” ; mientras que cuando se calculan sobre una muestra se denominan “Estadigrafos” o “Estadísticos muestrales” .
La Estadística Descriptiva sin embargo, no hace distinción entre población y muestra , pues su objetivo es simplemente describir el comportamiento de los datos, y por ese motivo , a estos valores los llama “Medidas” .Según sea el aspecto de los datos que se quiera analizar, existen distintos tipos de “Medidas” , y en este capítulo se analizará el primer grupo de ellas conocidas bajo el nombre de “Medidas de Tendencia Central” .
A las medidas de tendencia central, también se les suele llamar “promedios”, son siempre un valor numérico comprendido entre los dos valores extremos , es decir entre el mínimo y el máximo valor de los datos, y se utilizan como valor representativo de ellos.
A continuación se estudiaran las principales medidas de tendencia central, tomando x_1, x_2 , x_3 , ..., x_n , se define como “media aritmética simple” X , a su suma dividida entre el número de datos, es decir:
x ̅=(x_1+x_2+⋯+x_n)/n=(∑_(i=1)^(i=n)▒x_i )/n
La media aritmética simple es la más conocida y utilizada de las medidas de tendencia central , y también se le conoce bajo otros nombres , tales como “promedio simple” , “media” , etc. ; cuando los “n” datos constituyen toda la población , se le llama “media poblacional” y se suele designar con la letra griega “ µ”, mientras que cuando los “n” datos corresponden a una muestra, se le llama “media muestral” .
Algunas Propiedades de la media aritmética simple:
Propiedad N°1: Si cada uno de los datos es sustituido por la media aritmética , la suma no se altera , es decir x_1+x_2+⋯+x_n = x ̅+x ̅+x ̅+......+x ̅ = n x ̅ .
Demostración : Por definición: x ̅=(x_1+x_2+⋯+x_n)/n
Por lo tanto : x_1+x_2+⋯+x_n = n x ̅ = x ̅+ x ̅+ x ̅ +...... + x ̅ .
Esta propiedad significa que la media aritmética representa a los datos en su suma, pues si se sustituye cada uno de los datos por la media aritmética, la suma no se altera
Propiedad N°2: El valor de la media aritmética está siempre comprendido entre el mínimo y el máximo valor de los datos .
Demostración : Supongamos que los “n” datos están ordenados de menor a mayor , y que por lo tanto : x_(1≤) x_(2≤) x_(3≤⋯≤) x_n
Por la propiedad anterior se tiene : n x ̅ =x_(1+) x_(2+) x_(3+⋯+) x_n
Si en la suma, cada dato es sustituido por el menor valor x_1 , la suma se hace más pequeña , y por tanto : n x ̅ ≥ x_1+ x_1 +x_1 + ...... + x_1 = n x_1 x ̅ ≥x_1
Análogamente , si en la suma cada dato es sustituido por el mayor valor x_n , la suma se hace más grande , y por tanto :
nx ̅ ≤ x_n + x_n +x_n + ...... + x_n = n x_n x ̅ ≤ x_n
y por lo tanto se concluye en que : x_1 ≤ x ̅ ≤ x_n
Esta propiedad de encontrarse siempre entre el mínimo y el máximo valor de los datos , la tienen todas las medidas de tendencia central , y por lo tanto resulta imposible que al calcular una media aritmética , o cualquier otra medida de tendencia central , el resultado del cálculo se salga del intervalo de variación de los datos .
Propiedad N°3: La suma de las desviaciones de los datos respecto de la media aritmética siempre se anula .
Se define como desviación de un dato “ x_i” respecto de un valor “A” a la diferencia x_i - A . Cuando esta diferencia resulta positiva , significa que el dato es mayor que el valor “A” ; mientras que cuando da negativa , significa que el dato “x_i” es menor que el valor “A” .
Según esta propiedad cuando A = x ̅ , esta suma de desviaciones se anula .
Demostración : Designando por “di” a la desviación de cada dato “x_i” respecto de la media aritmética x ̅ , se tiene : d_1 = x_1 - x ̅ , d_2 = x_2 - x ̅ , ....., d_n = x_n - x ̅.
∑_(i=1)^(i=n)▒〖d_i=(x_1-x ̅ 〗)+(x_2-x ̅ )+⋯+(x_n-x ̅ )=(x_1+x_2+⋯+x_n )-nx ̅=0, por la propiedad N° 1 .
Esta propiedad significa que la media aritmética X , se coloca en un punto tal que las suma de las distancias de los datos que están a su izquierda, es siempre igual a la suma de las distancias de los datos que están a su derecha.
Propiedad N°4: La suma de los cuadrados de las desviaciones de los datos es mínima, cuando estas desviaciones se calculan respecto de la media aritmética.
Demostración : Supongamos que se calcula la desviación de cada dato respecto de un valor cualquiera “A”, y que se efectúa la suma de sus cuadrados .
Se tiene entonces: ∑_(i=1)^(i=n )▒〖〖(x〗_i-A)〗^2 ; y se pretende demostrar que esta suma es mínima, cuando A= x ̅ .
Propiedad N°5 : Cuando un conjunto de datos { x_1, x_2 , x_3 , ..., x_n } es sometido a una transformación lineal : Y = a + b X , entonces la media aritmética queda afectada por esa misma transformación lineal, es decir : Y= a + bX .
Usando la hoja de calculo en Excel, se muestra el siguiente ejemplo para llevar a cabo el calculo de la media aritmética:
La Mediana : Después de la media aritmética, la medida de tendencia central más importante es la mediana , la cual se define de la siguiente manera :
Dado un conjunto de “n” datos { x_1, x_2 , x_3 , ......, x_n} , la mediana es aquel valor que supera a la mitad de los datos a lo más , y que es superado por la mitad de los datos a lo más .
En la definición anterior , el término “ a lo más” expresa un concepto muy importante , pues significa que dentro del conjunto de datos , no pueden existir más del 50 % de datos , que sean estrictamente menores que la mediana , ni más del 50 % de datos que sean estrictamente mayores que la mediana , y que por lo tanto , la mediana esta ubicada en una posición tal que por ninguno de los dos lados se excede este porcentaje del 50% .
Cálculo de la mediana para datos sin agrupar : Para calcular la mediana de un conjunto de datos sin agrupar { x1, x2 , x3 , ......, xn } , según la definición anterior , es necesario comenzar ordenándolos de menor a mayor .
Los datos ordenados se designaran por {x(1 ) x(2 ) x(3 )…. x(n) } , en donde x(1) representa el menor valor dentro del conjunto de datos , el cual obviamente no tiene que coincidir con x1, que representa el valor de la primera observación ; x(2) representa el segundo menor valor , y así sucesivamente hasta x (n) que representa el mayor valor .
Una vez ordenados los datos , para calcular la mediana , hay que distinguir dos casos:
Caso 1 : “n” es impar . En este caso , la mediana es el valor que ocupe la posición (n+1)/2 , una vez ordenados de menor a mayor , es decir : Med = x_( (n+1)/2)
Caso 2 : “n” es par . Antes de comenzar el análisis de este caso , es importante aclarar que el valor de una medida de tendencia central no tiene necesariamente que pertenecer al conjunto de datos , y así por ejemplo , cuando se calcula el valor de una media , el resultado puede no ser del conjunto.
La única limitación que tiene una medida de tendencia central , es que debe estar entre los dos valores extremos.en el caso “n” par , a menos que exista empate entre los dos valores centrales , existen infinitas medianas que son todos los valores comprendidos en el intervalo [x_((n/2) ),x_((n/2+1) ) ] , y de allí entonces que se tome como mediana al valor central de este intervalo: (x_((n/2) )+x_((n/2+1) ))/2
Cálculo de la mediana para datos agrupados : Cuando los datos están agrupados en una tabla de frecuencias , la determinación de la mediana es completamente diferente , y puede ser hecha por procedimientos gráficos o por procedimientos analíticos .
La Moda : La moda , o también llamado “modo” , es otra medida de tendencia central , que para el caso de un conjunto de datos no agrupados { x1, x2 , x3 , ......, xn } , se define como aquel valor que más se repite .
La definición anterior significa , que si se tiene un conjunto de datos sin agrupar , para determinar su moda , es necesario contar cuantas veces se repite cada valor, y aquel que presente la mayor frecuencia , es por definición la moda . El uso de la moda como promedio , puede presentar el inconveniente de que ésta puede no ser única en caso de que se presenten empates en la mayor frecuencia.
En estos casos , se dice que la distribución de frecuencias es “multimodal” , y puede resultar “bimodal” , “trimodal” , etc., según sea el número de valores , cuyas frecuencias resulten empatadas con la máxima frecuencia .
Cuando los datos están agrupados , el cálculo de la moda cambia radicalmente , y sólo puede ser obtenida de forma aproximada .
Antes de analizar como se determina la moda en el caso de datos agrupados , es necesario revisar algunos conceptos previos , como son el de máximo relativo , y el de curva de frecuencias .
Según
...