Varianza
SVSANDOVALTesis5 de Mayo de 2015
3.963 Palabras (16 Páginas)230 Visitas
Varianza
En teoría de probabilidad, la varianza (que suele representarse como ) de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.
Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar es la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mínimo 0.
Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas.
Definición:
Si tenemos un conjunto de datos de una misma variable, la varianza se calcula de la siguiente forma:
Siendo:
: cada dato
: El número de datos
: la media aritmética de los datos
Variable aleatoria
Aplicando este concepto a una variable aleatoria con media μ = E[X], se define su varianza, Var(X) (también representada como o, simplemente σ2), como
Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente):
Si una distribución no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su índice k satisface 1 < k ≤ 2.
Caso continuo
Si la variable aleatoria X es continua con función de densidad f(x), entonces
Donde
y las integrales están definidas sobre el rango de X.
Caso discreto
Si la variable aleatoria X es discreta con pesos x1 ↦ p1, ..., xn ↦ pn y n es la cantidad total de datos, entonces tenemos:
Donde
.
Ejemplos
Distribución exponencial
La distribución exponencial de parámetro λ es una distribución continua con soporte en el intervalo [0,∞) y función de densidad
Tiene media μ = λ−1. Por lo tanto, su varianza es:
Es decir, σ2 = μ2.
Dado perfecto
Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3,5. Por lo tanto, su varianza es:
Propiedades de la varianza
Algunas propiedades de la varianza son:
siendo a y b números reales cualesquiera. De esta propiedad se deduce que la varianza de una constante es cero, es decir,
, donde Cov(X,Y) es la covarianza de X e Y.
, donde Cov(X,Y) es la covarianza de X e Y.
Varianza muestral
En muchas situaciones es preciso estimar la varianza de una población a partir de una muestra. Si se toma una muestra con reemplazamiento de nvalores de ella, de entre todos los estimadores posibles de la varianza de la población de partida, existen dos de uso corriente:
Y Cuando los datos están agrupados:
A los dos (cuando está dividido por n y cuando lo está por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la población y el segundo es un estimador insesgado de la varianza de la población. De hecho,
mientras que
Propiedades de la varianza muestral
Como consecuencia de la igualdad , s2 es un estadístico insesgado de . Además, si se cumplen las condiciones necesarias para la ley de los grandes números, s2 es un estimador consistente de .
Más aún, cuando las muestras siguen una distribución normal, por el teorema de Cochran, tiene la distribución chi-cuadrado:
Curtosis
En teoría de la probabilidad y estadística, la curtosis es una medida de la forma. Así, las medidas de curtosis tratan de estudiar la proporción de la varianza que se explica por la combinación de datos extremos respecto a la media en contraposición con datos poco alejados de la misma. Una mayor curtosis implica una mayor concentración de datos muy cerca de la media de la distribución coexistiendo al mismo tiempo con una relativamente elevada frecuencia de datos muy alejados de la misma. Esto explica una forma de la distribución de frecuencias con colas muy elevadas y un con un centro muy apuntado.
Definición:
Un coeficiente de apuntamiento o de curtosis es el basado en el cuarto momento con respecto a la media y se define como:
donde es el 4º momento centrado o con respecto a la media y es la desviación estándar.
No obstante, está más extendida la siguiente definición del coeficiente de curtosis:
donde al final se ha sustraído 3 (que es la curtosis de la Normal) con objeto de generar un coeficiente que valga 0 para la Normal y tome a ésta como referencia de apuntamiento:
Tomando, pues, la distribución normal como referencia, una distribución puede ser:
más apuntada y con colas más anchas que la normal –leptocúrtica.
menos apuntada y con colas menos anchas que la normal- platicúrtica.
la distribución normal es mesocúrtica.
En la distribución normal se verifica que , donde es el momento de orden 4 respecto a la media y la desviación típica.
Así tendremos que:
Si la distribución es leptocúrtica y
Si la distribución es platicúrtica y
Si la distribución es mesocúrtica y
Otra forma de medir la curtosis se obtiene examinando la fórmula de la curtosis de la suma de variables aleatorias. Si Y es la suma de n variables aleatoriasestadísticamente independientes, todas con igual distribución X,
entonces , complicándose la fórmula si la curtosis se hubiese definido como .
Asimetría estadística
Definición:
Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o asimetría) que presenta unadistribución de probabilidad de una variable aleatoria sin tener que hacer su representación gráfica.
Como eje de simetría consideramos una recta paralela al eje de ordenadas que pasa por la media de la distribución. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
Medidas de asimetría
Coeficiente de asimetría de Fisher
En teoría de la probabilidad y estadística, la medida de asimetría más utilizada parte del uso del tercer momento estándar.
La razón de esto es que nos interesa mantener el signo de las desviaciones con respecto a la media, para obtener si son mayores las que ocurren a la derecha de la media que las de la izquierda. Sin embargo, no es buena idea tomar el momento estándar con respecto a la media de orden 1. Debido a que una simple suma de todas las desviaciones siempre es cero. En efecto, si por ejemplo, los datos están agrupados en clases, se tiene que:
en donde representa la marca de la clase -ésima y denota la frecuencia relativa de dicha clase. Por ello, lo más sencillo es tomar las desviaciones al cubo.
El coeficiente de asimetría de Fisher, representado por , se define como:
donde es el tercer momento en torno a la media y es la desviación estándar.
Si , la distribución es asimétrica positiva o a la derecha.
Si , la distribución es asimétrica negativa o a la izquierda.
Si la distribución es simétrica, entonces sabemos que . El recíproco no es cierto: es un error común asegurar que si entonces la distribución es simétrica (lo cual es falso).
Coeficiente de asimetría de Pearson
Sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente asimétricas. Se basa en que en distribuciones simétricas la media de la distribución es igual a la moda.
Si la distribución es simétrica, y . Si la distribución es asimétrica positiva la media se sitúa por encima de la moda y, por tanto, .
Coeficiente de asimetría de Bowley
Está basado en la posición de los cuartiles y la mediana, y utiliza la siguiente
...