ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Chi Cuadrado


Enviado por   •  13 de Febrero de 2015  •  3.081 Palabras (13 Páginas)  •  419 Visitas

Página 1 de 13

Y CÓMO SE CALCULA LA DISTRIBUCIÓN CHI CUADRADO?

ANTECEDENTES HISTÓRICOS DE LA DISTRIBUCIÓN CHI CUADRADO:

El matemático Karl Pearson (1857−1936), advirtió que cuando un científico realiza un experimento de resultados aleatorios, generalmente tiene en mente como referente un «modelo teórico ideal» que de antemano establece cómo debería ser el comportamiento y cuáles deberían ser los resultados estadísticos esperados del experimento. Sin embargo, en el mundo real es muy normal que los resultados empíricos obtenidos dentro de Muestras Estadísticas sobre la realización de un experimento aleatorio no coincidan plenamente con los resultados teóricos esperados. En muchos casos es normal que ocurran grandísimas fluctuaciones en los resultados observados en el experimento aleatorio, y aún así es posible seguir afirmando que esos resultados fluctuantes todavía están ocurriendo dentro de los límites previstos por el modelo teórico ideal. Justamente, una gran dificultad a la que se enfrentaron los primeros científicos de la Modernidad fue cómo hallar una fórmula matemática para determinar con exactitud que las fluctuaciones o variaciones observadas en los resultados de un experimento eransuficientemente «significativas» como para permitir concluir que esos resultados ya no respondían a las expectativas del modelo teórico.

Por ese motivo Karl Pearson hacia 1900 propuso uno de los primeros Tests Estadísticos que desde la óptica de las distribuciones de la probabilidad sirve para calcular si los resultados estadísticos de un experimento se alejan significativamente o no de los resultados esperados del modelo teórico, test que actualmente es conocido como el «Test Chi Cuadrado». Luego otros importantes matemáticos han propuesto la axiomatización de diversas funciones matemáticas o estadísticas que permiten definir y calcular los límites ideales a partir de los cuales se puede afirmar con gran certeza que los resultados observados en un experimento aleatorio definitivamente ya no responden a las expectativas teóricas del modelo ideal, es decir, permiten concluir que realmente son muy significativas las disparidades existentes entre los resultados observados y los resultados esperados. Algunas de las más importantes funciones estadísticas empleadas para ese propósito son la prueba Fisher, la prueba T-Student, la prueba Z, el test Wishart, la prueba McNemar, la prueba Q de Cochran, los tests de Bondad de Ajuste, etc.

A continuación tratare sobre la Distribución Chi-Cuadrado de la probabilidad y su relación con el Test Chi-Cuadrado, recalcando su aplicación en los denominados «Contrastes de Significación» que se pueden realizar entre los resultados teóricos esperados y los resultados empíricos observados de un experimento.

COMPRENDIENDO EL MODELO IDEAL DE LA DISTRIBUCIÓN CHI CUADRADO:

La denominada «Distribución Chi Cuadrado» (que usualmente se escribe y se lee como: Ji Cuadrado), es una distribución cuadrática de la probabilidad que utiliza básicamente variables aleatorias continuas. La Distribución Chi Cuadrado de la probabilidad se denota mediante la letra griega minúscula ji elevada al cuadrado (χ2), y consiste en establecer un espacio continuo delimitado por la suma de los cuadrados de n variables aleatorias que son independientes entre sí, espacio dentro del cual la variable X puede asumir cualquiera de los infinitos valores que lo conforman, y por tanto para establecer el valor aproximado de una variable X dentro de ese espacio se procede a incluir una estimación de sus posibles límites que están dados por los distintos «Grados de Libertad» que pueden existir entre las variables aleatorias analizadas que dan origen al referido espacio. En otras palabras, la Distribución Chi Cuadrado en un delimitado espacio conjuga un determinado número de variables aleatorias independientes entre sí, con unos valores de probabilidad ubicados entre 1 y 0 que son atribuibles a esas variables, y con unos límites de la probabilidad para el verdadero valor de X delimitados por los Grados de Libertad atribuibles a las variables aleatorias analizadas.

La Distribución Chi Cuadrado permite calcular la probabilidad existente para que una variable X, que tiene un determinado Grado de Libertad frente a otras variables del mismo conjunto, permanezca dentro de unos «límites ideales» previstos para X cuando tiene ese específico Grado de Libertad o independencia. En otras palabras, la Distribución Chi Cuadrado suministra un modelo ideal sobre los límites probables que deberían regir las fluctuaciones en la aparición de un determinado valor aleatorio X dependiendo del Grado de Libertad que tiene ese valor frente a otras variables similares dentro de un conjunto de datos analizados. La fórmula matemática para calcular la probabilidad de que una variable X permanezca dentro del límite ideal correspondiente al respectivo Grado de Libertad es la siguiente:

χ2k (X) = Xk / 2 – 1 e –X / 2

2k /2 Γ(k / 2)

En esta ecuación la letra k que aparece como un subíndice de la expresión χ2 indica el Grado de Libertad que se toma como límite para calcular la probabilidad de la variable aleatoria X. Esta ecuación para ser despejada requiere el uso de la compleja Función Gamma (representada por la letra griega mayúscula gamma: Γ), y por tanto generalmente para solucionar esta ecuación se emplean métodos basados en la consulta de tablas o en el uso de algoritmos para ordenador que permiten obtener los valores de probabilidad respectivos.

EXPLICACIÓN DE LOS GRADOS DE LIBERTAD USADOS EN LA DISTRIBUCIÓN CHI CUADRADO:

Dentro de la Distribución Ji Cuadrado los denominados «Grados de Libertad» atribuibles a un conjunto de variables equivalen al número de datos independientes entre sí existentes dentro de ese conjunto que es necesario conocer previamente para poder estimar el valor de cualquier otro dato independiente del mismo grupo. Por ejemplo, si se afirma que en un cesto hay un conjunto de 10 manzanas, conformado por 2 clases independientes de manzanas, pues algunas de esas 10 manzanas son de color rojo y otras son de color verde, entonces en tal caso basta con saber que en el cesto hay 4 manzanas rojas para poder calcular inmediatamente que las restantes son 6 manzanas de color verde, es decir, en este caso hay 2 clases de datos independientes entre sí (rojas y verdes), pero para poder conocer el valor de una clase de esos dos datos es siempre necesario conocer previamente el valor de la otra clase de datos, motivo por el cual se concluye que el Grado de Libertad o el grado de independencia existente entre las dos clases de datos tiene un valor de uno (1).

En otro ejemplo, si se afirma que en una sala hay un conjunto de 30 personas, conformado por 3 clases de razas independientes entre sí, pues algunas de esas personas son caucásicas, otras son negras y otras son asiáticas, entonces basta con saber que en la sala hay 12 personas caucásicas y 9 negras para poder calcular exactamente que las restantes 9 personas son asiáticas, es decir, en este caso hay 3 clases de datos independientes entre sí, pero para poder conocer cuál es el valor de una clase particular de esos datos es siempre necesario conocer previamente el valor de las otras 2 clases de datos; en otras palabras, si sólo se sabe que en la sala hay 12 personas caucásicas, ese dato resulta insuficiente para poder saber con exactitud cuántas son negras y cuántas son asiáticas dentro de las restantes 18 personas de la sala, y si sólo se sabe que en la sala 9 personas son asiáticas, ese dato por sí sólo también resulta insuficiente para poder saber cuántas son negras y cuántas son caucásicas dentro de las restantes 21 personas de la sala, motivo por el cual se concluye que el Grado de Libertad o grado de independencia existente entre las tres clases de datos tiene un valor de 2, pues únicamente conociendo el valor de 2 clases de datos se puede saber con exactitud cómo están distribuidas las tres clases de razas dentro de la población total del conjunto analizado.

En otro ejemplo, si se afirma que existe un conjunto formado por 5 números diferentes que al ser sumados dan como resultado 24, en tal caso no es indispensable conocer previamente todos los cinco números que conforman el conjunto, pero para poder calcular el valor exacto de cualquiera de los 5 números que conforman ese conjunto sí es necesario conocer al menos 4 de esos 5 números, como podría ocurrir con la combinación conformada por los siguientes cinco números: 4+3+10+2+X = 24, combinación en la cual necesariamente se requiere conocer al menos 4 números para poder calcular directamente que el quinto número desconocido (representado por la X) es un 5, es decir, el Grado de Libertad existente entre los cinco datos diferentes tiene un valor de 4.

En síntesis, el Grado de Libertad, que usualmente se representa por las letras G.L., equivale a restarle 1 a un conjunto conformado por k variables consideradas independientes entre sí, lo cual se resume en la fórmula: G.L. =k − 1. Así, si el conjunto contiene 5 variables consideradas independientes entre sí, entonces el Grado de Libertad que le corresponde a cualquier variable de ese conjunto es de: G.L. = 5−1 = 4, lo que equivale a que en ese conjunto sólo 4 variables una vez conocidas pueden operar de manera independiente sin necesidad de que deba ser conocido el valor exacto de la quinta variable del conjunto. Y si el conjunto contiene 2 variables independientes, como en el ejemplo de las manzanas verdes y las manzanas rojas, entonces el Grado de Libertad es 1, ya que: G.L. = 2−1 = 1, lo que equivale a que en ese conjunto sólo una variable ya conocida puede operar de manera independiente sin necesidad de que deba ser conocido el valor exacto de la otra.

REPRESENTACIÓN GRÁFICA DEL MODELO IDEAL DE LA DISTRIBUCIÓN CHI CUADRADO:

Un concepto matemático es mucho más fácil de comprender si se puede visualizar la forma que generalmente asume en el abstracto mundo de los números.

La anterior gráfica muestra los valores de la probabilidad de ocurrencia de X dentro de una Distribución Chi Cuadrado. En el eje horizontal de las coordenadas se observa que de derecha a izquierda se incluyen todos los valores posibles que puede asumir la variable aleatoria X. Estos valores siempre corresponden a números positivos (no admite números negativos o menores a cero), y tales valores pueden ir desde cero (0) hasta el infinito (∞), aunque en esta gráfica para efectos ilustrativos sólo se han incluido algunos valores relevantes ubicados entre 0 y 50. En el eje vertical se han incluido algunos valores representativos de la probabilidad, y por eso ese eje sólo admite valores ubicados entre cero (que equivale a Muy Improbable) y 1 (que equivale a Muy Probable). Las líneas curvas numeradas de color verde, que desde la parte superior derecha hasta la parte inferior izquierda surcan toda la gráfica, representan algunos Grados de Libertad aplicables a todos los valores que puede asumir X dentro de este espacio perfectamente delimitado.

Para calcular la probabilidad que tiene la variable X de aparecer dentro de un determinado intervalo delimitado por cierto Grado de Libertad, es necesario obtener el punto de la respectiva línea roja (Grado de Libertad) en que se produce la intersección con la línea recta prolongada desde el valor X ubicado en el eje horizontal, y a continuación desde ese punto de intersección es necesario prolongar una línea recta hasta el eje vertical que nos da el valor de la respectiva probabilidad de ocurrencia para la variable X.

Por ejemplo, si sobre el eje horizontal se quiere calcular la probabilidad que le corresponde a la variable X cuando asume el valor 1 dentro de un Grado de Libertad, es decir, se quiere calcular χ21(1), entonces en el eje horizontal vemos que sobre el número 1 se extiende una línea recta de color verde que en determinado punto intercepta con la línea roja No.1 que representa un solo Grado de Libertad, y luego a partir de ese punto de intersección se puede extender la línea recta de color verde hasta el eje vertical, donde termina conectando sobre el valor 0,3173108 de probabilidad, es decir, dentro de una Distribución Ji Cuadrado es realmente muy baja la probabilidad de ocurrencia del valor 1 cuando tiene un solo Grado de Libertad respecto de otra variable. Y si ahora se calcula la probabilidad de X cuando asume el valor 1 dentro de 2 Grados de Libertad, es decir, cuando se calcula χ22(1), entonces vemos que sobre el número 1 la línea recta de color verde intercepta en un determinado punto con la línea roja No. 2 que representa 2 Grados de Libertad, y a partir de ese punto de intersección se puede extender una línea recta hasta el eje vertical, donde termina conectando sobre el valor 0,6065306 de probabilidad, es decir, ahora aumentó la probabilidad de ocurrencia del valor 1 cuando éste tiene 2 Grados de Libertad respecto de otras variables.

Y si se desea calcular la probabilidad que le corresponde a la variable X cuando asume el valor 2 dentro de un Grado de Libertad, es decir, se quiere calcular χ21(2), entonces en el eje horizontal vemos que sobre el número 2 se extiende una línea recta de color lila que en determinado punto intercepta con la línea roja No.1 que representa un solo Grado de Libertad, y luego a partir de ese punto de intersección se puede extender la línea recta de color lila hasta el eje vertical, donde termina conectando sobre el valor 0,1572992 de probabilidad, es decir, dentro de una Distribución Chi Cuadrado es muy baja la probabilidad de ocurrencia del valor 2 cuando tiene un solo Grado de Libertad respecto de otra variable. Pero si ahora se calcula la probabilidad de X cuando asume el valor 2 dentro de 6 Grados de Libertad, es decir, se calcula χ26(2), entonces vemos que sobre el número 2 la línea recta de color lila intercepta en un determinado punto con la línea roja No. 6 que representa 6 Grados de Libertad, y a partir de ese punto de intersección se puede extender una línea recta hasta el eje vertical, donde termina conectando sobre el valor 0,9196986 de probabilidad, es decir, ahora aumentó mucho más la probabilidad de ocurrencia del valor 2 cuando éste tiene 6 Grados de Libertad respecto de otras variables de un mismo conjunto.

USO DE EXCEL PARA CALCULAR LA PROBABILIDAD DENTRO DE LA DISTRIBUCIÓN CHI CUADRADO:

Actualmente para obtener el valor de la probabilidad que le corresponde a una variable X dentro de una Distribución Chi Cuadrado el lector puede utilizar ciertas tablas que fácilmente se consiguen en la Web y que contienen esos valores de probabilidad, o puede utilizar la útil función «DISTR.CHI» de la hoja de cálculo Excel de Microsoft que facilita enormemente esa labor como se señala a continuación:

En primer lugar, como se observa en la anterior imagen, basta abrir un libro en blanco y situar el curso en cualquier celda vacía. A continuación se activa la pestaña «Insertar» de la barra de herramientas y se selecciona insertar «Función». En el cuadro de diálogo que se abre se escoge la categoría de las funciones «Estadísticas», y dentro de esta categoría luego se selecciona la función «DISTR.CHI» y se oprime Aceptar.

En el nuevo cuadro de diálogo que automáticamente se abre para incluir los argumentos de la función aparecen dos casillas vacías. La primera casilla es para incluir cualquier posible valor ubicado entre cero y el infinito que pueda asumir la variable X, y la segunda casilla es para incluir los Grados de Libertad que le corresponden a ese valor dentro de un conjunto de variables similares. Por ejemplo, podemos asumir que X tiene un valor de 2 y que tiene un (1) solo Grado de Libertad frente a otra variable similar, y al introducir estos datos en las casillas respectivas se observa que la hoja de cálculo inmediatamente arroja el valor de probabilidad equivalente a 0,157299265.

VARIACIÓN DE LA PROBABILIDAD EN LA DISTRIBUCIÓN CHI CUADRADO SEGÚN LOS GRADOS DE LIBERTAD:

Las siguientes gráficas, basadas en el uso de la hoja de cálculo Excel, muestran que cuando X tiene un valor de 2, su probabilidad de ocurrencia según una Distribución Chi−Cuadrado se incrementa bastante a medida que aumentan los Grados de Libertad que son atribuibles a ese valor respecto de otras variables similares de un mismo conjunto:

Estas gráficas muestran que con 2 Grados de Libertad la probabilidad de ocurrencia del valor 2 asignado a X es tan sólo de 0,367879. Con 3 Grados de Libertad la probabilidad de ocurrencia del valor 2 se incrementa hasta 0,572406. Con 20 Grados de Libertad la probabilidad de ocurrencia del valor 2 asignado a X se incrementa enormemente hasta 0,999999, lo que indica que su ocurrencia se vuelve altamente probablemente. Y finalmente, con 25 Grados de Libertad la probabilidad de ocurrencia del valor 2 es prácticamente segura, porque adquiere un valor de probabilidad equivalente a 1.

Lo anterior es algo que no sólo le ocurre al valor 2 asignado a X, sino que también le ocurre a cualquier otro valor entre 0 y el infinito (∞) ubicado sobre el eje horizontal que pueda ser asumido por la variable aleatoria X. Es decir, en una Distribución Chi Cuadrado todo valor que pueda asumir la variable X con un solo Grado de Libertad tiene un determinado valor de probabilidad dentro de la escala que va de 0 (Improbable) hasta 1 (Muy Probable), pero a partir de ese valor de probabilidad se observa que entre más se incrementen los respectivos Grados de Libertad, entonces el valor de la probabilidad tiende a aumentar paulatinamente hasta llegar a 1 (Muy Probable).

La siguiente tabla, acompañada por el gráfico que representa del valor de la probabilidad, incluye algunos valores del eje horizontal que pueden ser asumidos por la variable X, y se muestra que dentro de la Distribución Chi Cuadrado todos esos valores tienen una probabilidad de ocurrencia muy baja cuando sólo les corresponde un Grado de Libertad, pero entre más se incrementan los Grados de Libertad aplicables al valor de X, entonces se observa que aumenta considerablemente el valor de su probabilidad hasta que en cierto punto llega hasta 1:

Algunos

valores de X Probabilidad de ocurrencia de X según los Grados de Libertad aplicados:

1 1 grado = 0,31731081 2 grados = 0,60653066 3 grados = 0,80125196 20 grados = 1

2 1 grado = 0,15729926 2 grados = 0,36787944 4 grados = 0,73575888 25 grados = 1

5 1 grado = 0,02534732 5 grados = 0,41588023 8 grados = 0,75757614 36 grados = 1

10 1 grado = 0,0015654 10 grados = 0,44049329 13 grados = 0,69393438 49 grados = 1

20 1 grado = 0,0000077442 20 grados = 0,45792971 25 grados = 0,74682532 71 grados = 1

50 1 grado = 0,000000000001 50 grados = 0,47339846 57 grados = 0,73283137 124 grados = 1

Claramente se observa que hay cierto punto en el que los Grados de Libertad asignados a un valor X permiten que su probabilidad de ocurrencia sea de 1. S

...

Descargar como  txt (18.7 Kb)  
Leer 12 páginas más »
txt