ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Distribuciones De Probabilidades Y Muestrales


Enviado por   •  7 de Junio de 2014  •  3.092 Palabras (13 Páginas)  •  1.972 Visitas

Página 1 de 13

Distribuciones de Probabilidad y Muéstrales

6.2-Distribución binomial (n,p)

La distribución binomial es una distribución discreta muy importante que surge en muchas aplicaciones bioestadísticas. Fue obtenida por Jakob Bernoulli (1654-1705) y publicada en su obra póstuma Ars Conjectandi en 1713. Esta distribución aparece de forma natural al realizar repeticiones independientes de un experimento que tenga respuesta binaria, generalmente clasificada como “éxito” o “fracaso”; este experimento recibe el nombre de experimento de Bernoulli. Ejemplos de respuesta binaria pueden ser el hábito de fumar (sí/no), si un paciente hospitalizado desarrolla o no una infección, o si un artículo de un lote es o no defectuoso. La variable discreta que cuenta el número de éxitos en n pruebas independientes de ese experimento, cada una de ellas con la misma probabilidad de “éxito” igual a p, sigue una distribución binomial de parámetros n y p, que se denota por (Bi(n,p)). Este modelo se aplica a poblaciones finitas de las que se toman elementos al azar con reemplazo, y también a poblaciones conceptualmente infinitas, como por ejemplo las piezas que produce una máquina, siempre que el proceso de producción sea estable (la proporción de piezas defectuosas se mantiene constante a largo plazo) y sin memoria (el resultado de cada pieza no depende de las anteriores). Un ejemplo de variable binomial puede ser el número de pacientes con cáncer de pulmón ingresados en una unidad hospitalaria.

Un caso particular se tiene cuando n=1, que da lugar a la distribución de Bernoulli.

En Epidat 4.0 el número de pruebas de la distribución binomial está limitado a 1.000; para valores superiores no es posible realizar el cálculo. Esta restricción no debe ser considerada un inconveniente dado que, cuando se tiene un número de pruebas “grande”, la distribución binomial se aproxima a una distribución normal de media np y varianza np(1-p).

Valores: k: 0, 1, 2, ..., n

Parámetros:

n: número de pruebas, n ≥ 1 entero

p: probabilidad de éxito, 0 < p < 1

Ejemplo

En un examen formado por 20 preguntas, cada una de las cuales se responde declarando “verdadero” o “falso”, el alumno sabe que, históricamente, en el 75% de los casos la respuesta correcta es “verdadero” y decide responder al examen tirando dos monedas: pone “falso” si ambas monedas muestran una cara y “verdadero” si al menos hay una cruz. Se desea saber cuál es la probabilidad de que tenga más de 14 aciertos. Hay que proporcionarle a Epidat 4.0 los parámetros de la distribución binomial y el punto k a partir del cual se calculará la probabilidad. En este caso n = 20, p = 0,75 y el punto k = 14.

Resultados con Epidat 4.0: 6.3-Distribución hipergeométrica (N,R,n)

La distribución hipergeométrica suele aparecer en procesos muéstrales sin reemplazo, en los que se investiga la presencia o ausencia de cierta característica. Piénsese, por ejemplo, en un procedimiento de control de calidad en una empresa farmacéutica, durante el cual se extraen muestras de las cápsulas fabricadas y se someten a análisis para determinar su composición.

Durante las pruebas, las cápsulas son destruidas y no pueden ser devueltas al lote del que provienen. En esta situación, la variable que cuenta el número de cápsulas que no cumplen los criterios de calidad establecidos sigue una distribución hipergeométrica. Por tanto, esta distribución es la equivalente a la binomial, pero cuando el muestreo se hace sin reemplazo, de forma que la probabilidad de éxito no permanece constante a lo largo de la n pruebas, a diferencia de la distribución binomial.

Esta distribución se puede ilustrar del modo siguiente: se tiene una población finita con N elementos, de los cuales R tienen una determinada característica que se llama “éxito” (diabetes, obesidad, hábito de fumar, etc.). El número de “éxitos” en una muestra aleatoria de tamaño n, extraída sin reemplazo de la población, es una variable aleatoria con distribución hipergeométrica de parámetros N, R y n.

Cuando el tamaño de la población es grande, los muestreos con y sin reemplazo son equivalentes, por lo que la distribución hipergeométrica se aproxima en tal caso a la binomial.

En el caso de esta distribución, Epidat 4.0 limita el cálculo a valores del tamaño de población (N) menores o iguales que 1.000.

Valores:

k: Max{0,n-(N-R)}, ..., min{R,n}, donde max{0,n-(N-R)} indica el valor máximo entre 0 y n-

(N-R) y min{R,n} indica el valor mínimo entre R y n.

Parámetros:

N: tamaño de la población, N ≥ 1 entero

R: número de éxitos en la población; 1 ≤ R ≤ N, N entero

n: número de pruebas; 1 ≤ n ≤ N, n entero Ejemplo

Se sabe que el 7% de los útiles quirúrgicos en un lote de 100 no cumplen ciertas especificaciones de calidad. Tomada una muestra al azar de 10 unidades sin reemplazo, interesa conocer la probabilidad de que no más de dos sean defectuosas.

El número de útiles defectuosos en el lote es R = 0,07100 = 7. Para un tamaño muestral de

n= 10, la probabilidad buscada es P{número de defectuosos  2}.

La probabilidad de que, a lo sumo, haya dos útiles defectuosos en el lote es aproximadamente 0,98. Además, puede decirse que la media y la varianza de la distribución hipergeométrica (100, 7, 10) son 0,7 y 0,59, respectivamente; en este caso, la media de útiles quirúrgicos defectuosos en 10 pruebas es de 0,7 y la varianza de 0,59. 6.4-Distribución Poisson ()

La distribución de Poisson debe su nombre al matemático francés Simeón Denis Poisson (1781-1840), aunque ya había sido introducida en 1718 por Abraham De Moivre (1667-1754) como una forma límite de la distribución binomial que surge cuando se observa un evento raro después de un número grande de repeticiones [12]. En general, la distribución de Poisson de parámetro  se puede utilizar como una aproximación de la binomial, Bin(n, p), si el número de pruebas n es grande, pero la probabilidad de éxito p es pequeña, siendo  = np; podemos considerar que la aproximación Poisson-binomial es “buena” si n  20 y p  0,05 y “muy buena” si n  100 y p  0,01.

La distribución de Poisson también surge cuando un evento o suceso “raro” ocurre aleatoriamente en el espacio o el tiempo. La variable asociada es el número de ocurrencias del evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma valores enteros de 0 en adelante (0, 1, 2,...). Así, el número de pacientes que llegan a un consultorio en un lapso dado, el número de llamadas que recibe un servicio de atención a urgencias durante 1 hora, el número de células anormales en una superficie histológica o el número de glóbulos blancos en un milímetro cúbico de sangre son ejemplos de variables que siguen una distribución de Poisson. En general, es una distribución muy utilizada en diversas áreas de la investigación médica y, en particular, en epidemiología.

El concepto de evento “raro” o poco frecuente debe ser entendido en el sentido de que la probabilidad de observar k eventos decrece rápidamente a medida que k aumenta.

Supóngase, por ejemplo, que el número de reacciones adversas tras la administración de un fármaco sigue una distribución de Poisson de media  = 2. Si se administra este fármaco a 1.000 individuos, la probabilidad de que se produzca una reacción adversa (k = 1) es 0,27; los valores de dicha probabilidad para k = 2, 3, 4, 5, 6 reacciones, respectivamente, son: 0,27; 0,18; 0,09; 0,03 y 0,01. Para k = 10 o mayor, la probabilidad es virtualmente 0. El rápido descenso de la probabilidad de que se produzcan k reacciones adversas a medida que k aumenta puede observarse claramente en el gráfico de la función de masa de probabilidad obtenido con Epidat 4.0:

Para que una variable recuento siga una distribución de Poisson deben cumplirse varias condiciones:

1. En un intervalo muy pequeño (p. e. de un milisegundo) la probabilidad de que ocurra un evento es proporcional al tamaño del intervalo.

2. La probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida que, a efectos prácticos, se puede considerar nula.

3. El número de ocurrencias en un intervalo pequeño no depende de lo que ocurra en cualquier otro intervalo pequeño que no se solape con aquél.

Estas propiedades pueden resumirse en que el proceso que genera una distribución de Poisson es estable (produce, a largo plazo, un número medio de sucesos constante por unidad de observación) y no tiene memoria (conocer el número de sucesos en un intervalo no ayuda a predecir el número de sucesos en el siguiente).

El parámetro de la distribución, , representa el número promedio de eventos esperados por unidad de tiempo o de espacio, por lo que también se suele hablar de  como “la tasa de ocurrencia” del fenómeno que se observa. La distribución de Poisson tiene iguales la media y la varianza. Si la variación de los casos observados en una población excede a la variación esperada por la Poisson, se está ante la presencia de un problema conocido como sobredispersión y, en tal caso, la distribución binomial negativa es más adecuada.

Para valores de  mayores de 20 la distribución de Poisson se aproxima a una distribución normal de media y varianza iguales a . Por este motivo no se debe considerar una limitación la restricción que tiene Epidat 4.0 de no realizar el cálculo para valores de  superiores a 50.

Valores:

k: 0, 1, 2, ...

Parámetros:

: tasa de ocurrencia,  > 0

Ejemplo

El número de enfermos que solicitan atención de urgencia en un hospital durante un periodo de 24 horas tiene una media de 43,2 pacientes. Se sabe que el servicio se colapsará si el número de enfermos excede de 50. ¿Cuál es la probabilidad de que se colapse el servicio de urgencias del hospital? Representar la función de masa de probabilidad.

Para calcular la probabilidad pedida y, además, representar la función de masa de probabilidad hay que marcar el cuadro situado en la parte inferior derecha de la pantalla:

Obtener las funciones de distribución y densidad.

Resultados con Epidat 4.0: 6.5-Distribución normal (, )

La distribución normal es, sin duda, la distribución de probabilidad más importante del Cálculo de probabilidades y de la Estadística. Fue descubierta, como aproximación de la distribución binomial, por Abraham De Moivre (1667-1754) y publicada en 1733 en su libro The Doctrine of Chances; estos resultados fueron ampliados por Pierre-Simon Laplace (1749-1827), quién también realizó aportaciones importantes. En 1809, Carl Friedrich Gauss (1777-1855) publicó un libro sobre el movimiento de los cuerpos celestes donde asumía errores normales, por este motivo esta distribución también es conocida como distribución

Gaussiana. La importancia de la distribución normal queda totalmente consolidada por ser la distribución límite de numerosas variables aleatorias, discretas y continuas, como se demuestra a través de los teoremas centrales del límite. Las consecuencias de estos teoremas implican la casi universal presencia de la distribución normal en todos los campos de las ciencias empíricas: biología, medicina, psicología, física, economía, etc. En particular, muchas medidas de datos continuos en medicina y en biología (talla, presión arterial, etc.) se aproximan a la distribución normal.

Junto a lo anterior, no es menos importante el interés que supone la simplicidad de sus características y de que de ella derivan, entre otras, tres distribuciones (ji-cuadrado, t de Student y F de Snedecor) que se mencionarán más adelante, de importancia clave en el campo de la contrastación de hipótesis estadísticas.

La distribución normal queda totalmente definida mediante dos parámetros: la media () y la desviación estándar o desviación típica (). Su función de densidad es simétrica respecto a la media y la desviación estándar nos indica el mayor o menor grado de apertura de la curva que, por su aspecto, se suele llamar campana de Gauss. Esta distribución se denota por N(,).

Cuando la distribución normal tiene como parámetros  = 0 y  = 1 recibe el nombre de distribución normal estándar. Cualquier variable X que siga una distribución normal de parámetros  y  se puede transformar en otra variable Y= (X-)/ que sigue una distribución normal estándar; este proceso se denomina estandarización, tipificación o normalización.

Campo de variación:

- < x < 

Parámetros:

: media, - <  < 

: desviación estándar,  > 0

Ejemplo

Se supone que el nivel de colesterol de los enfermos de un hospital sigue una distribución normal con una media de 179,1 mg/dL y una desviación estándar de 28,2 mg/dL.

1. ¿Cuál es el porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL?

2. ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra el 10% de los enfermos del hospital con los niveles más altos?

3. Representar la función de densidad.

Para responder a estas preguntas habrá que ejecutar Epidat 4.0 dos veces: en el primer caso para calcular una probabilidad, en el segundo caso el dato de entrada es una probabilidad, concretamente la cola de la derecha, lo que permitirá obtener el punto. En ambas ejecuciones se ofrece, de manera opcional, la función de densidad del nivel de colesterol. 1. Resultados con Epidat 4.0:

El porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL es 36%.

2. Resultados con Epidat 4.0:

A partir de 215,24 mg/dL se encuentran los valores de colesterol del 10% de los enfermos que tienen los valores más altos.

6.6-Distribución ji-cuadrado (n)

Un caso especial y muy importante de la distribución gamma se obtiene cuando a = 1/2 y p=n/2, y es conocida por el nombre de distribución ji-cuadrado de Pearson con n grados de libertad. Es la distribución que sigue la suma de los cuadrados de n variables independientes e idénticamente distribuidas según una distribución normal estándar, N(0,1).

Esta distribución, que debe su nombre al matemático inglés Karl Pearson (1857-1936), es fundamental en inferencia estadística y en los tests estadísticos de bondad de ajuste. Se emplea, entre otras muchas aplicaciones, para realizar la prueba de hipótesis de homogeneidad, de independencia o la prueba de bondad de ajuste (todas ellas denominadas pruebas ji-cuadrado) y para determinar los límites de confianza de la varianza muestral de una población normal.

Si X sigue una distribución ji-cuadrado con n grados de libertad, para valores de n grandes (n > 100), entonces la variable Y  2X sigue aproximadamente una distribución normal de media 2n 1 y desviación estándar 1.

Epidat 4.0 realiza los cálculos de esta distribución para valores de n menores o iguales que 150.

Campo de variación:

0 < x < 

Parámetros:

n: grados de libertad, n ≥ 1 entero

Ejemplo

Para estudiar la relación entre la edad de las mujeres y su aceptación de una ley sobre interrupción del embarazo se ha llevado a cabo una encuesta sobre 400 mujeres cuyos resultados se recogen en la siguiente tabla: Como resultado de aplicar la prueba ji-cuadrado de Pearson se obtuvo como valor del estadístico 2=19,2828. Este valor por si solo no permite extraer ninguna conclusión; debe compararse con el valor de la distribución ji-cuadrado de (5-1)*(3-1)=8 grados de libertad que deja un 5% de probabilidad a su derecha, fijado un nivel de significación del 5% o, equivalentemente, un nivel de confianza del 95%. Este valor, llamado punto crítico, delimita la zona de rechazo de la hipótesis nula de no asociación entre las variables.

1. Calcular el valor de la ji-cuadrado con 8 grados de libertad que deja a su derecha un área bajo la curva igual a 0,05.

2. Representar la función de densidad y marcar en ella el valor del estadístico y el punto crítico, ¿qué puede concluirse acerca de la relación entre las dos variables?

3. Calcular el valor p del estadístico, es decir, la probabilidad a la derecha del valor del estadístico 2=19,2828.

6.7-Distribución t de Student (n)

Esta distribución fue propuesta y tabulada por William Sealy Gosset (1876-1937), más conocido por el seudónimo de Student, como resultado de un estudio sobre la estimación de la media cuando el tamaño de muestra es pequeño, estos resultados fueron publicados en 1908 en el artículo The Probable Error of a Mean [13]. La distribución t de Student queda completamente definida por medio de sus grados de libertad, n, y se denota por tn. Surge cuando se plantea estudiar el cociente entre una variable aleatoria con distribución normal estándar y la raíz cuadrada del cociente entre una variable aleatoria con distribución ji-cuadrado y sus grados de libertad (n), siendo las dos variables independientes. Esta distribución desempeña un papel muy importante en la inferencia estadística asociada a la teoría de muestras pequeñas y es usada habitualmente en el contraste de hipótesis para la media de una población o para comparar medias de dos poblaciones.

En cuanto a la forma que presenta su función de densidad cabe destacar las similitudes que mantiene con la función de densidad de la distribución normal estándar: forma acampanada, simétrica y centrada en el origen; la única diferencia existente entre ambas distribuciones es que la función de densidad de la t de Student presenta unas colas más pesadas (mayor dispersión) que la normal.

Cabe destacar que el programa sólo permite realizar el cálculo para una distribución t de Student con 150 grados de libertad o menos. Esto no supone una limitación ya que, a medida que aumentan los grados de libertad, esta distribución se va aproximando a la normal estándar, de forma que a partir de ese valor de n pueden considerarse prácticamenteidénticas.

La distribución t de Student con 1 grado de libertad coincide con la distribución de Cauchy Estándar

6.8-Distribución F de Snedecor (n,m)

Otra de las distribuciones importantes asociadas a la normal es la que se define como el cociente de dos variables aleatorias independientes con distribución ji-cuadrado divididas entre sus respectivos grados de libertad, n y m; la variable aleatoria resultante sigue una distribución F de Snedecor de parámetros n y m (denotada por Fn,m). Hay muchas aplicaciones de la F en estadística y, en particular, tiene un papel importante en las técnicas del análisis de la varianza (ANOVA) y del diseño de experimentos. Debe su nombre al matemático y estadístico americano George Waddel Snedecor (1881-1974).

Al igual que en la distribución ji-cuadrado y t de Student, el programa limita los grados de libertad, tanto del numerador como del denominador, no pudiendo exceder el valor 150 para poder realizar los cálculos.

Campo de variación:

0 < x < 

Parámetros:

n: grados de libertad del numerador, n ≥ 1 entero

m: grados de libertad del denominador, m ≥ 1 entero

...

Descargar como  txt (18.9 Kb)  
Leer 12 páginas más »
txt