ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Algebra de Eventos


Enviado por   •  2 de Noviembre de 2014  •  Tutoriales  •  12.876 Palabras (52 Páginas)  •  364 Visitas

Página 1 de 52

Algebra de Eventos (Teoría de Conjuntos)

Espacio Muestral (S): Es el conjunto de todos los resultados posibles de un experimento dado. Generalmente se denota con la letra S. Por ejemplo, los resultados posibles del experimento de arrojar un dado son 1, 2, 3, 4, 5 y 6.

Muestra: Es un resultado particular, o sea, un elemento del Espacio Muestral (S). Por ejemplo, arrojar un dado y obtener 4.

Evento o Suceso: Un evento A es un conjunto de resultados, o sea, un subconjunto de Espacio Muestral (S). Por ejemplo, un evento puede ser arrojar dos veces un dado obteniéndose por ejemplo un 4 y un 3.

Algebra de Eventos

Evento complementario:

En un espacio muestral (S) donde hay un evento A, habrá un conjunto de puntos que no pertenecen a A, este es el evento complementario, se denota como Ac .

Se define como: Ac = 1 - A (Ac contrario al evento A)

Gráficamente se representa así:

Unión o Suma Lógica:

La unión de los conjuntos A y B es el conjunto formado por todos los puntos que están en A, en B y en ambos. Se denota como: A U B.

Se define como: A U B = A + B

Gráficamente se representa así:

Intersección:

La intersección de los eventos A y B es el conjunto formado por todos los puntos que pertenecen a A y a B simultáneamente.

Se denota como: A ∩ B.

Se define como: A ∩ B = A . B

Gráficamente se representa así:

Inclusión:

Cuando todos los elementos de un conjunto B están contenidos en un conjunto A, la ocurrencia de B implica la ocurrencia de A. Esto se conoce como Inclusión y se denota como: B Ì A

El conjunto que se escribe a la izquierda del signo Ì se dice que "está incluido (o contenido) en" el conjunto que se escribe a su derecha.

Gráficamente se representa así:

Igualdad:

Cuando todos los elementos de un conjunto B están contenidos en un conjunto A y todos los elementos del conjunto A están contenidos en B, entonces la ocurrencia de B implica la ocurrencia de A (B Ì A ) y viceversa (A Ì B ) .

Esto se conoce como Igualdad y se denota como: A = B.

Gráficamente se dificultad la representación, porque los eventos se superponen.

Evento Nuevo:

El evento (C) que no tiene descripciones en el espacio muestral (S) y por lo tanto no puede ocurrir es el conjunto Nuevo, que también se le llama Nulo o Vacío. El mismo se denota como Ø, también se puede representar como { }.

Ø = Conjunto Nulo o vacío

Gráficamente se podría representar así:

Eventos Mutuamente Excluyentes o Disjuntos:

En un espacio muestral (S) donde hay un evento A y un evento B que no pueden suceder simultáneamente, o sea que no tienen puntos en común. Se le denominan eventos mutuamente excluyentes o disjuntos. Se denota como A Ç B = Ø

Se define como: A Ç B = A . B = Ø

Gráficamente se representa así:

Fenómenos Aleatorios

Fenómeno empírico caracterizado por la propiedad de que su observación, bajo un conjunto de condiciones dadas no siempre conduce al mismo resultado, sino que pueden ocurrir diferentes resultados.

Es imposible predecir con certeza absoluta el resultado del mismo antes de realizarlo bajo un conjunto de condiciones dadas (el resultado depende del azar), sin embargo puede lograrse una estimación con un grado de confiabilidad

Ejemplos de Fenómenos Aleatorios

1. Estatura adulta del hijo de una pareja.

Aunque tengamos toda la información antropométrica, de salud y socio-económica de ambos miembros de la pareja, resulta imposible conocer con exactitud cual será la talla final de un hijo.

2. Niveles de lípidos en el suero de un sujeto sano del sexo masculino.

No hay ningún mecanismo o procedimiento que nos permita conocer esas cifras, como no sea la extracción de una muestra de sangre y la valoración directa del nivel de dichas sustancias en el suero obtenido.

Ni todos los hijos (de igual sexo) de una pareja tienen la misma talla, ni todos los hombres sanos tienen lipidogramas iguales. Estas diferencias son el producto de factores que no podemos controlar o que no conocemos que influyen sobre esas características (talla adulta y nivel de lípidos), y que los resultados sean diferentes a pesar de realizar las observaciones en igualdad de condiciones.

Variable Aleatoria

Una variable es aleatoria si toma diferentes valores como resultado de un experimento o fenómeno aleatorio. Puede ser discreta o continua. Si puede tomar sólo un número limitado de valores, entonces es una variable aleatoria discreta, por ejemplo, el sexo de un recién nacido. En el otro extremo, si puede tomar cualquier valor dentro de un intervalo dado, entonces se trata de una variable aleatoria continua, por ejemplo, la talla, y en general variables que expresan tiempo, medidas de longitud, peso, etc

Se puede pensar en una variable aleatoria como un valor o una magnitud que cambia de una presentación a otra, sin seguir una secuencia predecible. Los valores de una variable aleatoria son los valores numéricos correspondientes a cada posible resultado de un experimento aleatorio.

Fenómenos Determinísticos

Los fenómenos determinísticos son aquellos que ocurren inevitablemente cuando están presentes un conjunto de condiciones. No ocurren cuando están presentes determinadas condiciones.

Ejemplos:

• Ebullición del agua ocurre a más de 100 0C

• Congelación del agua ocurre 0 0C

Para los fenómenos determinísticos es posible encontrar leyes que expliquen la aparición de los resultados dado un conjunto de condiciones iniciales a la realización del experimento.

El espacio recorrido es producto de la velocidad por el tiempo, e = v • t.

Fenómeno Aleatorio

Fenómeno Aleatorio: Fenómeno empírico caracterizado por la propiedad de que su observación, bajo un conjunto de condiciones dadas no siempre conduce al mismos resultado, (no existe regularidad determinística), sino que pueden ocurrir diferentes resultados, de manera tal que existe Regularidad Estadística.

Regularidad Estadística: La estabilización para un número grande de pruebas del por ciento de ocurrencia de cada uno de los resultados del experimento.

Para realizar el estudio de un fenómeno aleatorio, es necesario realizar un experimento; del cual obtendremos diferentes resultados. Cada uno de estos resultados se denomina Punto Muestral.

Espacio Muestral: De un fenómeno aleatorio es el conjunto de todos los puntos muestrales del experimento. Es decir todos los resultados posibles de un fenómeno aleatorio.

Espacio muestral = S

Fenómeno Aleatorio = FA

Ejemplos:

• Lanzamiento de una moneda

– Resultados: Cara o Cruz S = 2

• Lanzamiento de un dado

– Resultados: 6 caras S = 6

• Seis bolas: 4 rojas (R) y 2 blancas (B)

– Según el color S = {R, B} o sea S = 2

– Según el número S = {1, 2, 3, 4, 5, 6} o sea S = 6

Estos son S finitos, también los hay infinitos. Un ejemplo:

– Los números reales.

Eventos o Sucesos: Es una colección de puntos muestrales del espacio muestral, o sea un conjunto de descripciones del experimento.

Por ejemplo:

Lanzamiento de 3 monedas, los resultados serían en la combinación de caras y cruces.

S1= XXX S5= OXX

S2= XXO S6= OXO

S3= XOX S7= OOX

S4= XOO S8= OOO

Como vemos hay 8 puntos muestrales y varios eventos.

Observemos algunos ejemplos de eventos:

• Evento A: Que la primera tirada sea cruz

A = {S1, S2, S3, S4}

• Evento B: Que al menos 2 de las 3 tiradas sean cruces:

B = {S1, S2, S3, S5}

Regularidad Estadística

Un ejemplo de experimento aleatorio puede ser el lanzamiento de una moneda. Si disponemos de una moneda (sin ningún tipo de sesgo, bien balanceada) tenemos un espacio muestral definido por dos resultados posibles: Cara o Cruz. El espacio muestral (S) matemáticamente se denota así S = {“Cara”(C), “Cruz”(+)}. Si lanzamos la moneda n veces y se obtienen nc caras, la frecuencia relativa (f) del suceso C es: fc = nc / n. (Número de ocurrencia del suceso (número de caras) entre el número total de pruebas realizadas (lanzamientos))

Regularidad Estadística

Si esta experiencia la realizan varias personas, las frecuencias relativas obtenidas no coinciden, pero oscilan alrededor de un número fijo. En el siglo XVIII Buffon repitió el experimento del lanzamiento de una moneda 4.040 veces y obtuvo una frecuencia de sucesos de cara fc = 0,5069. En el siglo XX Pearson realizó el mismo experimento 24.000 veces, obteniendo un frecuencia de fc = 0,5005. Las probabilidades se ajustan a fc = 0,5, el límite cuando se realiza infinitas repeticiones del lanzamiento.

Observamos que si se realiza un gran número de repeticiones, las frecuencias relativas de aparición de los sucesos presentan regularidad estadística (Ley de Regularidad Estadística, ésta es la base empírica de la Teoría de la Probabilidad).

La estabilidad de las frecuencias relativas y el valor alrededor del cual oscilan sólo se pueden determinar experimentalmente, este número puede darse como una medida de la posibilidad de ocurrencia de un suceso, por lo que le llamaremos “probabilidad” de tal suceso. Así que obtenemos como probabilidad de un determinado suceso el número en torno al cual oscila su frecuencia relativa f, es decir, el valor límite de f al repetir un número infinito de veces un experimento. (Ley de Regularidad Estadística).

Probabilidades

La probabilidad es un valor, independiente del observador, que indica aproximadamente con qué frecuencia se producirá el suceso considerado en el transcurso de una larga serie de pruebas.

Probabilidad Clásica o “A Priori”: Si un evento A esta formado por “m“ casos especiales dentro de un grupo de “n” eventos mutuamente excluyentes y con igual probabilidad de ocurrencia o éxito, la probabilidad del evento A es:

P(A)= m

n

Por ejemplo si tenemos un dado simétrico y balanceado (sin sesgo):

• La probabilidad de obtener un 3 es P(A)= 1/6

• La probabilidad de obtener un número par es P(A)= 3/6 = ½

Como se puede apreciar este concepto es muy riguroso, no ocurre con frecuencia en fenómenos biológicos.

Definición frecuencial o estadística de probabilidad:

Frecuencia relativa: Cociente del número de ocurrencias del evento entre el número total de pruebas realizadas. n(A)

N

Estadística de probabilidad:

La probabilidad de un evento A no es más que el valor de su frecuencia relativa, cuando el número de pruebas tiende a infinito (∞)

n(A)

P(A) = Lim ------

n→∞ n

Puede aplicarse donde los resultados no son equiprobables o mutuamente excluyentes por tanto es más general y muy utilizada en la vida práctica.

Tipos de eventos y sus reglas:

A. Evento Complementario

Se considera como el evento que no ocurre o sea un evento opuesto.

El evento complementario de “ser seronegativo” es “no ser seronegativo” o sea “ser seropositivo”.

A partir de la fórmula original

m

P(A) = ----- y

n

7 + 12

P(complemento de seronegativo)= P(seropositivos)= ------------ = 0.38

50

Tipos de eventos y sus reglas:

B. Eventos mutuamente excluyentes y regla de adición:

Son mutuamente excluyentes si la ocurrencia de uno impide la de los demás.

Un paciente con Hepatitis no puede ser seropositivo > 24 meses.

La probabilidad de que ocurran eventos mutuamente excluyentes es la probabilidad de que ocurra uno u otro y se obtiene sumando y se obtiene sumando la probabilidad de los dos eventos lo que se conoce por regla de adición.

Según nuestro ejemplo.

P(seropositivos<24 meses) = 7/50 = 0.14

P(seropositivos>24 meses) = 12/50 = 0.26

La regla de adición sería 0.14 + 0.26 = 0.40

O sea 0.40 es la probabilidad que ocurran estos eventos mutuamente excluyentes.

Clasificación Frecuencial

Definición Si un evento A esta formado por “m“ casos especiales dentro de un grupo de “n” eventos mutuamente excluyentes y con igual probabilidad de ocurrencia o éxito.

La probabilidad de un evento A no es más que el valor de su frecuencia relativa, cuando el número de pruebas tiende a infinito (∞), donde los resultados no son equiprobables o mutuamente excluyentes

Aplicable Es muy rigurosa, no ocurre con frecuencia en fenómenos biológicos.

Más general y muy utilizada en la vida práctica.

Formula m

P(A) = ---

n

n(A)

P(A) = Lim ------

n→∞ n

Como ocurre Se obtiene sin efectuar el experimento

Se obtiene después de haberlo efectuado un gran número de veces

Probabilidad

Algunas características de las probabilidades son:

1. La probabilidad de un suceso es mayor o igual que cero

2. La probabilidad del suceso seguro es uno.

Propiedades deducidas de sus características:

1. La probabilidad del suceso imposible es cero.

2. La probabilidad de un suceso sumada a su contrario (complemento) da uno.

3. La probabilidad de un suceso es un número real, menor o igual que uno.

El concepto de probabilidad clásica se aplica a eventos mutuamente excluyentes y con igual probabilidad de ocurrencia o éxito.

La diferencia entre probabilidad clásica y frecuencial radica en que la primera se obtiene sin efectuar el experimento, y la segunda después de haberlo efectuado un gran número de veces.

Tema 3: Estadística Inferencial

“Modelo teórico de distribución o ley de una variable aleatoria

Modelo teórico de distribución o Ley de una variable aleatoria

Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.

Se utiliza cuando se estudia una variable continua, como la edad o talla de la muestra. En el Histograma siguiente se representa la talla en centímetros (cm) de 100 recién nacidos

En un histograma el área de los rectángulos es proporcional a la frecuencia que ellos representan. Si al construir el histograma (o polígono de frecuencias) usamos las frecuencias relativas tendremos que el área total del histograma (o bajo el polígono de frecuencias), que no es más que la suma de las áreas de los rectángulos, es igual a la unidad.

Propiedades de los Modelos Teóricos de Distribución

1. La probabilidad de que los valores de la variable x estén entre dos puntos de la curva es igual al área bajo la curva entre esos dos puntos:

2. El área bajo la curva es igual a uno.

3. La probabilidad de un punto es nula. Puesto que un valor

específico se representa por un punto en el eje de las abscisas y el área encima de un punto es igual a cero. Por ello al calcular la probabilidad de un intervalo no afectará nada el que éste sea abierto o cerrado por cualquiera de sus extremos, pues estos son puntos y por tanto de probabilidad nula. Así pues: P(a < X < b) =P(a ≤ X ≤ b)

Tema 3: Estadística Inferencial

“Distribución Normal

La distribución más utilizada para modelar experimentos aleatorios es la distribución normal, también conocida como distribución de Gauss o Gaussiana.

La apariencia gráfica de la distribución normal es una curva simétrica, con respecto al valor m (media poblacional), con forma de campana, que se extiende sin límite tanto en la dirección positiva como en la negativa como se muestra en la figura dada a continuación.

Modelo de la distribución normal

Desde el punto de vista estadístico, se tiene que los valores m y s, tienen un significado preciso, µ representa el valor medio teórico, poblacional de la variable x, mientras que el segundo simboliza el valor de la desviación estándar o dispersión poblacional respecto del valor medio m.

Se aclara que si una variable presenta un comportamiento distinto del normal, esto no quiere decir que por ello sea anormal, sino, simplemente, que la ecuación que describe su curva de frecuencias es de otro tipo.

Modelo de la distribución normal

Consideremos tres distribuciones normales con igual desviación estándar poblacional (σ) pero de tal modo que ellas tengan diferentes valores de media poblacional (µ), o sea, µ1 < µ2 < µ3.

Si tenemos iguales dispersiones o desviaciones estándar poblacionales σ, serán iguales los máximos de las campanas y tenemos los valores de µ distintos, las curvas estarán centradas en µ1, µ2 y µ3 respectivamente y estas se encontrarán colocadas sobre el eje que representa a la variable aleatoria en esa forma escalonada.

Consideremos tres distribuciones normales con igual media pero de tal modo que ellas tengan diferentes valores de desviación estándar poblacional (σ), o sea, s1 < s2 < s3.

Como tienen medias poblacionales (µ) iguales, las tres están centradas en el mismo valor. Las dispersiones desiguales implican que las alturas máximas de las curvas que ellas representan, lo sean también, estableciéndose la siguiente relación: a menor valor de σ mayor altura

m es el punto en que el gráfico de f(x) alcanza su valor máximo

s es el valor que altera o cambia el máximo de la curva en forma inversa a su magnitud, manifestándose esto en que la curva gana en altura (se hace más apuntada) o baja de altura (se hace mas achatada), para valores pequeños o grandes de σ respectivamente.

Los valores de μ y σ representan constantes con valores específicos para cada distribución, estos permiten caracterizar o individualizar a la misma, por esta particularidad a dichos valores se les conoce como parámetros de la distribución normal.

El hecho de que, una variable aleatoria x tenga una distribución normal con parámetros m y s, se denotara en la escritura por: X ~ N(m,s), denominándose a la misma como variable aleatoria normal

Importancia de la Distribución Normal

1. En primer lugar empíricamente se ha observado que muchas variables tales como: Peso, talla, presión sanguínea, niveles ricos de ácido úrico, valores de hemoglobina, colesterol, puntajes de exámenes, cociente intelectual, siguen aproximadamente su forma.

2. En segundo lugar en el muestreo aleatorio la distribución de los promedios muestrales de todas las posibles muestra de igual tamaño siguen una curva normal, independientemente de la forma de la población de origen, alrededor de m (siempre y cuando el tamaño de muestra n sea suficientemente grande, n mayor que 30).

3. Por último la mayoría de las distribuciones de probabilidad tanto continuas como discretas convergen a la Distribución Normal; por tal motivo la Curva Normal se puede utilizar como una excelente aproximación para el cálculo ràpido de probabilidades cuando el fenómeno que se estudia sigue una Distribución Hipergeométrica, de Poisson, Binomial, entre otras.

4. Una propiedad muy importante de este modelo y que se dice le caracteriza, es la siguiente:

5. a) Pr (µ –  < X < µ +  ) = 0.6827

6. (La probabilidad de que los valores de esta variable se encuentren en este intervalo es de 0.6827)

7. b) Pr (µ – 2 < X < µ + 2 ) = 0.9545

8. (La probabilidad de que los valores de esta variable se encuentren en este intervalo es de 0.9545)

9. c) Pr (µ – 3 < X < µ + 3 ) = 0.9973

10. (La probabilidad de que los valores de esta variable se encuentren en este intervalo es de 0.9773)

11. Esta propiedad tiene un amplio uso en la práctica.

Propiedades de la distribución normal

I. Tiene una única moda, que coincide con su media µ y su mediana.

II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre - ∞ y + ∞ es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.

III. Es simétrica con respecto a su media µ. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

IV. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación estándar (σ). Cuanto mayor sea σ, mαs aplanada será la curva de la densidad.

V. El área bajo la curva comprendida entre los valores situados aproximadamente a 1.96 desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor de la variable comprendido en el intervalo (µ-1.96 σ, µ+ 1.96 σ).

VI. La forma de la campana de Gauss depende de los parámetros µ y σ. La media indica la posición de la campana, de modo que para diferentes valores de µ la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar σ determina el grado de suavidad de la curva. Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Ejemplo de la distribución normal

En el conocimiento de como se comporta una característica (variable aleatoria) en los elementos de una población.

Si sabemos que la talla adulta sigue una distribución normal y se nos dice que la media (µ) de talla del hombre en Venezuela es de 167.3 cm con una desviación estándar (σ) de 7.8 cm podemos inferir que:

µ = 167.3 cm (Media poblacional)

σ = 7.8 cm (Desviación estándar poblacional)

x = valores de la variable aleatoria

Aplicando los conceptos anteriores:

Pr (µ – 1.96 < X < µ + 1.96 ) = 0.95

Pr (167.3 – 1.96*7.8 < X < 167.3 + 1.96*7.8 ) = 0.95

Pr (167.3 – 15.3 < X < 167.3 + 15.3 ) = 0.95

Pr (152 < X < 182.6 ) = 0.95

Procedimiento de estandarización

• Entre las variables normales (x) y la variable normal estándar (z) existe una relación muy útil: se puede comprobar que a cada valor de la variable x, de la distribución normal con media µ y desviación estándar , le corresponde un valor z de la distribución normal estándar con media µ =0 y desviación estándar  =1.

Procedimiento de estandarización

• La relación entre la variable x y la variable z es: z = (x – μ) / σ.

A este procedimiento de restar la media y dividir ese resultado por la desviación estándar es lo que se conoce como procedimiento de estandarización.

Para cada valor de x de la distribución normal puede encontrarse un valor de z de la distribución normal estándar.

Esta relación entre los valores de la variable aleatoria (x) que sigue una distribución normal y los valores z de la distribución normal estándar es de gran utilidad en la práctica médica.

Tema 3: Inferencia Estadística

Muestreo

Muestra: Una muestra es una parte de la población. Es cualquier subconjunto de elementos de la población.

Población: Es aquel conjunto de individuos o elementos que podemos observar, medir una característica o atributo. Es el conjunto de individuos (personas, animales, objetos, etc.) que presentan la(s) característica(s) que se desea(n) estudiar o son susceptibles de verse afectados por el fenómeno que se quiere investigar, en el marco de una región geográfica bien determinada y en un período o momento del tiempo dado.

Muestreo: Es la técnica para la selección de una muestra a partir de una población.

Unidad de análisis: Es cada uno de los elementos o sujetos de la Población sobre los cuales se recoge la información y su naturaleza está determinada por los objetivos que se persiguen.

Unidad de muestreo: Es la que se usa para realizar la selección Muestral, que en los casos más simples coincide con la unidad de análisis, pero no siempre es así.

Por ejemplo:

1. Una muestra de estudiantes de nivel secundario se puede obtener mediante una selección de grupos de clase, en lugar de a partir de una selección directa de alumnos.

2. Una muestra de pacientes con hipertensión arterial puede seleccionarse tomando aleatoriamente un cierto número de consultorios populares y considerando como integrantes de la misma a todos los pacientes dispensarizados como hipertensos en dichos consultorios populares.

Las unidades elementales (unidades de análisis) son los alumnos o los pacientes hipertensos, pero se usaron como unidades de muestreo los grupos de clase y los consultorios populares ( unidad de muestreo

Unidad de observación: Es aquella de la cual se obtiene la información. No siempre se obtiene la información a partir de la propia unidad de análisis. Por ejemplo, cuando nuestras unidades de análisis son niños pequeños, la información se obtiene generalmente de sus madres, que ni siquiera pertenecen a la población objeto de estudio.

Marco muestral: Es la lista de todas las unidades de muestreo susceptibles de ser seleccionadas para integrar la muestra.

Tamaño de la muestra o tamaño muestral

En la determinación del tamaño muestral intervienen los factores siguientes:

a) La variabilidad poblacional de la característica en estudio, o la frecuencia de aparición o presentación del fenómeno que se estudia.

b) La confiabilidad de los resultados requerida.

c) La precisión deseada de los resultados.

Ventajas del uso del muestreo

1.- Reducción de los costos

2.- Mayor rapidez en la obtención de resultados

3.- Mayor alcance o esfera de acción

4.- Mayor precisión en los datos

5.- Cuando algunos de los elementos en estudio se destruye en la observación.

Desventajas del muestreo

Error de Muestreo

Siempre está presente producto de la variabilidad intrínseca de los elementos de la Población, existen diferencias entre las medidas muestrales y los parámetros poblacionales.

Muestreo

Existen dos tipos de muestreo:

• Muestreo No Probabilístico

• Muestreo Probabilístico

– Muestreo Aleatorio Simple

– Muestreo Estratificado

• Muestreo no probabilístico:

• Cuando la selección de las unidades muestrales no se realiza utilizando un esquema muestral basado en las probabilidades, siendo precisamente esta la razón por la cual no se puede valorar el error de muestreo.

Muestreo no probabilístico. Ejemplo

Muestreo por selección de experto (muestreo opinático o al juicio).

Es una técnica usada por expertos con la intención de seleccionar muestras típicas o representativas de un fenómeno en particular, con fines fundamentalmente experimentales. Su debilidad radica en que, varios expertos pueden tener puntos de vista diferentes sobre la mejor manera de seleccionar o caracterizar a esos casos típicos o representativos. En la medida en que los criterios empleados se aparten de la subjetividad, los resultados que se obtengan serán más confiables.

Cuando la selección de las unidades muestrales se realiza utilizando un esquema muestral basado en las probabilidades (medida de las posibilidades) que tienen los sujetos de la población en formar parte de la muestra (permiten la valoración del error de muestreo por hacer uso de la teoría de la probabilidad)

Muestreo Aleatorio Simple (MAS)

La esencia de este diseño muestral radica en que todos los sujetos en la población deben tener la misma probabilidad de ser seleccionados y que no existan diferencias marcadas para la característica en estudio, entre subgrupos poblacionales.

Puede ser al azar o utilizando la tabla de números aleatorios.

Muestreo Aleatorio Simple (MAS)

Los pasos para llevar a cabo este esquema son los siguiente:

1.- Enumerar consecutivamente todos los elementos de la población a muestrear.

2.- Seleccionar los elementos que componen la muestra empleando algún mecanismo aleatorio.

Muestreo Aleatorio Simple. Ejemplo

Supongamos que se desea conocer la estatura media de una población compuesta de 260 atletas. En primer lugar, necesitamos una relación con los nombres de dichos atletas y a cada uno de ellos se les asigna un número de orden. Si el tamaño de muestra (que se calcula por la formulación correspondiente a este tipo de muestreo y las características de la estatura en estos sujetos), resulta ser de 30, se realiza un sorteo a partir del cual se obtienen 30 números entre 1 y 260 ó 0 y 259. Los individuos cuyos números hayan salido en el sorteo serán los que integrarán la muestra.

Muestreo Estratificado

La idea básica en la que se apoya este esquema es la posibilidad de dividir la población en subgrupos tales que, dentro de cada subgrupo, los elementos que lo integran sean similares entre sí, mientras que de un subgrupo a otro hay diferencias, en cuanto a la característica en estudio. A estos subgrupos se les llama estratos.

Un ejemplos de esta forma de división de la población es el siguiente:

a) Se conoce que los índices de parasitismo y EDA están relacionados estrechamente con las condiciones sanitarias de vida, luego la población a estudiar se podría clasificar en dos grandes grupos: estrato urbano y estrato rural.

• En el ejemplo, la subdivisión en estratos se puede hacer de antemano, es decir, antes de realizar la selección de los individuos, pero existen casos en que, eso no es factible.

• El procedimiento que se debe seguir en este diseño es como sigue:

Se divide la población en estratos y para cada estrato se hace una lista de todos los elementos (marco muestral por estratos).

El tamaño de muestra calculado se divide entre los estratos formados, atendiendo a algún criterio de asignación, de modo tal que todos los estratos aporten sujetos a la muestra.

Muestreo Estratificado (ME)

• Se aplica el MAS en cada uno de los estratos.

• Los criterios de asignación de los tamaños de muestra a los estratos en el ME son varios y su selección depende del interés y las necesidades del estudio. Aquí hablaremos del más sencillo y lógico de acuerdo con el sentido común: la asignación proporcional.

• Esta forma de asignación consiste en:

Primero: Hallar el peso relativo de cada estrato en la población, es decir, si N1, N2, N3,.....y Nk, representan los tamaños de los estratos en la población, y N el tamaño de la misma, entonces el peso relativo de cada estrato vendría dado por:

Segundo: Si el tamaño de muestra calculado es n, entonces en cada estrato se tomará como tamaño muestral (nj) el resultado del producto:

nj = Pj • n para j desde 1 hasta k

Al hacer las aproximaciones en estos tamaños muestrales se debe tener cuidado de que al final se cumpla que:

n <= n1 + n2 + .......+ nk

ó sea, el tamaño de muestra total calculado debe ser menor o igual a la suma de los tamaños de muestra en los estratos. Por ello, es aconsejable aproximar siempre por exceso esos tamaños.

Muestreo Estratificado. Ejemplo

Se divide la población en grupos homogéneos (estratos). La muestra se escoge aleatoriamente en número proporcional al de los componentes de cada estrato.

Ejemplo: en un Liceo: hay 120 alumnos en 2º año de Bachillerato provenientes de 4 zonas o pueblos.

Zona A: 20 estudiantes

Zona B: 32 estudiantes

Zona C: 60 estudiantes

Zona D: 8 estudiantes

Hay que elegir una muestra (n) de 20 estudiantes para hacerles una serie de preguntas

Muestra representativa.

Una muestra es representativa si posee las características de la población de la cual se obtuvo.

Las bases para declarar a una muestra como buena debe ser precisamente su capacidad de satisfacer el propósito para el cual fue diseñada.

Tema 3: Inferencia Estadística

Estimación

Estadística

Ramas de la Estadística: Descriptiva e Inferencial

• La Estadística Descriptiva se ocupa de tomar los datos de un conjunto dado, organizarlos en tablas o representaciones gráficas y del cálculo de unos números que nos informen de manera global del conjunto estudiado.

• La Estadística Inferencial estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra.

Existen dos formas de hacer Inferencia Estadística:

• La estimación de parámetros poblacionales (que son objeto de estudio de esta asignatura)

• Las pruebas de hipótesis (que estudiaremos en el próximo curso)

Estadística Inferencial

La Inferencia Estadística es la parte de los Métodos Estadísticos relacionados con los problemas de orden práctico que tienen que ver con el hecho de tomar decisiones en situaciones de incertidumbre. En el estudio de una técnica básica de la Inferencia Estadística, en específico el método de la Estimación de amplio uso en el campo de la biomedicina es la que abordaremos en esta actividad.

Además utilizaremos las propiedades la distribución normal en el análisis de la estimación por intervalos de confianza.

Estadístico, Parámetro

• ESTADÍGRAFO O ESTADÍSTICO: Es la medida de una característica relativa a una muestra. La mayoría de los estadígrafos se encuentran por medio de una fórmula. Ya hemos estudiado la media aritmética o promedio ( ), desviación estándar (s) y la proporción muestral ( p ).

• PARÁMETRO: El parámetro hace referencia a las medidas que se tienen en cuenta en una población. Como sabemos una variable aleatoria en la población se distribuye con arreglo a cierta función (Modelo teórico de distribución o ley de una variable aleatoria) que depende de cierto número de valores.

Parámetro es siempre una característica de la población (µ, σ, P, etc.), relacionada con un estadígrafo (estadístico) ( , s, p, etc.).

Relación entre Estadísticos y Parámetros

poblacion muestra

Definición

Universo o Población es un conjunto de elementos, objetos o unidades de análisis que al menos comparten una característica que nos interesa conocer o estudiar.

La Muestra no es más que una parte cualquiera de la población, un conjuntocualquiera no vacío.

denominacion parametro estadigrafo

simbolos Tamaño: N

Media: µ

Desviación estándar: σ

Tamaño: n

Media:

Desviación estándar: s

Distribución muestral

La utilización de estadígrafos y otros como estimadores de los parámetros poblacionales tiene su sustento teórico en el concepto de Distribución muestral de un estadígrafo.

Distribución muestral de la media aritmética cuando la distribución de la variable original es normal.

El estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden extraerse de ella.

Consideremos todas las posibles muestras de tamaño n de una variable aleatoria en una población. Para cada muestra podemos calcular un estadígrafo (media, desviación estándar, proporción,.etc.) que variará de una a otra. Así obtenemos una distribución del estadígrafo que se llama distribución muestral.

Aclaremos un poco este concepto con un ejemplo: Supongamos que tenemos una población de niños menores de un año y comenzamos a sacar muestras de tamaño 10 y calculamos el peso promedio de los niños para cada muestra (Media muestral).

De tal suerte que tendremos un listado de pesos promedios, tantos como muestras hayamos obtenido.

Esas medias ( ) podemos tratarlas como si fueran valores de una variable, podemos ordenarlas, calcular su distribución de frecuencias absolutas y relativas y calcular una medida de dispersión, digamos la desviación estándar (s).

Medias Muestrales

Se ha comprobado que esa distribución de las medias muestrales cuando la distribución de la variable original es normal va a tener tres propiedades que son:

• La media de la distribución de las medias en el muestreo es igual a la media poblacional (μ).

• La desviación estándar de la distribución de las medias en el muestreo es σ/√n y se conoce como error estándar de la media muestral. (Es una estimación de la desviación estándar de la distribución muestral de las medias).

• La forma de la distribución de las medias muestrales es aproximadamente el de la distribución normal, independiente de la forma de distribución de la población, suponiendo que n sea suficientemente grande (Teorema central del límite).

Teorema central del límite

De ahí la importancia tan grande que tiene la distribución normal en la estadística inferencial, porque puede que no conozcamos cual es la distribución de nuestra población en estudio o que incluso la población no se distribuya normal, si el tamaño de la muestra es suficientemente grande, debido a esta propiedad que se conoce como teorema central del límite, la muestra sigue la distribución normal.

Estimación de parámetros poblacionales

Se denomina Estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.

Esta tarea consiste en, partiendo de ciertos valores de la muestra llamados estadígrafos o estadísticos, por ejemplo la media aritmética muestral ( ), inferir ciertos otros valores de la población llamados parámetros (por ejemplo la media aritmética poblacional µ).

Estimación Puntual

Concepto de Estimación puntual

La estimación puntual se realiza tomando en consideración el valor del estadígrafo como valor del parámetro correspondiente de la población.

Ejemplo:

Supongamos que estamos interesados en realizar un estudio para describir las características del desarrollo físico en niñas venezolanas entre 8 y 8.9 años de edad, por medio de la observación de algunas dimensiones antropométricas, la talla por ejemplo. Asumamos con bastante seguridad que la variable X, talla, se distribuye en la población de acuerdo con una ley de distribución normal cuyos parámetros µ y σ se suponen desconocidos, lo expresado es común escribirlo en la notación habitual estadística como sigue: X ~ N (µ, σ ).

Supongamos para continuar que se ha tomado una muestra de tamaño n = 90 (niñas) y queremos estimar la talla media y la desviación estándar s. Denotemos por x1, x2,..., x90 los valores correspondientes a la talla en centímetros de cada una de las 90 niñas de la muestra, de estadística descriptiva conocemos que las fórmulas:

y

se utilizan para calcular la media y la varianza muestral. Estos son precisamente los estimadores de los parámetros  y  ya que tanto como s se obtienen a través de funciones que dependen de las xi, es decir, dependen de la talla de cada una de las 90 niñas seleccionadas en la muestra. Si al realizar los cálculos apropiados se obtiene que

= 126.9 cm y s = 2.48 cm, entonces esas cifras son las estimaciones de la media y la desviación estándar poblacionales, o sea, de  y .

Debe notarse que la utilidad práctica del estadígrafo, radica en que por medio de un proceder de cálculo se obtiene un valor único. En este sentido, tanto la media como la desviación estándar s constituyen valores puntuales.

Lo que tenemos son estimaciones puntuales.

Este hecho, unido a lo que conocemos acerca de la incertidumbre que se produce en el proceso de selección de muestras aleatorias, deja en dudas la utilidad de la estimación puntual, ya que continuamos sin ninguna información en relación con cuán cerca está el valor encontrado del verdadero valor desconocido del parámetro poblacional.

Es decir, sabemos que va a existir una diferencia entre la cifra estimada y la verdadera, pero no conocemos todavía si tal diferencia es admisible o no.

Estimación por intervalo de confianza

Una estimación por intervalos consta de dos valores numéricos que, definen un intervalo que con un grado de confianza específico, se considera que incluye el parámetro a estimar.

Nos ocuparemos de la construcción de intervalos de confianza para la media  de una variable aleatoria X con distribución normal y para la proporción P de una variable aleatoria X con distribución binomial.

Cuando hablamos de estimar un parámetro poblacional por intervalo de confianza, estamos pensando en que debemos encontrar un intervalo en donde se encuentre acotado entre dos valores el parámetro poblacional (µ, P etc.). Los extremos del intervalo se calcularán con los valores de los estadígrafos correspondientes ( , p, etc.).

Por supuesto, si el parámetro no se encuentra en ese intervalo estaremos cometiendo un error. Por otra parte, la longitud del intervalo es una medida de cuán bien puede ser estimado el parámetro a través del intervalo, es decir, que habla de la utilidad de nuestra afirmación.

Así, por una parte, queremos que el parámetro se encuentre con gran probabilidad en el intervalo y, por otra, que la longitud del intervalo sea bastante pequeña.

Intervalo de Confianza para  con σ conocida

Vamos a aplicar las nociones anteriores para hallar un intervalo de confianza para  cuando σ es conocida.

Ejemplo. Vamos a suponer que se extrae una muestra de tamaño 50(n = 50) de la población de tallas de niñas de 7 años. (La variable talla se distribuye normalmente en la población). Se conoce que σ = 5.53 cm. Los 50 valores de talla aparecen en la tabla que sigue a continuación, considere adicionalmente que la muestra se obtuvo:

TABLA #1

131.5, 115.0, 125.5, 119.0, 123.0, 125.0, 124.5, 122.5, 118.0, 125.0

125.5, 119.0, 124.5, 118.0, 117.0, 128.0, 119.5, 124.5, 132.0, 122.5

120.5, 120.0, 126.0, 128.0, 120.5, 120.0, 119.0, 117.0, 129.5, 124.0

121.0, 119.0, 120.0, 128.0, 128.0, 118.5, 118.0, 124.0, 118.0, 118.5

131.0, 117.0, 118.0, 116.5, 121.0, 122.0, 124.0, 120.5, 114.5, 121.0

Como estudiamos = (n1+n2…+n50)/50

La media en este caso es = 122.05 cm.

Aplicando una de las propiedades de la distribución normal a los intervalos más utilizados tenemos que:

P (µ – 1.96 < X < µ + 1.96 ) = 0.95

(La probabilidad de que los valores de esta variable se encuentren en este intervalo es de 0.95)

P (µ – 2.58 < X < µ + 2.58 ) = 0.99

(La probabilidad de que los valores de esta variable se encuentren en este intervalo es de 0.99)

Intervalo de Confianza para  con σ conocida

Ahora bien, la distribución de las medias muestrales sigue una distribución normal con media µ y desviación estándar , (Teorema del Límite Central), es decir, que el intervalo para el 95 % es:

µ – 1.96 < < µ + 1.96

Podemos observar que en este intervalo se encuentra acotada la media muestral y lo que queremos es un intervalo en que se encuentre acotada la media poblacional µ.

Con la doble desigualdad presente se pueden realizar dos transformaciones algebraicas que conducen cada una de ellas a desigualdades equivalentes a la de partida, y por tanto ambas con idéntico valor de probabilidad 0.95.

Son estas, las transformaciones siguientes:

Si en ( −1.96 < <  +1.96 ), restamos  en todos los términos, esto conduce a (−1.96 <   < 1.96 ).

Si ahora dividimos todos los términos por el valor , se obtiene una de las transformaciones anunciadas:

( -  )

( –1.96 < ---------- < 1.96)

Intervalo de Confianza para  con σ conocida

Para obtener la otra doble desigualdad, debemos dividir la inicial en dos, y realizar en ambas por separado, los cambios algebraicos necesarios.

Para ello comencemos con, −1.96 < ,

y en ella pasemos la expresión, −1.96 < ,del miembro izquierdo

hacia el derecho, obteniéndose,  < + 1.96 .

De modo semejante se puede proceder con, <  +1.96

para obtener que,  1,96 <  .

Combinando ahora ambas desigualdades, estas permiten plantear

que: ( −1.96 <  < +1.96 )

Como ya se dijo, Pr (–1.96< <1.96) = 0.95, donde el termino,

,usualmente identificado por z, es la expresión aritmética

necesaria para transformar una variable aleatoria X con distribución

N(, σ) en una variable aleatoria normal estándar, por lo que 1.96 y

–1.96 no son más que los valores entre los que se acumula el 95 %

del área bajo la curva normal estándar; dicho de otra forma, fuera

de ese intervalo sólo está el 5 % del área bajo la curva.

Es importante en este momento dar una interpretación correcta a este intervalo.

Hemos hallado un intervalo que podemos afirmar contiene a  con probabilidad 1−α = 0.95. La forma en que se ha construido el intervalo de confianza garantiza que si se toman 100 muestras de tamaño 50; 95 de ellas aproximadamente producirán intervalos que contienen el valor real de  mientras que alrededor de 5 producirán intervalos que no lo contienen.

Ese es el tipo de afirmación que se hace cuando se habla de que tenemos un 95 % de confiabilidad o confianza de que el intervalo (120.52 cm, 123.58 cm) contenga el verdadero valor del parámetro . En términos del ejemplo utilizado diremos que, basados en una muestra aleatoria de tamaño 50 y conociendo que la desviación estándar poblacional de la talla de niñas de 7 años es 5.53 cm se estima, con un 95 % de confianza, que la media poblacional se encuentra en el intervalo de 120.5 cm a 123.6 cm.

Con la definición siguiente el resultado anterior se generaliza:

Sea X una variable aleatoria normal con media poblacional  desconocida y desviación estándar σ conocida. Se llama intervalo de confianza para  con nivel de confiabilidad del (1 - α ) a la expresión:

( – z , + z )

donde:

z: percentil de orden 1−α/2 de la distribución normal estándar.

z = 1.96 para el 95 % de confianza y z = 2.58 para el 99 % de confianza.

: valor observado de la media muestral, en una muestra de la variable X

n: tamaño de muestra;

Los valores ± z son, respectivamente, los límites superior e inferior de confianza del intervalo. El valor 1 − α se da de antemano; por supuesto, 0<1−α <1 y α pequeño. Al percentil z de la distribución normal estándar se le denomina coeficiente de confianza.

Es el caso que más se encuentra en la práctica. Como en la construcción del intervalo de confianza para µ siempre va a estar implicado el valor de σ, será necesario estimar este último valor.

Como ya vimos y s (desviación estándar de la muestra)

es la raíz cuadrada de la varianza s2 un estimador puntual de σ. Sin embargo, tenemos que responder a una nueva interrogante, ¿seguirá siendo apropiado usar el percentil correspondiente a la distribución normal estándar? Planteado en otra forma, vimos que la interpretación de 1.96 dependía del conocimiento que teníamos acerca del estadígrafo ( − µ ) / (σ/ ) = Z, ¿qué sucede con esta expresión cuando se sustituye σ por su estimador s?

Se conoce que en este caso Z ya no tiene una distribución normal con parámetros 0 y 1, sino que ( − µ ) / (s / ) tiene ahora la distribución t de Student con n-1 grados de libertad.

Es decir que cuando tenemos una muestra de tamaño mayor que 30, lo único que debemos hacer es utilizar la estimación de σ para construir el intervalo de confianza.

Calcular un intervalo de confianza del 95 % para la media de talla de niñas de 7 años, a partir de los datos de la tabla 1, asumiendo varianza desconocida. Suponga que el cálculo de la desviación estándar muestral fue s = 4.383 cm.

Solución:

Debemos calcular un intervalo de la forma: ( – z s/ ; + z s/ )

Conocemos que, = 122.05cm y s = 4.383 cm, y además como el nivel de confianza = 1   = 0.95, entonces z = 1.96.

Calculemos ahora el valor de z s/ . Sustituyendo los valores conocidos se tiene que:

Z s/ = 1.96 • 4.383 / √ 200 = 1.215.

Ahora restando y sumando 1.215 al valor de , obtenemos los límites del intervalo de confianza. Estos son: (120.84, 123.27).

Estimación por intervalo de confianza para p

Como ya se sabe el estimador p (proporción o porcentaje muestral) del parámetro P (proporción o porcentaje poblacional) de la distribución binomial es un estimador puntual P y como tal, presenta las mismas deficiencias ya señaladas en el caso de μ. Sería entonces muy útil obtener estimaciones por intervalo de confianza para el parámetro P de la binomial.

Asuma que la variable que nos interesa es “presentar estomatitis subprótesis” y que se quiere hallar un intervalo de confianza del 95 % para la proporción en la población, P, de enfermos de estomatitis subprótesis. Se realiza un pesquizaje en portadores de prótesis estomatológicas de una parroquia de la ciudad de Maracaibo, efectuándose para ello, la selección de una muestra aleatoria de 50 portadores, encontrándose que, 25 padecían de la citada enfermedad. Entonces el estimador puntual de P es P = 25/50 = 0.5.

Si asumimos que se cumple la aproximación de la distribución binomial a la normal entonces la proporción de enfermos en la muestra se distribuye de acuerdo a una normal con parámetro P; o de otra forma p ~ N(P, P(1−P)/n)

Similarmente al caso de  , bajo las suposiciones anteriores, podemos plantear que:

Sea X una variable aleatoria binomial con parámetro desconocido P. Para n tal que se cumpla la aproximación de la distribución binomial a la distribución normal, el intervalo

(p - z ≤ P ≤ p + z )

Pero q = 1 – p entonces, sustituyendo en la fórmula anterior tenemos que:

(p – z ≤ P ≤ p + z )

es un intervalo del (1- α)•100 % de confianza para P, donde:

p: = proporción de la muestra

q: = 1 – p

z: = Coeficiente de confianza

para el 95.0% de confianza z = 1.96 (o lo que es igual α=0.05 )

y para el 99.0% de confianza z = 2.58 (o lo que es igual α=0.01 )

Error estándar de la proporción:

: Porcentaje Poblacional

: Porcentaje de la Muestra

Como estudiamos en estadística descriptiva el porcentaje no es más que la proporción multiplicada por 100.

Luego = p * 100

La estimación puntual del porcentaje poblacional ( ) se realiza a través del porcentaje de la muestra ( ).

Igualmente podemos obtener un intervalo de confianza para la estimación del porcentaje poblacional ( ).

El intervalo anterior puede ser reescrito sustituyendo p por y q por ; y en lugar de hablar de un intervalo de confianza para la proporción poblacional se hablará entonces del intervalo de confianza para el porcentaje poblacional ( ).

Calcule el intervalo de confianza del 95 % para el porcentaje poblacional de enfermos de estomatitis sub prótesis, con los datos del ejemplo anterior.

Solución:

Hay que verificar si, se cumple que n * p * q ≥ 5;

50 * 0.5 * 0.5 = 12.5 ≥ 5 luego es válido utilizar la expresión de cálculo del intervalo de confianza:

( - z √ /n ≤ ≤ + z √/ n)

El porcentaje muestral es igual a la proporción muestral multiplicada por 100:

= p * 100 = 0.5 * 100 = 50 %,

Como mencionamos con anterioridad

= 100 − = 50 %

50.0−1.96 √50.0*50.0/50 < < 50.0 +1.96 √50.0*50.0/50

Limite inferior 50.0−13.9 = 36.1 Limite superior 50.0+13.9 = 63.9

La proporción poblacional de pacientes con estomatitis subprotesis se encuentra entre 36.1 % y 63.9 %.

Como era de esperar, el resultado es igual al de la proporción pero multiplicado por 100.

...

Descargar como  txt (54.5 Kb)  
Leer 51 páginas más »
txt