Practica 3

zeus200511 de Febrero de 2015

1.408 Palabras (6 Páginas)162 Visitas

Página 1 de 6

Prácticas de Estadística con R

Práctica 3. Inferencia: Intervalos de Confianza y Contraste de Hipótesis

INTERVALOS DE CONFIANZA

Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de la población, y una de las formas más usuales de garantizar esa representatividad es mediante muestras aleatorias simples.

Intervalo de confianza de la media poblacional

Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error.

Ejemplo: Queremos estudiar la altura media de todos los individuos con un nivel de confianza de =0.05.

Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.

Caso de  desconocida:

Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:

>Estadísticos >Medias >Test t para una muestra…

Para el intervalo de confianza bilateral hay que marcar

En Hipótesis alternativa >Media poblacional = 0,

Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.

Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%

La instrucción R generada:

> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)

One Sample t-test

data: Pulsea1$Height

t = 180.1207, df = 91, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

(67.95957 69.47521)

sample estimates:

mean of x 68.71739 Estimador puntual

Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos alternative='two.sided' (Bilateral).

El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la media muestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula:

xm t(n-1, 1-α/2) s/ ,

con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1- α/2) de la t de Student con (n-1) g.l.

La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia de instrucciones R , los extremos del intervalo de confianza buscado:

> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))

> s=sd(Pulsea1$Height, na.rm = TRUE)

>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)

>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)

>extrIzq;extrDer

[1] 67.95957

[1] 69.47521

Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es muy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor “NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con los datos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame de Pulsos:

> sum(is.na(Pulsea1$Activity))

[1] 1

La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Al aplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos), da la suma de los 1’s, que es 1.

Caso de  conocida:

Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianza bilateral basándose en la distribución normal:

Recuérdese que el intervalo de confianza al 95% es , con xm la media muestral y el cuantil 1-α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975).

Con el mismo ejemplo, suponiendo que la desviación típica poblacional es =3.7, la siguiente secuencia de instruccions R nos da los extremos del intervalo de confianza:

> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))

> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1,

...

Descargar como (para miembros actualizados) txt (9 Kb)

Leer 5 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com