Intervalos De Confianza
zzandrraa18 de Octubre de 2013
3.191 Palabras (13 Páginas)485 Visitas
Introducción a la inferencia estadística
La construcción de modelos probabilísticos presentada en el capítulo anterior es el caso típico de razonamiento deductivo: se establecen hipótesis respecto al mecanismo generador de los datos y con ellas se deducen las probabilidades de los valores posibles. La Inferencia Estadística realiza el proceso inverso: dadas las frecuencias observadas de una variable, inferir el modelo probabilístico que ha generado los datos. Para ello debemos calcular los parámetros que definen las distintas distribuciones, pero esto requiere conocer los valores de la variable que estemos estudiando para todos y cada uno de los elementos de la población (conjunto de homogéneo de elementos en los que se estudia una variable dada), lo cual no es posible por varias razones:
Imposibilidad física de acceder a toda la población, por ejemplo para calcular la probabilidad de cara de una moneda requiere su lanzamiento infinitas veces.
Imposibilidad económica de acceder a toda la población, p. e. no se podrían pagar los análisis para determinar el nivel medio de colesterol en un país.
Imposibilidad por destrucción del individuo, p. e. el estudio de la duración media de un modelo de marcapasos implicaría esperar la destrucción de toda la producción.
Sea cual sea el caso, con poblaciones de un tamaño N suficientemente grande la única alternativa factible es su determinación aproximada a través de una muestra (subconjunto representativo de la población).
La Inferencia Estadística es el conjunto de métodos que permiten obtener una conclusión a cerca de una población a través de la información proporcionada por una muestra, un procedimiento inductivo que va de lo particular (muestra) a lo general (población). Cuando la información deseada de la población es el valor de alguno de sus parámetros, la técnica a utilizar es la estimación.
La estimación puede ser de dos tipos. Mediante estimación puntual se persigue dar un único valor aproximado del parámetro desconocido, quedando sin especificar cómo de buena es tal aproximación. Mediante la estimación por intervalo se persigue dar un intervalo de valores, alguno de los cuales es el verdadero valor del parámetro desconocido, con una cierta seguridad de que la afirmación sea cierta. En el primer caso se afirmaría " la proporción de varones en España es aproximadamente el 49%", en el segundo, "la proporción de varones en España es algún número entre el 48% y el 50% caso con seguridad". El valor 49% se dice que es una estimación puntual de p(la verdadera proporción de varones en España); el intervalo (48%-50%) se dice que es un intervalo de confianza para p.
Muestreo aleatorio
Ya que el conocimiento de la población lo va a proporcionar la muestra, es lógico que la misma no se deba tomar de un modo arbitrario, sino que debe representar adecuadamente a toda la población. Si la muestra no es representativa, nada de lo que se concluya a partir de ella será válido para la población de interés, sino que lo será para la subpoblación que representa. Así, para determinar el nivel medio de colesterol de todos los españoles, la muestra no puede tomarse sólo de personas de edad avanzada, ni sólo de individuos que aparezcan en la guía telefónica, ni sólo de individuos que acuden a un hospital, etc. Para que la muestra sea representativa de la población, es preciso que sea extraída de ella de modo que:
1º Todos los individuos de la población tengan la misma probabilidad de ser seleccionados e incluidos en la muestra (igual probabilidad)
2º La selección de un individuo no influya para nada en la selección o no de otro individuo cualquiera (independencia).
Cuando ello se verifica diremos que la muestra es una muestra aleatoria. La obtención de una muestra aleatoria requiere en primer lugar la identificación completa de la población en estudio; a continuación se numeran los individuos de la población y, por medios similares a un sorteo, se extrae al azar un conjunto de números, los individuos correspondientes a ellos forman una muestra aleatoria de tal población. Para hacer esta selección podemos utilizar también las tablas de números aleatorios.
Estimación puntual
Supongamos que se desea conocer la estatura media µ de todos los españoles. Si tomamos una muestra de n = 100 españoles ¿qué valor elegiremos como el más aproximado, presuntamente, a µ? Parece razonable que si 170 cm es la estatura media de dicha muestra, debemos afirmar que µ=170 es inexacto (pues la media muestral no coincide en general con µ ), convengamos en indicar lo anterior así: µ 1 = 170, indicando el subíndice en el parámetro que la cantidad es una estimación puntual del mismo. De un modo general, una estimación puntual es un valor que se propone para el parámetro desconocido, valor que se obtiene determinando en la muestra el parámetro muestral paralelo al poblacional. Así, una estimación puntual para la media µ de una v.a es la media muestral µ1=, para la varianza de una v.a. es la varianza muestral =s2 ó para la proporción de una Binomial p es la proporción muestral p1.
Estimación por intervalo de confianza
Los estimadores puntuales sólo dan una idea aproximada del valor del parámetro a estimar, no conociéndose cómo de buena es la aproximación; ellos simplemente proporcionan el mejor número que pueda proponerse como valor del parámetro. Por ejemplo decir que µ1=170 cm significa que la estatura media de todos los españoles es aproximadamente 170 cm, pero el término "aproximado" no se sabe si alude a 1 cm arriba o abajo, o a 1 metro arriba o abajo. De hecho no puede esperarse gran cosa de un estimador.
Los problemas anteriores eran de esperar pues realmente es demasiado pedir que a partir de una muestra pueda calcularse el valor del parámetro tan exactamente como si se tomara toda la población. En realidad lo que importa es que el valor de la media muestral ,por ejemplo, no esté demasiado alejado de µ, y esto se comprueba con los intervalos de confianza.
El objetivo es realizar afirmaciones del tipo: "la estatura media ( de los españoles no sé exactamente cuanto es, pero es casi seguro alguno de los valores , con una cierta seguridad. La seguridad alude a la probabilidad de que la afirmación sea cierta, con lo que el problema de obtener intervalos de confianza para un parámetro radica en encontrar dos valores a y b tales que ,donde (a , b) es el intervalo de confianza para , 1 - el nivel de confianza del intervalo (usualmente próximo a 1) y el nivel de error del intervalo (usualmente próximo a 0).
Intervalo de Confianza para una media
Variables Normales.
Supongamos una v. a. x con distribución N(µ ;) en donde la media µ es desconocida y la varianza , la suponemos por ahora conocida. Con el fin de estimar µ (colesterol medio, nivel medio de glucosa, altura media de los varones mayores de edad, etc.) se va a tomar una muestra aleatoria x1 ,x2 ,...,xn que proporciona una media que será una estimación puntual de µ. Aceptaremos sin demostrarlo que:
(4.1)
con probabilidad del 95%, y así tenemos el intervalo buscado. Esta expresión debe interpretarse adecuadamente. Ella indica que el 95% de las muestras de tamaño n tendrán una media que, al sustituirla en la expresión, da lugar a un intervalo que contiene en su interior a µ, en tanto que otro 5% no sucederá esto. Nótese que se ha dicho que "el intervalo contiene en su interior a µ, y no que "µ cae en el interior del intervalo"; la primera afirmación es cierta pues los extremos del intervalo son v. a. por depender de que también lo es; la segunda afirmación es falsa pues µ es un parámetro (valor fijo aunque desconocido), no una v.a., no pudiendo variar. Así pues debe decirse que hay una probabilidad del 95% de que el intervalo contenga al parámetro.
En el ejemplo de la estatura media µ de los españoles, si se tiene que , dado que el 95% de los intervalos contienen a µ, diremos que "tenemos la esperanza de que este sea uno de los 95 intervalos de cada 100 que dejan en su interior a µ, esperando no haber tenido la mala suerte de que el intervalo obtenido sea uno de los 5 de cada 100 intervalos erróneos". Más abreviadamente, diremos que µ está entre (169 ; 172) "con una confianza del 95%"; de ahí el nombre de intervalo de confianza. Conviene notar que ahora se habla de "confianza" , y no de "probabilidad" como antes, pues los extremos del intervalo ya son números fijos y µ o está o no está dentro.
El intervalo (4.1) podemos expresarlo abreviadamente como , debiéndose el valor 1,96 al 5% de error tomado, es decir z0,05 = 1,96 en la tabla de la Distribución Normal.. De un modo general, si en lugar de una confianza del 95% tomamos una de (1 - ), (o en lugar de un error del 5% se toma uno de ), entonces el intervalo será:
(4.2)
con ,en la tabla de la D. N..
Ejemplo 1: Para determinar la estatura media de los varones adultos españoles, se tomó una muestra al azar de 10 de ellos en la que se obtuvo los valores 162, 176, 169, 165, 171, 169, 172, 168, 167 y 175 cm. Determinar el valor de la estatura media, suponiendo que = 16.
Un estimador puntual para la estatura media µ es la que en este caso es 169,4. Para dar un intervalo de confianza hemos de suponer que es una v. a. normal. Como
...