El Busqueda
lulujavierydiego13 de Julio de 2011
3.463 Palabras (14 Páginas)775 Visitas
República Bolivariana de Venezuela
Ministerio del Poder Popular para la Defensa
Universidad Nacional Experimental Politécnica
De la Fuerza Armada
Núcleo Caracas, Sede Chuao
Ingeniería de sistema
Sección “G”
ESTIMACION DE PARAMETROS
Profesor: alumnos:
Abreu Lourdes
Arellano Arelis
Estimación de Parámetros
· Criterios para estimados.
· Estimados de Max-verosimilitud.
· Método de mínimos cuadrados.
Ley de Correlación.
Intervalos de Confianza.
· Distribución T de Student.
· Distribución Chi-cuadrado.
Introducción
Muchos procedimientos estadísticos suponen que los datos siguen algún tipo de modelo matemático que se define mediante una ecuación, en la que se desconoce alguno de sus parámetros, siendo éstos calculados o estimados a partir de la información obtenida en un estudio bien diseñado para tal fin. Existen diferentes procedimientos para estimar los coeficientes de un modelo de regresión, o para estimar los parámetros de una distribución de probabilidad. De entre esos procedimientos probablemente el más versátil, ya que se puede aplicar en gran cantidad de situaciones, y por ello uno de los más empleado se conoce con el nombre de "método de máxima verosimilitud" .Aunque para aquellos que tiene una formación estadística este método es perfectamente conocido y comprendido, sin embargo muchos de los usuarios de los programas estadísticos, que están habituados a calcular modelos de regresión logística, o modelos de supervivencia de riesgo proporcional o de Cox, modelos de Poisson, y muchos otros, desconocen cómo se efectúa la estimación de los coeficientes de esos modelos, por lo que nos parece adecuado dedicar una de éstas páginas mensuales a describir su filosofía e interpretación. Por otro lado, no es infrecuente que empleemos técnicas de forma habitual y mecánica, sin conocer en qué se sustentan y en última instancia en qué consisten realmente: no me cabe ninguna duda que casi todo el mundo tiene claro qué es una distribución de probabilidad normal, pero ¿cuánta gente que utiliza la t de Student sabe qué es realmente eso?
Podemos considerar que el método de máxima verosimilitud, abreviado a menudo como MLE, tal y como hoy lo conocemos e interpretamos fue propuesto por Fisher (1890-1962), aunque ya de una forma mucho más artificiosa fue inicialmente atisbado por Bernoulli (1700-1782), cuyo planteamiento fue revisado y modificado por su coetáneo y amigo el gran matemático
· Estimación de modelos por el método de máxima verosimilitud
El método de máxima verosimilitud se utiliza por ejemplo para estimar los coeficientes de un modelo logístico de regresión, en el que se calcula la probabilidad de que ocurra un determinado suceso mediante la siguiente ecuación:

Donde p es la probabilidad de que ocurra el suceso de interés y xi son los posibles factores (factores de riesgo) que se piensa que están relacionados con la probabilidad de que el suceso se produzca.
Ahora a partir de los datos de la muestra, para los que hemos observado si se ha producido o no el suceso, y a partir de los valores de los factores de riesgo en cada caso de la muestra, se trata de estimar los valores de los coeficientes bi en el modelo para cada factor de riesgo, lo que entre otras cosas nos permite calibrar el efecto de esos factores en la probabilidad de que el suceso ocurra. Si denominamos de forma compacta a esos coeficientes con la letra b (vector de valores), y dado que los valores de los factores x son conocidos para cada sujeto, la probabilidad p es función de los coeficientes b, y lo representamos como p=f(b).
Si p es la probabilidad de que ocurra el suceso, la de que NO ocurra será 1-p, y entonces en los sujetos en los que ocurrió el suceso vendrá dada por p(xi), mientras que para un sujeto en el que NO ocurre el suceso, se calcula como 1-p(xi). Siendo ambas expresiones función de b.
Si la muestra es aleatoria y las observaciones son independientes entre sí, la probabilidad de que un sujeto de la muestra experimente el suceso es independiente de lo que le ocurra a cualquier otro, por lo que la probabilidad conjunta se calcula como el producto de las probabilidades individuales y de esa forma obtenemos la función de verosimilitud, que tiene en cuenta todos los datos de forma global, y será función únicamente de los coeficientes. De igual manera que antes se calculará la derivada de esa función, se iguala a cero y se obtienen los valores de los coeficientes que maximizan esa función. Aunque esto que se dice fácil, al menos en el modelo logístico, es algo más complicado de efectuar que de narrar.
· Interpretación de los resultados en el método de máxima verosimilitud
Al combinar observaciones independientes, hemos visto que en el cálculo de la función de verosimilitud interviene el producto de las probabilidades individuales, por lo que habitualmente interesa tomar logaritmos, ya que éstos transforman los productos en sumas y los cocientes en restas. Así habitualmente veremos en las salidas de los programas de ordenador el término Log-likehood, que no es más que el logaritmo de la verosimilitud. Al tratarse de productos de probabilidades la función de verosimilitud será siempre menor que 1 y por tanto su logaritmo será negativo.
La función de verosimilitud nos permite comparar modelos, por ejemplo dos modelos en el que en uno de ellos se incluye una variable adicional con respecto al primer modelo. Las diferencias en la función de verosimilitud se alteran arbitrariamente con la escala de medida, por lo que la forma adecuada de compararlas es mediante cocientes. De ahí que cuando se comparan modelos que han sido estimados mediante este procedimiento se hable de cociente de verosimilitud (likelihood ratio).
Cuando se trata de la estimación de modelos resulta de utilidad el concepto de modelo saturado. Un modelo se denomina saturado cuando utiliza tantos parámetros como observaciones hemos efectuado y por tanto se ajusta perfectamente a los datos. Podemos comparar el modelo actualmente estimado con ese modelo teórico perfecto mediante la expresión:

Esa cantidad se denomina desviación; en algún lugar la he visto traducida cono "desvianza, La desviación nos permite comparar modelos, por ejemplo un modelo que incluye una variable adicional:
G=D (modelo 1 sin la variable) - D(modelo 2 con la variable) = 
que se distribuye según una chi2 con grados de libertad igual a la diferencia de parámetros entre modelos, que este caso es 1 grado de libertad. Se le denomina contraste de verosimilitud. Si el contraste resulta ser no significativo aceptamos que la incorporación de la nueva variable no mejora sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en él.
También en las salidas de los programas suele aparecer el término likelihood ratio o cociente de verosimilitud para un modelo, sin que se especifique que se esté contrastando con otro diferente. En estos casos el contraste es frente al modelo que sólo incluye el término constante y por tanto no se consideran las variables X o los factores de riesgo, y se compara con el modelo que sí incluye las variables, por lo que ahora esa cantidad se distribuye según una chi2 con grados de libertad igual al número de variables incluidas en el modelo, que es la diferencia frente al modelo con solo la constante. Al igual que antes, si el contraste resulta no significativo pensamos que incluir el conocimiento de las variables X no mejora significativamente la verosimilitud del modelo y por lo tanto se trata de un modelo sin utilidad.
Añadiendo más términos, más variables, a un modelo la función de verosimilitud mejorará y si la muestra es grande será difícil distinguir mediante el contraste del cociente de verosimilitud entre una mejora "real" y una aportación trivial. El modelo perfecto no existe, puesto que todos constituyen simplificaciones de la realidad y siempre son preferibles modelos con menos variables, puesto que además de ser más sencillos, son más estables y menos sometidos a sesgo. Por ello se han propuesto otras medidas de contraste entre modelos que penalizan en alguna medida que éstos tengan muchos parámetros.
Las más conocidas y que suelen figurar en las salidas de ordenador son el criterio de información de Akaike, AIC, y criterio de información bayesiano, BIC.
AIC=-2(ln verosimilitud - nº parámetros)
En principio el criterio de selección será escoger modelos con valores más bajos de AIC.
La fórmula para el BIC es similar, así como su interpretación:
BIC=G - gl . ln N
Donde G es el cociente de verosimilitud, gl son los grados de libertad y N el tamaño de la muestra. También escogeremos modelos con menor valor de BIC.
· Teoría de la estimación estadística
Estimación de Parámetros
La teoría de muestreo puede emplearse para obtener información
...