La etapa de estimación
Ensayo17 de Abril de 2014
2.882 Palabras (12 Páginas)402 Visitas
Imputación múltiple de datos faltantes
El nuevo comando de Stata mi proporciona una serie completa de
métodos de imputación para el análisis de datos incompletos, es decir,
observaciones para las cuáles faltan algunos de los valores. mi provee
funcionalidades para ambas etapas, la de imputación y la de estimación.
La etapa de estimación cubre ambas, la estimación en datos individuales
y la integración de los resultados, en un procedimiento fácil de usar.
mi provee también funcionalidades para analizar los patrones de
valores faltantes en los datos. Se proporcionan métodos flexibles de
imputación, incluyendo cinco métodos de imputación univariada que
pueden ser usados como bloques básicos para construir imputaciones
multivariadas, así como MVN (imputación normal multivariada).
Supongamos que queremos estudiar la relación lineal entre una variable
y y los predictores x1 y x2. Nuestros datos presentan valores faltantes,
y el descartar todas las observaciones con valores faltantes implicaría
reducir el tamaño muestral en un 40%. Ajustaremos el modelo utilizando
imputación múltiple. Primero, imputamos los valores faltantes, creando
Panel de control para imputaciones múltiples
El panel de control para imputaciones múltiples unifica las funcionalidades del comando mi, y guía al usuario desde el principio hasta el final del
análisis, desde la etapa de examinar los patrones de valores faltantes hasta realizar estimaciones e inferencia sobre imputaciones múltiples.
• Use Examine para chequear los patrones de valores
faltantes y así determinar el método de imputación
apropiado.
• Use Setup para establecer las características de los
datos cuando es necesario imputar valores. Si sus
datos ya contienen imputaciones, entonces omita esta
etapa y utilice Import.
• Use Impute para crear imputaciones. Usted puede
imputar una o varias variables simultáneamente.
Para ello, los siguientes métodos están disponibles:
regresión, ajuste de medias predictivas, regresiones
logística, ordinal logística y multinomial logística, y
MVN. Con patrones monótonos de datos faltantes,
usted puede combinar métodos de imputación.
• Use Manage para realizar manejos de datos.
• Use Estimate para ajustar su modelo y combinar
resultados.
• Use Test para realizar tests de hipótesis.
(arbitrariamente) cinco conjuntos de datos con los valores faltantes
sustituidos.
Luego podemos ajustar el modelo:
mi estimate ajusta el modelo especificado (en este caso regresión
lineal) para cada uno de los cinco conjuntos generados, y luego combina
dichas estimaciones en un resultado global.
mi puede importar datos que han sido imputados previamente,
incluyendo datos de NHANES o ice, o permite que el usuario realice
sus propias imputaciones. En cualquiera de los casos, la clave del
análisis de datos con imputaciones múltiples es mantener control
de varias copias de los datos, y mi mantiene, automáticamente, las
distintas copias sincronizadas. Usted puede crear o descartar variables
u observaciones como si estuviera trabajando con un sólo conjunto de
datos. Usted puede adjuntar conjuntos de datos en forma horizontal
(merge) o vertical (append), e incluso cambiar la forma de sus datos.
El hecho de que las transformaciones que usted realiza deben ser
llevadas a cabo, en forma coherente, sobre 5, 50 o aún 500 conjuntos
de datos, es irrelevante.
3
Los gráficos ahora soportan múltiples
fuentes y símbolos
Ahora usted puede incluir múltiples fuentes en regular, negrita o
itálica, el alfabeto griego completo en mayúsculas y minúsculas, y más
de 70 símbolos matemáticos en cualquiera de los textos que aparecen
en los gráficos.
Además, los gráficos aceptan una versión extendida del lenguaje de
control de texto, SMCL. Las letras griegas y los símbolos matemáticos
tienen nombres intuitivos y fáciles de recordar (tags). Por ejemplo,
para producir poner en el eje x el título β-caroteno, sólo necesita
especificar xtitle(“{&beta}-carotene”). Para incluir χ 2
en su texto, especifique {&chi}{superscript:2}, o {&chi}
{sup:2}.
“Tags” adicionales facilitan seleccionar entre sans serif, serif,
monoespacio y fuentes para los símbolos.
Naturalmente, estas nuevas funcionalidades también están disponibles a través de los diálogos y del Editor de Gráficos interactivo.
Nuevos Editor de Datos, Editor de archivos Do, y Manejador de Variables
Los nuevos Editor de Datos, Editor de archivos Do, y Manejador de Variables, hacen sus tareas de manejo de datos y programación más simples
que nunca.
El nuevo Editor de archivos Do (para Windows)
incluye sintaxis coloreada, plegado de código (así
usted puede ocultar bloques de código mientras
trabaja en otras partes), capacidad de trabajar con
varios archivos en forma simultánea, y tamaño
ilimitado para los archivos.
El nuevo Editor de Datos le permite
ordenar variables, aplicar filtros para
ver subconjuntos de sus datos, tomar
“snapshots”, (así podrá revertir fácilmente
cambios que usted ha hecho), e ingresar
datos y tiempos. El Editor de Datos es
una vista en vivo de sus datos: cambie sus
datos utilizando un comando de Stata,
e instantáneamente verá los resultados
reflejados en el Editor de Datos.
El nuevo Manejador de Variables le permite usar el ratón para cambiar
nombres de variables y modificar tipos de datos en las variables, etiquetas
y notas. Usted puede aplicar un filtro para ver solamente las variables que
verifiquen cierto criterio.
Variables factoriales
Stata ahora maneja variables factoriales (categóricas) en forma elegante. Usted puede ahora utilizar el prefijo i. con una variable para especificar
indicadores para cada nivel (categoría) de la variable. También puede incluir un # entre dos variables para crear una interacción (indicadores para
cada combinación de categorías de las dos variables). Si, en lugar de un símbolo # usted escribe ##, esto indica un modelo factorial completo
de las dos variables, es decir, la inclusión de las interacciones más indicadores para cada categoría de las dos variables. Si usted desea incluir la
interacción de una variable continua con una variable factorial, simplemente incluya el prefijo c. para la variable continua; usted puede especificar
hasta interacciones de ocho vías.
En el siguiente ejemplo ajustamos una regresión lineal del nivel de colesterol (variable cholesterol) versus un factorial completo del grupo de edad
(age) y el estatus de fumador (smoke), una variable continua que contiene el índice de masa corporal (bmi), y su interacción con el indicador
de fumador.
. regress cholesterol smoker##agegrp bmi smoker#c.bmi
Podríamos haber utilizado paréntesis para expresar el modelo en forma más corta:
. regress cholesterol smoker##(agegrp c.bmi)
Las categorías de referencia pueden ser modificadas en la misma línea de la regresión: i.agegrp utiliza por defecto la categoría 1 como base,
mientras b3.agegrp hace que la categoría base sea 3.
Las variables indicadoras de grupos no son creadas en el conjunto de datos, lo que ahorra mucho espacio.
Las variables factoriales están totalmente integradas a los mecanismos de procesamiento de variables de Stata, proveyendo una forma congruente
de interactuar con comandos de estimación y de postestimación.
Regresión para riesgos en competencia
La regresión para riesgos en competencia constituye una útil alternativa
a la regresión de Cox en presencia de uno o más riesgos simultáneos.
Por ejemplo, supongamos que usted está estudiando el tiempo desde el
comienzo de un tratamiento oncológico hasta la recurrencia de cáncer
en relación al tipo de tratamiento administrado y factores demográficos.
El fallecimiento es un riesgo que compite con el evento de estudio: la
persona bajo tratamiento puede morir, impidiendo la ocurrencia del
evento de interés, recurrencia de cáncer. A diferencia de la censura de
observaciones, que meramente obstruye la observación del evento, un
evento que compite impide la ocurrencia del evento de interés, y el
análisis debe ajustarse de acuerdo a estos hechos.
El nuevo comando de Stata stcrreg implementa la regresión
para riesgos en competencia basada en el modelo de subriesgos
proporcionales de Fine y Gray.
La regresión de Cox se centra en la función de supervivencia, que
indica la probabilidad de sobrevivir más allá de un momento dado. En
cambio, la regresión para modelos en competencia se enfoca hacia la
función de incidencia acumulativa, que indica la probabilidad de que el
evento de interés ocurra antes de un instante dado. La regresión para
riesgos en competencia es semiparamétrica, dado que la función de
subriesgo (para valores cero de las variables independientes) se deja
sin
...