Clases De Matrices

vanessa.m17 de Noviembre de 2013

5.870 Palabras (24 Páginas)322 Visitas

Página 1 de 24

Tratamiento de datos faltantes

Con excepción de las funciones especiales MAX, MEAN, MIN, STD, SUM, VAR, Recode no verifica automáticamente si hay valores definidos como datos faltantes. Corresponde al usuario hacer un control específico de los datos faltantes antes de proceder a los cálculos con los valores de las variables. Para esto, se tiene la función MDATA.

Hay dos funciones suplementarias, MD1 y MD2, que restituyen el valor del primero o segundo código de datos faltantes para una variable.

Finalmente, se pueden afectar los códigos de datos faltantes a las variables R o V con la proposición de definición MDCODES.

http://www.unesco.org/webworld/idams/selfteaching/spa/smd-treat.htm

El tratamiento de los datos perdidos - Parte 1

David C. Howell

Los datos que faltan son una parte de casi todas las investigaciones, y todos tenemos que decidir cómo tratar con él de vez en cuando. Hay un número de maneras alternativas de tratar con datos parciales, y este documento es un intento de describir los enfoques. La versión original de este documento dedicó un espacio considerable en el uso de variables ficticias para codificar observaciones faltantes. Esa idea se popularizó en las ciencias de la conducta por Cohen y Cohen (1983). Sin embargo, este enfoque no produce estimaciones de los parámetros ofrece (Jones, 1996), y ya no es recomendable - especialmente a la luz de la disponibilidad de excelente software para manejar otros enfoques. Para un tratamiento libro-muy a fondo de la cuestión de los datos que faltan, recomiendo Little y Rubin (1987). Un tratamiento más corto se encuentra en Allison (2002). Tal vez el mejor tratamiento de los enfoques modernos se pueden encontrar en Baraldi y Enders (2010). Recientemente he escrito un capítulo sobre los datos que faltan para un volumen editado (Howell, 2007). Parte de ese trabajo es la base de algunos de lo que se encuentra aquí. Puedes escribirme a David.Howell @ uvm.edu una copia de ese capítulo los datos que faltan.

Estoy en el proceso de revisng esta página dividiéndola en al menos dos páginas. Ha crecido demasiado tiempo y, probablemente, nadie está dispuesto a leer todo el camino a través de él. Cuando he terminado, esta página abarcará los datos que faltan en general y se centran principalmente en la situación en la que tanto buscamos la manera de utilizar los datos en su forma original, o utilizar técnicas que faltan datos tradicionales como la eliminación por lista y sustitución decir. Voy a cubrir las situaciones que involucran tanto la regresión lineal múltiple y el análisis de la varianza. El siguiente documento (parte omitida de datos Dos) se centra en los nuevos métodos de imputación de datos que sustituyen a los datos faltantes con una mejor estimación de lo que ese valor habría sido si fueron capaces de conseguirlo. Este es el material que la mayoría de la gente ahora piensa en el epígrafe de "datos faltantes", pero el material antiguo sigue siendo importante y, a menudo muy útil.

Si su interés se centra en los datos que faltaban en un ANOVA de medidas repetidas, usted encontrará material útil en http://www.uvm.edu/ ~ dhowell / StatPages / More_Stuff / Missing_Data / Modelos Mixtos para Measures.pdf repetida.

1.1 La naturaleza de los datos que faltan

Perdidos completamente al azar

Hay varias razones por las que los datos pueden estar ausentes. Ellos pueden faltar porque el equipo funciona mal, el tiempo era terrible, la gente se enferma, o los datos no se introdujeron correctamente. Aquí los datos están perdidos completamente al azar (MCAR). Cuando decimos que los datos están perdidos completamente al azar, queremos decir que la probabilidad de que una observación (Xi) que falta no está relacionada con el valor de Xi o el valor de las otras variables. Por lo tanto no se considerarían MCAR datos sobre ingreso familiar si las personas con bajos ingresos eran menos propensos a reportar sus ingresos familiares de las personas con ingresos más altos. Del mismo modo, si los blancos eran más propensos a omitir la presentación del resultado de los afro-americanos, una vez más no tendríamos los datos que estaban MCAR porque missingness se correlaciona con la etnicidad. Sin embargo, si los datos de un participante faltaban porque fue detenido por una violación de tráfico y se perdió la sesión de recolección de datos, los datos presumiblemente serían perdidos completamente al azar. Otra forma de pensar en MCAR es tener en cuenta que en este caso es igual de probable que falten como cualquier otra pieza de información cualquier dato.

Tenga en cuenta que es el valor de la observación, y no su "missingness", que es importante. Si las personas que se negaron a declarar los ingresos personales también eran propensos a negarse a declarar los ingresos de la familia, los datos todavía pueden ser considerados MCAR, siempre y cuando ninguno de ellos tenía ninguna relación con el valor de los ingresos en sí. Esta es una consideración importante, ya que cuando un conjunto de datos consta de las respuestas a varios instrumentos de la encuesta, alguien que no completaron el Inventario de Depresión de Beck faltaría toda BDI resultados parciales, pero que no afectaría si los datos pueden ser clasificados como MCAR.

Esta característica interesante de los datos que son MCAR es que el análisis sigue siendo imparcial. Podemos perder el poder de nuestro diseño, pero los parámetros estimados no están sesgadas por la ausencia de datos.

Falta al azar

A menudo los datos no están perdidos completamente al azar, pero pueden ser clasificables como desaparecidos al azar (MAR). (MAR realmente no es un buen nombre para esta condición porque la mayoría de la gente se lo toman como sinónimo de MCAR, que no lo es. Sin embargo, la etiqueta se ha pegado.) Vamos a retroceder un paso. Para que los datos sean perdidos completamente al azar, la probabilidad de que Xi falta no está relacionada con el valor de Xi u otras variables del análisis. Sin embargo, los datos se pueden considerar como falta al azar si los datos cumplen con el requisito de que missingness no depende del valor de Xi después de controlar por otra variable. Por ejemplo, las personas que están deprimidas podrían ser menos propensos a reportar sus ingresos, y por lo tanto los ingresos declarados se relaciona con la depresión. Las personas deprimidas también pueden tener un ingreso menor en general, y por lo tanto cuando tenemos una alta tasa de datos que faltan entre las personas deprimidas, la renta media existente podría ser menor de lo que sería sin los datos que faltan. No obstante, si, dentro de los pacientes con depresión la probabilidad del resultado del ejercicio no estaba relacionado con el nivel de ingresos, los datos serían considerados MAR, aunque no MCAR. Otra forma de decir esto es decir que en la medida en que missingness está correlacionada con otras variables que se incluyen en el análisis, los datos son marzo

La fraseología es un poco incómodo aquí, porque tendemos a pensar en el azar de no producir sesgo, por lo que bien podría pensar que falta al azar no es un problema. Por desgracia, es un problema, aunque en este caso tenemos la manera de tratar el tema con el fin de producir estimaciones significativas y relativamente imparcial. Pero sólo porque una variable es MAR no significa que usted puede olvidarse del problema. Pero tampoco significa que usted tiene que vomitar sus HANDES y declarar que no hay nada que hacer

La situación en la que los datos están al menos MAR se refiere a veces como missingness ignorables. Este nombre viene a cuento porque para esos datos todavía podemos producir estimaciones de los parámetros imparciales sin necesidad de proporcionar un modelo para explicar missingness. Los casos de ARMN, que deben ser considerados al lado, podrían ser etiquetados casos de missingness nonignorable.

Falta Nada al azar

Si los datos no son MCAR o estropear luego son clasificados como perdidos no al azar (MNAR). Por ejemplo, si se estudia la salud mental y las personas que han sido diagnosticados como deprimidos son menos propensos que otros a reportar su estado mental, los datos no están perdidos de forma aleatoria. Es evidente que la puntuación del estado mental media de los datos disponibles no será una estimación no sesgada de la media que hubiéramos obtenido con datos completos. Lo mismo sucede cuando las personas con bajos ingresos tienen menos probabilidades de reportar sus ingresos en un formulario de recogida de datos.

Cuando tenemos los datos que son ARMN tenemos un problema. La única manera de obtener una estimación objetiva de los parámetros es modelar missingness. En otras palabras, tendríamos que escribir un modelo que representa los datos que faltan. Ese modelo se podría incorporar en un modelo más complejo para estimar los valores perdidos. Esto no es una tarea que nadie tomaría a la ligera. Ver Dunning y Freedman (2008) para un ejemplo. Sin embargo, incluso si los datos son ARMN, no todo está perdido. Nuestros peritos pueden estar sesgados, pero el sesgo puede ser pequeño.

1.2 Los tratamientos tradicionales para los datos faltantes

El método más sencillo - eliminación por lista.

Con mucho, el método más común para los datos que faltan es simplemente omitir los casos con datos faltantes y ejecutar los análisis sobre los restos. Así, si 5 sujetos en el grupo uno no muestran para ser probado, ese grupo es 5 observaciones corto.

...

Descargar como (para miembros actualizados) txt (35 Kb)

Leer 23 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com