Metodos De Seleccion De Variables
krnrubi12 de Noviembre de 2012
6.219 Palabras (25 Páginas)1.210 Visitas
Automated métodos de selección de variables para la regresión logística producido modelos inestables para predecir la mortalidad del infarto agudo de miocardio
• Peter C. Austin un , b , c , , ,
• Jack V. Tu un , b , c , d , e
• un Instituto de ciencias clínicas de evaluación, G1 06, 2075 Bayview Avenue, Toronto, Ontario M4N 3M5, Canadá
• b Departamento de Ciencias de Salud Pública, Universidad de Toronto, McMurrich Edificio, 4 º piso, 12 Queens Park Crescent West, Toronto, Ontario, Canada M5S 1A8
• c Departamento de Políticas de Salud, Gestión y Evaluación de la Universidad de Toronto, Toronto, McMurrich Bldg., 2nd Floor, 12 Queens Park Crescent West, Ontario, Canada M5S 1A8
• d Cuidado de Epidemiología Clínica y de la Salud Programa de Investigación Sunnybrook & College Salud de la Mujer Centro de Ciencias, 2075 Bayview Avenue, Toronto, Ontario, Canadá M4N 3M5
• e la División de Medicina Interna General, Sunnybrook & College Salud de la Mujer del Centro de Ciencias, 2075 Bayview Avenue, Toronto, Ontario, Canadá M4N 3M5
• http://dx.doi.org/10.1016/j.jclinepi.2004.04.003 , Cómo citar o enlazar Uso de traducción
• Permisos y reimpresiones
________________________________________
Abstracto
Objetivos
Automatizados métodos de selección de variables se utilizan con frecuencia para determinar los predictores independientes de un resultado. El objetivo de este estudio fue determinar la reproducibilidad de los modelos de regresión logística desarrollado utilizando métodos automatizados de selección de variables.
Diseño del estudio y ajuste
Un primer conjunto de 29 variables fueron considerados candidatos para la predicción de la mortalidad después de un infarto agudo de miocardio (IAM). Hicimos 1.000 muestras de arranque a partir de un conjunto de datos consta de 4.911 pacientes ingresados en el hospital con un infarto. Con cada muestra bootstrap, modelos de regresión logística que predicen mortalidad a 30 días se obtuvieron mediante la eliminación hacia atrás, la selección hacia adelante, y la selección por pasos. El acuerdo entre los diferentes métodos de selección de modelo y el acuerdo a través de las 1.000 muestras de arranque se compararon.
Resultados
Con 1.000 muestras bootstrap, eliminación hacia atrás identificado 940 modelos exclusivos para predecir la mortalidad. Se obtuvieron resultados similares para la selección hacia delante y en etapas. Tres variables fueron identificados como predictores independientes de mortalidad entre todas las muestras de arranque.Más de la mitad de las variables pronósticas candidatos fueron identificados como predictores independientes en menos de la mitad de las muestras de arranque.
Conclusión
Métodos de selección automatizados variable de resultado en los modelos que son inestables y no reproducible. Las variables seleccionadas como predictores independientes son sensibles a las fluctuaciones aleatorias en los datos.
Palabras clave
• Los modelos de regresión;
• El análisis multivariado;
• La selección de variables;
• La regresión logística;
• Infarto agudo de miocardio;
• Epidemiología
________________________________________
1. Introducción
Los investigadores son frecuentemente interesados en determinar los predictores independientes de mortalidad después de un infarto agudo de miocardio (IAM). Esto se puede realizar por varias razones. En primer lugar, la identificación de los factores de riesgo independientes para la mortalidad facilita la estratificación del riesgo, lo que permite a los médicos a optimizar el cuidado del paciente. En segundo lugar, estos modelos permiten un ajuste preciso del riesgo, lo que permite comparaciones válidas de mortalidad a través de los diferentes hospitales, médicos o regiones. En tercer lugar, estos modelos se pueden utilizar en la evaluación de nuevas terapias e intervenciones en los estudios de observación. Sin embargo, no hay consenso en la literatura en cuanto a qué variables son los predictores independientes de mortalidad tras un IAM.
Varios estudios han desarrollado modelos estadísticos para predecir la mortalidad tras un IAM. Por ejemplo, Krumholz [1] compararon el desempeño y las variables incluidas en el modelo Cooperativo Cardiovascular piloto del proyecto, el GUSTO-I modelo, la mortalidad Medicare modelo Predictor System, un modelo ICD-9 códigos, y dos modelos del Hospital de California resultados del proyecto. Los modelos difieren en términos de rendimiento y en las variables contenidas. No hay variables eran comunes a todos los modelos. Varias variables (por ejemplo, la edad y la ubicación del infarto) aparecido en la mayoría de modelos, mientras que algunos predictores apareció en sólo dos de los seis modelos. Hay varias razones para las diferencias en las variables identificadas como predictores independientes de mortalidad. En primer lugar, las poblaciones de pacientes diferían entre los estudios. En algunos estudios se basaron en los pacientes incluidos en los ensayos clínicos, mientras que otros incluyeron pacientes de la población general de IAM. En segundo lugar, los estudios difieren en términos de las variables recogidas a priori como posibles predictores de mortalidad.En tercer lugar, los estudios difieren en cuanto a los métodos estadísticos utilizados para la mortalidad modelo. Sin embargo, a pesar de estas diferencias entre los estudios, diferentes estudios identifican diferentes variables como predictores independientes de mortalidad tras un IAM.
Los investigadores desarrollar modelos para predecir la mortalidad necesidad de mantener un equilibrio entre la inclusión de demasiadas variables y parsimonia modelo [2] y [3] . La omisión de factores pronósticos importantes resultados en forma sistemática errónea estimación de los coeficientes de regresión y predicción sesgada, e incluyendo los resultados de los predictores demasiados en la pérdida de precisión en la estimación de los coeficientes de regresión y las predicciones de nuevas respuestas [2] . Los investigadores suelen utilizar métodos automatizados de selección de variables, tales como la eliminación hacia atrás o hacia delante técnicas de selección de variables, para identificar predictores independientes de mortalidad o para el desarrollo de modelos parsimoniosos regresión. Automated métodos de selección de variables se han utilizado en varios estudios que examinaron los predictores independientes de mortalidad tras un IAM [4] , [5] , [6] y [7] .
Los objetivos del presente estudio fueron (1) para determinar el grado en que la variabilidad aleatoria en un conjunto de datos puede resultar en diferentes variables están identificados como predictores independientes de la mortalidad después de un IAM (esto permite evaluar la reproducibilidad o la estabilidad de los modelos obtenidos utilizando métodos automatizados de selección de modelos) y (2) para comparar la concordancia entre los diferentes métodos de selección de modelos automatizados.
1,1. Métodos de selección de modelos
Múltiples métodos automatizados de selección de variables se han desarrollado. Los tres métodos más utilizados son la eliminación hacia atrás, la selección hacia adelante, y la selección por pasos. Miller [8] y [9] y Hocking [10] ofrecen descripciones completas de los métodos de selección de modelos. Brevemente resumir estos métodos. Eliminación hacia atrás comienza con un modelo completo que consta de todas las variables predictoras candidatos. Las variables se eliminaron secuencialmente desde el modelo hasta una regla de interrupción pre-especificado se cumple. En un punto determinado del proceso de eliminación, la variable cuya eliminación daría lugar a la menor disminución en una medida resumen se elimina. Entre las posibles medidas de resumen son desviaciones o R 2 . La regla de interrupción más común es que todas las variables que se mantienen en el modelo son significativas a un nivel de significación establecido con antelación.
Selección hacia delante comienza con el modelo vacío. Las variables se añadieron sucesivamente a una modelo hasta una regla de interrupción predefinida está satisfecho. En un punto determinado del proceso de selección, la variable cuyo Además resultaría en el mayor aumento en la medida de resumen se añade al modelo. Una regla de interrupción típico es que si cualquier variable añadido no sería significativo a un nivel de significación predefinido, entonces no hay variables adicionales se añaden al modelo.
Selección paso a paso es una variación de selección hacia adelante. En cada paso del proceso de selección de variable, después de una variable se ha añadido al modelo, las variables se permiten ser eliminados del modelo. Por ejemplo, si el significado de un predictor dado es superior a un umbral especificado, se elimina del modelo. El proceso iterativo se terminó cuando una regla de interrupción pre-especificado se cumple.
Los estadísticos tienen varias preocupaciones sobre el uso de métodos automatizados de selección de variables: (1) Es el resultado de los valores de R 2 sesgadas alta [11] y [12] , (2) que se traduce en errores estándar estimados que están sesgadas bajo [13 ] , (3) los resultados dependen de la correlación entre las variables de predicción [14] , y (4) las estadísticas de prueba ordinarios sobre la que se basan tales métodos se utiliza para las pruebas pre-especificados hipótesis [13] . Estos resultados se han demostrado en el contexto de la regresión lineal calcula utilizando mínimos cuadrados ordinarios.
...