Regresion de datos categoricos
Sebastian Molina GuillermoDocumentos de Investigación13 de Octubre de 2020
5.639 Palabras (23 Páginas)252 Visitas
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA[pic 1]
REGRESIÓN DE DATOS CATEGÓRICOS
“Complex Surveys: A Guide to Analysis Using R” - Thomas Lumley
[pic 2]
Curso:
Técnicas de Muestreo II
Docente:
Porras Cerrón, Jaime
Integrantes:
- Becerra Herrada, Nelly Magally 20010190
- Fernández Sánchez, José Rodrigo Tomás 20151233
- Molina Guillermo, Víctor Sebastián 20151241
2019
ÍNDICE
Introducción 2
Acrónimo 3
Justificación 4
Objetivos 5
Objetivo Principal: 5
Objetivos Específicos: 5
Marco Teórico 5
Regresión Logística 5
Muestreo de encuestas complejas 8
Paquete Survey, funciones aplicadas en R: 8
Procedimiento: 8
Aplicación 9
Estudio De Elecciones Nacionales Canadienses 2011, Con Actitud Hacia El Aborto 9
Data 9
Muestreo Estratificado 10
Análisis de la variable respuesta 10
Regresión Logística Binaria 11
Conclusiones 14
Recomendaciones 15
Referencias bibliográficas 15
Introducción
El presente trabajo se basa en la Regresión de Datos Categóricos, donde se analizará las técnicas para datos binarios y categóricos.
Sabemos que existen dos tipos de datos: categóricos y numéricos. Las variables categóricas presentan un número finito de valores, los cuales pueden ser nominales, ordinales, datos categorizados; pero no pueden ser continuos.
La regresión categórica cuantifica los datos asignando valores numéricos a las categorías, lo que resulta en una ecuación de regresión lineal óptima para las variables transformadas y se denomina asociación a la correlación entre las variables ordinales o nominales
Existe una serie de formas relacionadas al modelamiento de datos categóricos, como la regresión logística, regresión ordinal y modelos loglineales. La Regresión Logística agrupada, modela los datos tabulares con una variable dependiente binaria. La Regresión Logística a nivel individual, modela datos con una variable dependiente binaria y posibles covariables continuas. La Regresión Logística multinomial, utiliza una variable dependiente con más de dos categorías.
Se hace mención que, en los últimos años, con el avance de la tecnología, los paquetes estadísticos han incorporado algunas características del análisis de encuestas complejas, usando a su vez, técnicas matemáticas. Para el presente tema, Regresión de Datos Categóricos, daremos un enfoque aplicativo a las ciencias sociales como a las ciencias de la salud, haciendo uso del paquete survey del programa estadístico R v3.5.3
Resaltando que se investigará, si una o varias variables explican una variable dependiente que toma un carácter cualitativo. Se dará énfasis al rubro de salud, para dar respuesta a preguntas formuladas en base a la presencia o ausencia de una determinada característica que no es cuantificable, que representa la existencia o no de un efecto de interés, como por ejemplo el desarrollo de un «evento cardiovascular», «un paciente hospitalizado muere o no antes del alta», «se produce o no un reingreso», «un paciente desarrolla o no nefropatía diabética», etc.
Acrónimo
[pic 3] Tamaño de la población
[pic 4] Tamaño de la población del estrato [pic 5]
[pic 6] Tamaño de la muestra
[pic 7] Tamaño de la muestra por estrato [pic 8]
[pic 9] Probabilidad de la muestra por cada unidad [pic 10]
[pic 11] Observación ponderada [pic 12]
[pic 13] Estimación de [pic 14]
[pic 15] Probabilidad Inversa Ponderada
[pic 16] Probabilidad inversa del tratamiento ponderado
[pic 17] Población finita de corrección (al error estándar)
[pic 18] Valor esperado
[pic 19] Probabilidad
[pic 20] Función de influencia
[pic 21] Regresión categórica
Justificación
La importancia de esta investigación es determinar la confiabilidad de los estimadores utilizando la técnica de Regresión de Datos Categóricos, mediante el uso del paquete estadístico R.
Las variables categóricas sirven para separar grupos de casos, y la técnica estima conjuntos separados de parámetros para cada grupo. Los coeficientes estimados reflejan cómo los cambios en los predictores afectan la respuesta y la predicción de la respuesta es posible para cualquier combinación de valores del predictor.
Un enfoque alternativo implica hacer una regresión de la respuesta en los valores predictores categóricos, donde se estima un coeficiente para cada variable. Sin embargo, para las variables categóricas, los valores de categoría son arbitrarios. La codificación de las categorías de diferentes maneras produce distintos coeficientes, lo que dificulta las comparaciones entre los análisis de las variables.
El procedimiento cuantifica las variables categóricas para que reflejen las características de las categorías originales. Este procedimiento trata las variables categóricas cuantificadas de la misma manera que las variables numéricas y el uso de transformaciones no lineales permite que las variables se analicen en una variedad de niveles para encontrar el modelo más adecuado.
Mientras que la variable respuesta tenga más de dos categorías ordenadas y tengan un orden natural, la regresión ordinal será la elegida como la forma óptima de estudiar estos datos y así mejorar su análisis.
Además, tiene un aporte científico, dado que no existe en el Perú mucha información al alcance del estudiante sobre estos temas. De igual manera, se desea promover la investigación mediante la aplicación en situaciones reales.
Objetivos
Objetivo Principal:
- Estimar los parámetros en los modelos de Regresión Logística de Datos Categóricos (CATREG) aplicado a encuestas complejas.
Objetivos Específicos:
- Modelar cómo influyen las variables regresoras en la probabilidad de ocurrencia de un suceso particular.
- Aplicar la regresión logística binaria, brindando un detallado análisis de los aspectos teórico-práctico de las variables
- Aplicar e interpretar los resultados en R que permita complementar los aspectos teóricos desarrollados.
- Determinar el modelo más poderoso y mejor ajustado que siendo razonable describa la relación entre la variable respuesta y un conjunto de variables regresoras.
Marco Teórico
La mayoría de las encuestas por muestreo utilizan esquemas de muestreo más complejos que el muestreo aleatorio simple.
Regresión Logística
El análisis de regresión logística es una técnica que estudia la relación entre una o más variables independientes [pic 22] y una variable dependiente (respuesta) de tipo dicotómica.
...