Métodos para la prueba Regresión lineal múltiple
Pablo Lord Negrvm EscobarSíntesis1 de Noviembre de 2018
1.926 Palabras (8 Páginas)396 Visitas
Métodos para la prueba
Regresión lineal múltiple
Objetivo
Explicar la influencia de los factores de la variable a estudiar, predecir el valor de la variable dependiente.
Tipo de estructura
Dependencia
Escala de variables
- Variable Dependiente: Cuantitativa
- Escala Factores: Cuantitativos
Características / Método / Idea
La idea es comprobar que las variables a utilizar realmente influyan en el fenómeno determinado. (Mínimos cuadrados, relación entre variables, método de estimación de máxima verosimilitud)
Supuesto
- Que sean variables cuantitativas
- Variables independientes no deben estar altamente correlacionadas
- La relación entre la variable dependiente y las variables independientes deben ser lineales.
Formato de resultado
- Ecuación lineal del modelo Y=a+bx+e
- Gráfico de dispersión
- Coeficientes B
Validación / Calidad
- R cuadrado
- R cuadrado ajustado
- Durbin-Watson
- Prueba ANOVA
- Pruebas de hipótesis para los coeficientes
Modelos Lineales ANOVA
Objetivo
Explicar y Predecir los resultados de una variable dependiente.
Tipo de estructura
Dependencia
Escala de variables
- Variable Dependiente: cuantitativa
- Factores: Cualitativa
Características / Método / Idea
Comparar Varianzas
Supuesto
- Dependiente sea normal
- Muestras independientes
- Poblaciones iguales
Formato de resultado
Validación / Calidad
Significación de F
Modelos Lineales Generalizados
Objetivo
Explicar el comportamiento de las variables dependientes en relación con las variables independientes, predecir
Tipo de estructura
- Dependencia: 1 variable dependiente
- k-factores
Escala de variables
- Variable dependiente: de cualquier tipo, Numérica (discreta o continua), Categóricas (dicotómicas, poliatómicas nominal, poliatómica ordinal)
- FACTORES: de cualquier tipo
Características / Método / Idea
Se necesita un componente aleatorio, un componente sistemático y una función de enlace. Miembro de la familia exponencial. Pueden utilizarse dos métodos para calcular los coeficientes de Beta, método de máxima verosimilitud y el método de mínimos cuadrados generalizados.
Supuesto
Se debe cumplir con los siguientes supuestos:
- Linealidad de los parámetros
- Especificación correcta
- Grados de libertad positivos
- Parámetros constantes
- Independencia lineal entre las variables explicativas
- Regresores(errores) no estocásticos
- Error con esperanza nula
- Varianza constante u homocedasticidad
- Ausencia de autocorrelación.
Formato de resultado
Y =𝐹(β0+β1X1+β2x2+…+β𝑛xn)+ξ Valores de los beta
Validación / Calidad
- R cuadrado ajustado
- R cuadrado,
- Durwin Watson
- P valor de los coeficientes
- Akaike
Datos de panel
Objetivo
Explicar una variable a estudiar junto a los factores que pueden influir en dicha variable durante un periodo de tiempo determinado
Tipo de estructura
Dependencia
Escala de variables
- Variable Dependiente: Cuantitativo + factor tiempo+ factor grupo (cualitativo)
- Atributos independientes: cualitativos - Cuantitativos
Características / Método / Idea
- Qué factor influye
- Estimar el efecto del tiempo
- Estimar efecto de los grupos (anova)
Supuesto
Tener información de al menos 10 años y una muestra de 15 individuos
Formato de resultado
Validación / Calidad
- R cuadrado
- Durbin-Watson,
- AKAIKE
- pruebas para los coeficientes
Modelos de Serie de Tiempo
Objetivo
Usar valores del pasado, para predecir en un futuro
Tipo de estructura
Dependencia
variable dependiente y factores de tiempo
Escala de variables
- Variable dependiente: Cuantitativas
- Factores: observaciones de la variable dependiente
Características / Método / Idea
- Identificar las componentes de la serie (tendencia, estacionalidad, ciclos, variaciones irregulares)
- Modelo ARIMA:
- Recoger datos
- Representar y transformar la serie
- Eliminar la tendencia
- Identificar el modelo
- Estimar los coeficientes
- Seleccionar el modelo
- Predecir
Supuesto
Recopilación de datos mayor a 60, periodo de tiempo mayor a 5 años, la serie debe ser estacionaria, debe ser ruido blanco, los datos deben ser longitudinales.
Formato de resultado
Coeficientes de la Ecuación del modelo, donde se obtiene valor de la serie en el tiempo t, valores de la serie en el pasado y el error.
Validación / Calidad
Error medio, criterio de akaike, prueba para los coeficientes
Árbol de Segmentación Chaid
Objetivo
Dividir una población en segmentos que difieren respecto a un criterio definido (una variable dependiente)
Tipo de estructura
Dependencia
Escala de variables
- Variable dependiente: Binaria o nominal
- Variables independientes: Categóricas
Características / Método / Idea
- Fundir Categoría: Consiste en eliminar las variables categóricas de los factores que se comportan de la misma manera respecto a la variable dependiente.
- Aplicar CHI-CUADRADO: Se aplica Chi-cuadrado a los factores y seleccionar aquellos que sean más significativos, es decir, que posean p-valor menor a 0.05.
- Repetir paso dos, hasta que no queden más variables significativas.
Supuesto
Se requieren muestras grandes y muchas variables categóricas.
Formato de resultado
- Tabla que proporciona información acerca del modelo.
- Diagrama del árbol.
- Las variables de predicción del modelo añadidas al conjunto de datos activo.
Validación / Calidad
A través de la validación cruzada, las tablas de clasificación (esta tabla muestra el número de casos clasificados correcta e incorrectamente en el modelo).
y la tabla de riesgo. (Estimación del riesgo y su error típico. Una medida de la precisión predictiva del árbol).
Se utiliza el algoritmo de segmentación a través de CHI-cuadrado. Razón de verosimilitud y Método de Pearson (contraste de Homogeneidad y heterogeneidad)
Clúster Jerárquico
Objetivo
Agrupar individuos en función de los valores de variables. Crear grupos de individuos con características similares
Tipo de estructura
Técnica de interdependencia
Escala de variables
- Cuantitativa
- Cualitativas
- Distancias
Características / Método / Idea
m objetos individuales y n características o variables.
Pasos:
- Elegir distancias las distancias entre individuos: Distancia de Manhattan, Euclídea y Minkowsky.
- Elegir Método de formación de grupos:
- Vecino más próximo (Single linkage)
- Vecino más lejano (completo linkage)
- Grupo mediano (Group Average)
- Método del centroide
- Cluster mediano
- Método de Ward
Supuesto
las variables deben ser independientes y los valores no deben ser atípicos. variables no medidas en unidades diferentes, no deben ser muchas variables. Poseer la matriz de datos sin dimensiones ni grupos creados, metodología a priori. (los más importante la elección de las variables)
...