Análisis de Regresión Local
cgqeInforme26 de Enero de 2017
1.508 Palabras (7 Páginas)556 Visitas
[pic 1][pic 2]
Universidad Nacional Mayor de San Marcos[pic 3][pic 4][pic 5]
Facultad de Ciencias Matemáticas
Escuela Académico Profesional de Estadística
Análisis de Regresión
[pic 6]
Regresión Local
[pic 7]
[pic 8][pic 9]
ÍNDICE
| 3 |
| 3 |
| 5 |
| 5 |
| 6 |
| 8 |
| 9 |
| 9 |
| 9 |
BIBLIOGRAFÍA | 16 |
ANEXO: PROGRAMACIÓN EN R (SCRIPT) | 17 |
- INTRODUCCIÓN
El término “LOWESS” proviene del inglés (Locally Weighted Scatter plot Smoothing); sin embargo también se utiliza la palabra “LOESS” (Local Regression) como sinónimo. Ambos métodos realizan regresiones lineales ponderadas localmente.
La regresión ponderada localmente es un método no paramétrico, que tiene como objetivo suavizar la tendencia local en el set de datos.
Las funciones LOWESS y LOESS, realizan ajustes localmente lineal y localmente cuadrático, respectivamente.
LOESS, es un método de regresión polinomial localmente ponderada propuesto originalmente por Cleveland[1] (1979) y desarrollado posteriormente por Cleveland y Devlin (1988).
De acuerdo con Cleveland y Loader (1995) los modelos de regresión local se remontan al siglo 19. Estos autores proveen una revisión histórica del trabajo realizado a partir de ese momento. El trabajo moderno se inicia por los años 1950 en el contexto de estimación de densidades Rosenblatt (1956), Parzen (1962) y dentro del contexto de regresión Nadaraya (1964), Watson (1964).
Dicho método de regresión se caracteriza por ser una técnica más descriptiva que predictiva. Para cada punto del conjunto de datos se ajusta un polinomio de bajo grado, utilizando los valores de la variable explicativa más cercanos de dicho puntos, entorno de X. El polinomio utiliza mínimos cuadrados ponderados, dando más peso o importancia a los puntos más cercanos al punto cuya respuesta se está estimando y menos peso a los puntos más alejados.
- ¿EN QUE SITUACIÓN SE APLICA LA TÉCNICA?
Estos métodos están diseñados para abordar situaciones en que los procedimientos clásicos no resultan adecuados o suficientes. LOESS combina la sencillez de la regresión lineal por mínimos cuadrados con la flexibilidad de la regresión no lineal mediante el ajuste de modelos sencillos sobre subconjuntos locales de datos para crear una función que describe la parte determinista de la variación en los datos punto a punto. De hecho, uno de los principales atractivos de este método es que no resulta necesario especificar una función global para ajustar un modelo a los datos.
- ASPECTOS TÉCNICOS
- ESPECIFICACIÓN DEL MODELO
El objetivo del ajuste de un modelo de regresión bivariado es encontrar una relación entre variables , donde se considera que explica el valor de , utilizando los pares observados . La relación de regresión es modelada, en general, como:[pic 10][pic 11][pic 12][pic 13]
[pic 14]
con y una variable aleatoria para indicar la variación de Y alrededor de la curva de regresión dado por [pic 15][pic 16][pic 17]
Supuesto:
Los errores tiene media 0 y varianza constante
El objetivo general de la regresión local es ajustar un polinomio de grado p alrededor de un punto utilizando los datos de un entorno. Esto incluye estimación por núcleos (p=0), regresión lineal local (p=1), etc.
El principio subyacente es que una función continua puede aproximarse bien por un polinomio de grado bajo. Por ejemplo una aproximación lineal está dada por:
[pic 18]
Donde se encontrará dentro de un intervalo que contiene al punto para el cual se está realizando el ajuste, . Una aproximación cuadrática es [pic 19][pic 20]
[pic 21]
Los polinomios locales pueden ajustarse mínimos cuadrados ponderados localmente
Los pesos o factores de ponderación para la parte de mínimos cuadrados ponderados de la estimación se basan en la distancia de los puntos que se usaron en la estimación, al lugar específico de interés. Se usa la función de ponderación tricubo como la de default. Sea el lugar específico de interés, y sea la distancia del punto más alejado de la proximidad al punto específico de interés. La función de peso tricubo es:[pic 22][pic 23]
[pic 24]
En donde
[pic 25]
- ESTIMACIÓN DE LOS PARÁMETROS:
El proceso LOESS de estimación se resume como
[pic 26]
En donde S es la matriz de alisamiento creada por la regresión locamente ponderada
El concepto de suma de residuales al cuadrado lleva en forma directa a la regresión no paramétrica. En particular
[pic 27]
[pic 28]
[pic 29]
[pic 30]
En forma asintótica, estos procedimientos de alineamiento son insesgado, por consiguiente, el valor asintótico esperado de SSR es
[pic 31]
[pic 32]
Es importante observar que S es una matriz cuadrada de nxn.
Entonces, la traza[S’] = traza[S], y así
[pic 33]
En cierto sentido representa los grados de libertad asociados con el modelo total. En algunos programas de cómputo es llamada la cantidad equivalente de parámetros, y representa una medida de la complejidad de procedimiento de estimación. Un estimador común de es:[pic 34][pic 35][pic 36]
[pic 37]
Por último se puede definir una versión de como sigue:[pic 38]
[pic 39]
Cuya interpretación es la misma que antes, en los mínimos cuadrados ordinarios.
- OTROS:
Ventajas:
- La principal ventaja de LOESS es que el usuario no debe especificar ningún modelo que deba ajustarse a los datos. En su lugar solo tienen que proveer un valor de parámetro de suavizado y el grado del polinomio local.
- LOESS es una técnica de análisis muy flexible y por tanto es ideal para analizar procesos para los cuales no existen modelos teóricos.
- La técnica LOESS permite calcular la incertidumbre asociada al modelo de predicción y de calibración así como aplicar la mayoría de las pruebas y procedimientos utilizados para validar los modelos de regresión basados en mínimos cuadrados.
Desventajas:
- Hace un uso menos eficiente de los datos que otros métodos de mínimos cuadrados. Sin embargo, dados los resultados que el método proporciona, sin duda podría ser más eficiente en general, que otros métodos de estimación por ejemplo como el de mínimos cuadrados no lineales.
- LOESS no produce una función de regresión y por tanto no puede transferirse a otros usuarios.
- EJEMPLO DE APLICACIÓN
- DESCRIPCIÓN DE LOS DATOS
EJEMPLO:
Utilizamos un conjunto de datos incorporados al R cars que consiste en un data frame con la velocidad (speed en millas por hora) y la distancia que requieren para frenar (dist en pies). Los datos fueron registrados en 1920.
- RESULTADOS
Análisis de los datos:
Gráfico de dispersión:
[pic 40]
Se puede observar que los datos tienen una tendencia lineal positiva.
Interpretación: Según el grafico se puede deducir que a mayor velocidad (millas por horas) la distancia (pies) de frenado aumenta.
Comparación del modelo lineal y del modelo LOESS
...