REGRESION LINEAL
heberjose_07096 de Julio de 2013
4.174 Palabras (17 Páginas)326 Visitas
REGRESION LINEAL
La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definida anteriormente sea algo de la forma.
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
Con el menor error posible entre e Y, o bien
De forma que sea una variable que toma valores próximos a cero.
El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable dependiente (Y) y una o más variables independientes. Para poder realizar esta investigación, se debe postular una relación funcional entre las variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta:
Donde los coeficientes b0 y b1 son parámetros que definen la posición e inclinación de la recta. (Nótese que hemos usado el símbolo especial para representar el valor de Y calculado por la recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta distinción.)
El parámetro b0, conocido como la "ordenada en el origen," nos indica cuánto es Y cuando X = 0. El parámetro b1, conocido como la "pendiente," nos indica cuánto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X. En el análisis de regresión, estas estimaciones se obtienen por medio del método de mínimos cuadrados.
EJEMPLOS:
Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos mensuales de producción y costos de operación para una empresa británica de transporte de pasajeros por carretera durante los años 1949-52 (la producción se mide en términos de miles de millas-vehículo recorridas por mes, y los costos se miden en términos de miles de libras por mes). Para poder visualizar el grado de relación que existe entre las variables, como primer paso en el análisis es conveniente elaborar un diagrama de dispersión, que es una representación en un sistema de coordenadas cartesianas de los datos numéricos observados. En el diagrama resultante, en el eje X se miden las millas-vehículo recorridas, y en el eje Y se mide el costo de operación mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehículo y costos de operación) que corresponde a un mes determinado. Como era de esperarse, existe una relación positiva entre estas variables: una mayor cantidad de millas-vehículo recorridas corresponde un mayor nivel de costos de operación.
Cuadro1.
Operaciones Mensuales en
una Empresa de Transporte de Pasajeros.
Costos Millas
Totales Vehículo
(miles) (miles)
Mes Nº Y X
________________________________________
1 213.9 3147
2 212.6 3160
3 215.3 3197
4 215.3 3173
5 215.4 3292
6 228.2 3561
7 245.6 4013
8 259.9 4244
9 250.9 4159
10 234.5 3776
11 205.9 3232
12 202.7 3141
13 198.5 2928
14 195.6 3063
15 200.4 3096
16 200.1 3096
17 201.5 3158
18 213.2 3338
19 219.5 3492
20 243.7 4019
21 262.3 4394
22 252.3 4251
23 224.4 3844
24 215.3 3276
25 202.5 3184
26 200.7 3037
27 201.8 3142
28 202.1 3159
29 200.4 3139
30 209.3 3203
31 213.9 3307
32 227.0 3585
33 246.4 4073
________________________________________
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de "dispersión": no existe una relación matemáticamente exacta entre las variables, ya que no toda la variación en el costo de operación puede ser explicada por la variación en las millas-vehículo. Si entre estas variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo largo de la recta de regresión, que también ha sido trazada y que muestra la relación "promedio" que existe entre las dos variables. En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la recta, sino que están "dispersos" en torno a ella. Esta dispersión representa la variación en Y que no puede atribuirse a la variación en X.
EJEMPLO 2:
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solución:
Lo que se busca es la recta, , que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:
Así, el modelo lineal consiste en:
Por tanto, si x=15, el modelo lineal predice un valor de Y de:
EJEMPLO 3:
SOLUCION:
CALCULOS DE:
INTERVALOS DE CONFIANZA PARA LOS COEFICIENTES DEL MODELO DE REGRESIÓN.
A partir de estos estadísticos se pueden obtener intervalos de confianza de la varianza poblacional §, y de los coeficientes α y β.
EJEMPLOS:
SOLUCION:
PREDICCION
Un problema muy importante en el análisis de regresión es determinar cuales de las variables de predicción en la lista inicial deberán incluirse en el modelo de regresión. En casi todas las ocasiones, un investigador decidirá, de una lista inicial de variables de predicci6n, a aquellas que tienen la mayor probabilidad de contener los factores mas importantes para la respuesta dada. Por 10 tanto, es necesario tener una manera de determinar, de la lista inicial de variables de predicción, a aquellas que parecen ser las mejores para describir el cambio en la respuesta promedio, y de esta forma proporcionaran una ecuación de predicción representativa de las condiciones bajo las cuales se recabaron los datos. La palabra "mejores" no debe interpretarse como poseedora de la connotación teórica de optimo; esta debe considerarse como representativa de los medios por los cuales se aíslan las características mas sobresalientes, de tal manera que puede llevarse a cabo un análisis significativo.
Sea k el numero inicial de potenciales variables de predicción; el numero de términos N en el modelo lineal completo, incluyendo al termino constante, es m = k + l, Un procedimiento que es muy recomendable para determinar el mejor conjunto de variables de predicci6n por incluir en la ecuaci6n de regresión es calcular y comparar todas las posibles 2* ecuaciones de regresi6n. Con este proceso se tendría una ecuación, la cual no contiene ninguna variable de predicción (Y = Y), k ecuaciones cada una con una variable de predicción, k(k - 1)/2 ecuaciones con dos variables de. Predicción y así sucesivamente. El procedimiento proporciona al investigador la oportunidad de evaluar y comparar todas las ecuaciones de regresión y, con base en la investigación de todas las discrepancias aparentes, debe surgir la mejor ecuación.
Dado que hoy en día la capacidad de compute es muy extensa, la determinación de todas las posibles ecuaciones de regresión es el mejor método, aun si k tiene un valor tan grande como 9 0 10.
EJEMPLO:
SOLUCION:
...