REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Lospajoy3 de Julio de 2014
3.736 Palabras (15 Páginas)496 Visitas
Clase 5
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
CONCEPTO:
En muchas ocasiones surge la necesidad de estudiar la relación que existe entre dos variables. Por ejemplo, puede interesar la relación entre peso y estatura, presión sanguínea y edad, etc. La naturaleza e intensidad de relaciones entre variables como las descriptas anteriormente son estudiadas por medio de los análisis de regresión y correlación.
El análisis de regresión es útil para estudiar la forma probable de las relaciones entre las variables, y su objetivo final es predecir o estimar el valor de una variable que corresponde al valor dado de otra variable.
El análisis de correlación por otro lado estudia la intensidad de la relación entre variables. En este caso se está interesado en el grado de correlación entre las variables.
Ambos análisis están muy relacionados.
ANÁLISIS DE CORRELACIÓN:
En este caso el objetivo es únicamente obtener una medida de la intensidad de la relación entre dos variables. El coeficiente utilizado para indicar esta intensidad es el coeficiente de correlación lineal de Pearson.
Antes de desarrollar este coeficiente se va a desarrollar el concepto de covarianza que está muy relacionado con el mismo.
Covarianza:
Esta representa una medida de variabilidad conjunta entre dos variables. Anteriormente se desarrolló el concepto de varianza como medida de variabilidad de una sola variable.
La covarianza (o covariancia) se define como:
donde:
Si el resultado es positivo indica que al aumentar el valor de una variable también aumenta el de la otra o al disminuir el de una, disminuye el de la otra. Por el contrario si la covarianza es negativa indica comportamientos opuestos de las variables estudiadas.
Coeficiente de correlación lineal de Pearson (r):
Como se estableció previamente este coeficiente se utiliza para indicar el grado de relación lineal que existe entre las variables x e y.
Se lo define como:
donde
O como fórmula de cálculo se lo puede definir de la siguiente manera:
Las sumatorias en la fórmula anterior se realizan sobre las n observaciones.
Los valores de este coeficiente se encuentran entre –1 y 1, esto es
La interpretación de estos valores es la siguiente:
Si r = 1 indica que entre x e y existe una relación lineal positiva perfecta. Esto es, x e y se hallan formando una recta ascendente
Si r = -1 indica que entre x e y existe una relación lineal negativa perfecta. Esto es, x e y se hallan formando una recta descendente
Si r = 0 indica que entre x e y no existe una relación lineal.
Por lo tanto a medida que el valor del coeficiente se acerca a 1 indica que ambas variables están fuertemente correlacionadas y de manera positiva o sea que ambas variables varían en el mismo sentido, al aumentar una aumenta la otra o al disminuir una disminuye la otra. Cuando el coeficiente se acerca a –1 indica que ambas variables están fuertemente correlacionadas y de manera negativa o sea que ambas variables varían en sentido opuesto, al aumentar una disminuye la otra.
Por otro lado si el valor de r es próximo a 0 indica ausencia de correlación lineal entre ambas variables, puede existir otro tipo de relación entre las mismas (por ejemplo curvilínea). Para el estudio de la relación entre dos variables es importante comenzar con un diagrama de dispersión de los datos que permita observar la posible relación entre las variables.
Correlación positiva Correlación negativa
Ausencia de correlación
La observación de la distribución de los puntos en el gráfico es de gran ayuda para establecer la naturaleza de la correlación. Por ello es aconsejable en este tipo de estudios realizar en primer término gráficos de dispersión.
Ejemplo
Se obtuvieron lecturas de la presión sanguínea mediante dos métodos distintos en 10 pacientes con hipertensión arterial. Las lecturas sistólicas obtenidas mediante los dos métodos se muestran en la siguiente tabla:
(ejemplo modificado de “Bioestadística: Base para el análisis de ciencias de la salud” de W. Daniel)
Paciente Método I(x) Método II(y)
1 130 132
2 140 146
3 150 158
4 160 162
5 178 174
6 168 172
7 174 178
8 186 188
9 196 210
10 210 216
Se realiza un gráfico de dispersión de los datos.
Representación gráfica
Se observa a través de este gráfico una fuerte correlación positiva. A continuación se realizan los cálculos intermedios para la obtención del coeficiente de correlación lineal de Pearson.
x y X2 Y2 xy
130.00 132.00 16900.00 17424.00 17160.00
140.00 146.00 19600.00 21316.00 20440.00
150.00 158.00 22500.00 24964.00 23700.00
160.00 162.00 25600.00 26244.00 25920.00
178.00 174.00 31684.00 30276.00 30972.00
168.00 172.00 28224.00 29584.00 28896.00
174.00 178.00 30276.00 31684.00 30972.00
186.00 188.00 34596.00 35344.00 34968.00
196.00 210.00 38416.00 44100.00 41160.00
210.00 216.00 44100.00 46656.00 45360.00
1692 1736 291896 307592 299548
Este valor indica una buena correlación positiva, lo cual se puede observar ya en el gráfico de dispersión. Existen en análisis estadísticos más avanzados maneras de probar (a través de pruebas de hipótesis) la significación de este coeficiente.
ANÁLISIS DE REGRESION:
El objetivo de este tipo de análisis es describir la forma o naturaleza de la relación entre dos variables mediante una ecuación matemática.
Para poder desarrollar este tipo de análisis se siguen los siguientes pasos.
Tomar una muestra de n observaciones en las que se consideran dos variables, una variable x independiente, considerada libre de error es decir una variable fijada de antemano y una variable y, variable dependiente, considerada variable aleatoria, o sea una de las posibles respuestas de la variable y a la variable x. Se tienen entonces un conjunto de n pares de la forma (x,y)
Realizar un diagrama de dispersión de las variables (x,y) en un sistema de coordenadas cartesianas (ya visto en unidades anteriores)
En base al diagrama anterior y si se considera apropiado un modelo de recta, encontrar la ecuación de la recta que mejor ajuste (o represente) a todos los puntos del diagrama. A través de esta ecuación es posible predecir el valor de y para un determinado valor de x.
Modelo lineal de regresión:
Cuando se trata de estimar se parte de la propuesta de un modelo para la población. A partir de este modelo supuesto y mediante análisis estadísticos apropiados se estiman los parámetros de este modelo.
En el análisis de dos variables interesa un modelo particular, en este caso la recta de regresión de la población. Esta recta, que se refiere a la población, no puede ser conocida y por tanto, debe ser estimada con base en los datos muestrales y se obtiene la recta de regresión estimada. Para dar validez a las conclusiones acerca de la citada recta, se deben establecer ciertos supuestos. Entre los de mayor relevancia y los que particularmente en esta clase se van a necesitar (para inferencias en regresión se necesitan de procedimientos estadísticos más avanzados y de supuestos adicionales) se establecen los siguientes:
1. Los valores de la variable independiente x se toman previamente y de manera arbitraria; se considera que tales valores están libres de errores y se la considera una variable determinística, esto significa que su valor está prefijado de antemano en la experiencia. La variable dependiente y se considera de naturaleza aleatoria y su valor es sólo una respuesta de las tantas que pueden corresponder a un mismo valor de x.
2. Se supone que en la realidad entre x e y existe una verdadera relación dada por la ecuación
donde ordenada al origen , o sea el punto donde la recta corta al eje vertical (eje de las
ordenadas, de las “y”)
pendiente, representa el cambio en la variable y por unidad de cambio de la variable x
error aleatorio determinado por la diferencia entre yi y el valor esperado de y como variable aleatoria determinada para la x en particular. No se agregarán otros supuestos sobre estos errores que son necesarios cuando se realiza un análisis inferencial en regresión.
Los parámetros poblacionales y deben
...