Ejercicios métodos estadisticos
aadriiaanaa28Apuntes18 de Marzo de 2020
2.335 Palabras (10 Páginas)119 Visitas
CUESTIONARIO 10
Cuestión 1: Se determinó la mortalidad, en grupos de diez, de ratones que mueren con dosis de un determinado tipo de droga según se refleja en la siguiente tabla:
DOSIFICACIÓN | 50 | 56 | 62 | 70 | 80 |
Nº DE MUERTES | 0 | 4 | 5 | 6 | 9 |
- Realizar un análisis de regresión simple entre ambas variables.
Para el análisis tomamos como variable independiente a la dosificación o variable X, y como variable dependiente o respuesta, el nº de muertes o variable Y, por lo que debemos realizar el análisis de Y dado X.
Para comenzar, introducimos en R los valores dados y calculamos las medias de cada variable.
#obtenemos las medias de ambas variables
> X<-c(50,56,62,70,80)
> Y<-c(0,4,5,6,9)
> X_media<-mean(X)
> X_media
[1] 63.6
> Y_media<-mean(Y)
> Y_media
[1] 4.8
Ahora pasamos a calcular la covarianza de ambas variables:
[pic 1]
#calcular la covarianza de ambas variables
> X_var<-sum(X^2)/length(X)-X_media^2
> X_var
[1] 111.04
> Y_var<-sum(Y^2)/length(Y)-Y_media^2
> Y_var
[1] 8.56
> Sxy<-sum(X*Y)/length(Y)-(X_media*Y_media)
> Sxy
[1] 29.52
Continuamos con el cálculo del coeficiente de correlación, que sigue la siguiente fórmula:
[pic 2]
#calcular coeficiente de correlación
> XY_CORR<-cor(X,Y)
> XY_CORR
[1] 0.9575021
Observamos que da 0.9575 un número muy próximo a 1 por lo que existe una relación entre las variables.
Por último calculamos la recta de regresión, para las que previamente debemos calcular los valores de B0 y B1, tales que:
Y = B0 +B1 x X
#calculamos la recta de regresión para las que calculamos B0 y B1 > B1<-Sxy/X_var > B1 [1] 0.2658501 > B0<-Y_media-B1*X_media > B0 [1] -12.10807 |
Por lo que se nos queda una recta:
Y = 0.2658501 -12.10807 x X
Esto lo podemos comprobar creándonos nuestro modelo también con la función lm():
#comprobamos con la función lm:
> modelo<-lm(Y~X)
> modelo
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
-12.1081 0.2659
Como podemos ver, nos han dado los mismos valores.
A continuación realizamos una representación gráfica tanto de los datos de las variables como de nuestra recta de regresión.
#representaión gráficade los datos y de la recta de regresión
> xv<-1:100
> yv<-B1*xv+B0
> plot(Y~X, col ="red", lwd = 3)
> grid()
> points(xv,yv,type = "l", col ="blue")
[pic 3]
- Calcular la suma de cuadrados del error y realizar una prueba para la falta de ajuste. Evaluar y analizar gráficamente las relaciones y los errores residuales correspondientes.
Primero calculamos la suma de los cuadrados del error.
[pic 4]
#calculamos la suma de los cuadrados del error
> n<-length(X)
> SCE<-sum((Y-(B0+B1*X))^2)
> SCE
[1] 3.560519
Ahora tenemos que realizar la prueba para B1 = 0. Dicho análisis tiene la tabla:
[pic 5]
Para rechazar dicha hipótesis se debe cumplir que f> fa (1, n-2) para un α = 0.05.
Primero calculamos fa (1, n-2):
#Para rechazar la hipotesis, se debe de cumplir que f>fa(1,n−2)para un a=0,05, calculamos fa:
> qf(0.95,1,n-2)
[1] 10.12796
Ahora, realizamos el resto de los cálculos para obtener el valor de f:
#calculamos f:
> S_2<-(sum((Y-(B0+B1*X))^2))/(n-2)
> S_2
[1] 1.18684
> STCC<-sum((Y-Y_media)^2)
> STCC
[1] 42.8
> SCR<-STCC-SCE
> SCR
[1] 39.23948
> F_SCR<-SCR/S_2
> F_SCR
[1] 33.06216
> 1-pf(F_SCR,1,n-2)
[1] 0.01044953
Como podemos observar nos ha dado 33.06216 que es mayor que el valor de fa calculado anteriormente: 10.12796, por lo tanto, rechazamos la hipótesis de que B1 = 0 y por lo tanto podemos afirmar que los valores de Y dependen de la variable X.
Además podemos comprobar los resultados de la siguiente manera:
#comprobamos los resultados: > summary(modelo) Call: lm(formula = Y ~ X) Residuals: 1 2 3 4 5 -1.1844 1.2205 0.6254 -0.5014 -0.1599 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.10807 2.98064 -4.062 0.0269 * X 0.26585 0.04624 5.750 0.0104 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.089 on 3 degrees of freedom Multiple R-squared: 0.9168, Adjusted R-squared: 0.8891 F-statistic: 33.06 on 1 and 3 DF, p-value: 0.01045 > anova_XY<-aov(modelo) > summary(anova_XY) Df Sum Sq Mean Sq F value Pr(>F) X 1 39.24 39.24 33.06 0.0104 * Residuals 3 3.56 1.19 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 | |
Por último representamos gráficamente los errores residuales correspondientes y los cuantiles:
#representamos los errores residuales correspondientes y los cuantiles > residuals(modelo) 1 2 3 4 5 -1.1844380 1.2204611 0.6253602 -0.5014409 -0.1599424 > plot(residuals(modelo), type = "h", lwd = 3, col = "red") > abline(c(0,15),c(0,0), col = "black") > grid() > quantile(residuals(modelo)) 0% 25% 50% 75% 100% -1.1844380 -0.5014409 -0.1599424 0.6253602 1.2204611 |
[pic 6]
- Encontrar los intervalos de confianza para los coeficientes de regresión.
Para los coeficientes de regresión, los intervalos de confianza los podemos calcular usando R:
confint(modelo) 2.5 % 97.5 % (Intercept) -21.5937856 -2.6223528 X 0.1187096 0.4129907 |
d) ¿Es posible realizar predicciones con este modelo lineal?, en caso afirmativo estimar la dosis letal mínima (DLM), esto es, la dosis que matará a la mitad de los ratones.
En este caso, sí sería posible, pues ambas variables tienen una unidad de medida en las que no existe ningún tipo de límite sobre ellas, como sí podría existir en el porcentaje, cuyo límite siempre sería el 100%.
>predict(modelo, newdata = data.frame(X = 50), interval = "pred")
...