ANOVA (Análisis de varianza)
14_20091 de Julio de 2013
2.832 Palabras (12 Páginas)572 Visitas
ANOVA (Análisis de varianza)
Las pruebas de hipótesis son una herramienta útil cuando se trata de comparar dos tratamientos. La experimentación usualmente requiere comparación de más de dos tratamientos simultáneamente, es allí donde se introduce Anova (teniendo en cuenta que es un procedimiento para análisis de factores cualitativos).
El análisis de varianza se deriva de la partición de la variabilidad total en las partes que la componen. ANOVA establece que la variabilidad total en los datos, medida por la suma de cuadrados total, puede ser dividida en una suma de cuadrados de la diferencia entre los promedios de los tratamientos y el gran promedio total más una suma de cuadrados de la diferencia de las observaciones entre tratamientos del promedio del tratamiento. Anova, nos da la herramienta para distinguir si un factor afecta la respuesta en promedio.
Presunciones de anova:
1. Los errores o residuales son independientes y distribuidos de manera normal o gaussiana, con promedio equivalente a 0 y varianza constante. Si su promedio no fuese 0, el modelo estaría subestimando o sobreestimando.
2. Anova presume que todas las varianzas de los niveles del factor son iguales y toma un solo cálculo de varianza llamado Spooled o varianza conjunta.
Anova mira los promedios de cada nivel contra el promedio general y lo llama entre tratamientos. Anova queda con dos estimados de varianza, dentro y entre los niveles; con estos saca un cociente, si las 2 varianzas se parecen, es decir, el cociente es aproximadamente 1, el factor no tiene ningún impacto en la respuesta, pero si este cociente resulta ser grande, entonces el factor tiene mucho impacto en la respuesta.
Para ilustrar se presenta a continuación un ejemplo teniendo en cuenta un solo factor aleatorio:
Observaciones ( n replicas)
Niveles del factor 1 2 … n Totales
Yi. Promedios
Y
i.
1 Y11 Y21 … Yn1 Y11+ Y21+… Yn1
Y1.
2 Y12 Y22 … Yn2 Y12+ Y22+… Yn2
Y2.
.
. .
. .
. … .
. .
. …
a Y1a Y2a … Yna Y1a+ Y2a+… Yan
Ya.
Totales Y..
Y..
A partir de la anterior tabla, se presenta la forma manual de hacer Anova con el fin de entender el concepto que maneja el análisis de varianza. Inicialmente se debe calcular la suma de
cuadrados de los tratamientos:
1 a Y 2
Fuente de variación
SSTratamientos
= ( ∑Yi. ) −
n i =1 N
entre tratamientos
Donde:
n = Numero de tratamientos por cada nivel
N = Numero de tratamientos en total i = 1, 2, 3… a
Luego se debe calcular la suma de cuadrados total:
a n Y 2
SSTotal
= (∑∑Yij ) − N
i =1
j =1
Donde:
N = Numero de tratamientos en total i = 1, 2, 3… a
j = 1, 2, 3…n
Para estimar la suma de cuadrados de los errores se hace la diferencia de la suma de cuadrados total y la suma de cuadrados de los tratamientos:
SSE
= SSTotal
− SSTratamientos
Fuente de variación dentro de
los tratamientos
La tabla de Anova quedaría así:
ANOVA
Fuente de
variación Suma de
cuadrados (SS) Grados de
libertad Promedio de los
cuadrados (MS) Estadístico de
prueba Fo
Tratamientos SS tratamientos a-1 SStratamientos
a − 1 MStratamientos
MSerror
Error SS error N-a SSerror
N − a
Total SS total N-1
Experimento de un solo factor aleatorio.
Este tipo de experimento es el más sencillo y consiste en analizar un solo factor evaluado en diferentes niveles, de manera que se compara las medias de la respuesta en cada uno de esos niveles y se establece si hay diferencia entre ellas.
El modelo correspondiente a este experimento esta dado por la ecuación IV.
yij = μ + τ i + ε ij
Donde μ es un parámetro común para todos los tratamientos llamado la media general, τ representa el efecto del tratamiento i y ε ij corresponde al error que incorpora todas las fuentes de variabilidad en el experimento.
Las hipótesis evaluadas son:
H 0 :τ1 = τ 2 = ...τ a
H1 :τ1 ≠ τ 2 ≠ ...τ a
Lo que se desea investigar es si existe diferencia o no entre los niveles del factor en consideración.
Ejemplo 1 (Tomado del libro Design and analysis of Experiments, 6 edicion, pagina 70)
En muchos procesos de manufactura de circuitos integrados, los “wafers” son revestidos con una capa de material como dióxido de silicona o un metal. Luego, el material que no se necesita es removido haciendo los grabados necesarios para crear los patrones de los circuitos, interconexiones eléctricas y áreas donde se hacen los depósitos de metal. Un proceso de grabado tipo plasma es ampliamente usado para esta operación. La energía para el proceso es suplida por un generador de radio frecuencia RF que hace que el plasma sea generado en el intervalo entre electrodos. El ingeniero del proceso esta interesado en determinar si diferentes niveles de poder de la RF afecta la tasa de grabado. Debido a que se tiene un solo factor, el ingeniero ha decidido
hacer un experimento de un solo factor aleatorio con 5 replicas. Al correr el experimento se
obtuvo las siguientes respuestas:
Poder RF
(W) Tasa de grabado observada (replicas) Totales Promedios
1 2 3 4 5 Yi. Yi.
160 575 542 530 539 570 2756 551.2
180 565 593 590 579 610 2937 587.4
200 600 651 610 637 629 3127 625.4
220 725 700 715 685 710 3535 707.0
Y.. = 12,355 Y.. = 617.75
Ahora, las hipótesis que el investigador desea probar son:
Ho: Las medias de los niveles son iguales μ160 = μ180 = μ 200 = μ 220
H1: Algunas medias son diferentes
Teniendo claras las hipótesis y habiendo corrido el experimento, se procede a realizar los cálculos matemáticos que permitan llegar al estadístico de prueba Fo para tomar una decisión.
a n 2
SS = (∑∑Y 2 ) − Y..
= (5752 + 5422 + ... + 7102 ) − 12,355 = 72,209.75
Total
i =1
j =1 20
SSTrat
= ( 1
a 2
2 ..
i.
= 1 [27562 + ... + 35352 ] − 12,355 = 66,870.55
n i=1 N 5 20
SSE
= SSTotal
− SSTratamientos
= 72,209.75 − 66,870.55 = 5339.20
ANOVA
Fuente de
variación Suma de
cuadrados
(SS) Grados de
libertad Promedio de los
cuadrados (MS) Estadístico de
prueba Fo
Poder RF 66,870.55 3 66,870.55
= 22,290.18
3 22,290.18 = 66.80
333.70
Error 5339.20 16 5339.20 = 333.70
16
Total 72,209.75 19
El experimentador obtiene un valor de Fo = 66.80. Tomando un nivel de significancia de 0.05,
teniendo 3 grados de libertad del factor y 16 del error, se procede a buscar en la tabla de la
distribución F y se obtiene un valor de 3.24. Como
66.80 > 3.24 entonces se concluye que las
medias de los niveles del factor difieren y por tanto se procede a rechazar Ho.
Es importante notar que el procedimiento descrito anteriormente es hecho a mano. Para esto existen programas como Minitab quienes realizan los cálculos a partir de los datos ingresados. A continuación se ilustra el procedimiento en Minitab:
1. En el menú de stat se busca la opción anova, allí se hace doble click en la opción one way anova como muestra la figura
2. Aparece entonces una ventana que permite ingresar las columnas de valores para el análisis. En la primera casilla que dice response, se ingresa la columna que contiene los valores de la respuesta, en la siguiente casilla de factor, se ingresa la columna que tiene los niveles del factor, se dejo una confianza del 95% que equivale al nivel de
significancia de 0.05 utilizado en los cálculos manuales:
3. Al dar clik en OK se obtiene la siguiente
...