El análisis de la varianza de un
criterio (ANOVA) es una metodología para analizar la variación entre muestras y
la variación al interior de las mismas mediante la determinación de varianzas.
Es llamado de un criterio porque analiza un variable
independiente o Factor ej: Velocidad. Como
tal, es un método estadístico útil para comparar dos o
más medias poblacionales. El ANOVA de un criterio nos permite poner a prueba
hipótesis tales como
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras
independientes son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,
Como el ANOVA de un criterio es una generalización de la prueba de t para dos
muestras, los supuestos para el ANOVA de un criterio son:
1. Todas las poblaciones k son normales.
2.
El método de ANOVA con un criterio requiere del cálculo de dos estimaciones
independientes para , la varianza poblacional común.
Estas dos estimaciones se denotan por . se denomina estimación de la varianza entre muestras y se
denomina estimación de la varianza al interior de las muestras. El estadístico
tiene una distribución muestral resultando
El valor crítico para la prueba F es:
Donde el número de grados de libertad para elnumerador es k-1 y para el
denominador es k(n-1), siendo el nivel de significancia.
k = número de muestras.
El Procedimiento es el siguiente :
1. Determinar si las muestras provienen de poblaciones normales.
2. Proponer las hipótesis.
3. Encontrar las medias poblacionales y las varianzas.
4. Encontrar la estimación de la varianza al interior de las muestras y sus
grados de libertad asociados glw.
5. Calcular la gran media para la muestra de las medias
muéstrales.
6. Determinar la estimación de la varianza entre muestras y sus grados de
libertad asociados.
7. Hallar el valor del
estadístico de la prueba F
8. Calcular el valor crítico para F basado en glb y glw.
9. Decidir si se rechaza H0.
Calculo Manual
Se utilizan las fórmulas siguientes:
Suma de cuadrados total (SST o SCT)
*** ** Xi valores individuales
* *** **
X Media de medias
* * **
* **
Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr):
Media X3
*
5
5
4 *
* Media X2
Media X1
Suma de cuadrados del error (SSE o SCE):
** *
Xi Xi
*
** * ** *
*** * Xmedia 3
Xmedia 1 ** *
* Xmedia 2 Xi *
O también SCE = SCT - SCTr
Grados de libertad:
Gl. Totales = n – 1
Gl. Tratamientos = c -1
Gl. Error = n – c
Cuadrados medios (MS o CM):
CMT = SCT / Gl. SCT
CMTr = SCTr / Gl. SCTr
CME = SCE / Gl. SCE
Estadístico calculado Fc:
Fc = CMTr / CME
P value = distr.f (Fc, Gl. CMtr, Gl. CME)
F crítica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME)
Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos
de los diferentes niveles del factor tienen efecto significativo en la
respuesta
ANOVA DE DOS VIAS
(Un factor y una variable de bloqueo)
Primitivo Reyes Aguilar
Septiembre de 2007
ANALISIS DE VARIANZA DE DOS VÍAS o DIRECCIONES
(ANOVA 2 VIAS)
1. Introducción
En este caso las fórmulas son parecidas a la del ANOVA
de una vía pero ahora agregando el cálculo por renglones adicional al de
columnas donde se incluye la variable de bloqueo.
Se trata de bloquear un factor externo que
probablemente tenga efecto en la respuesta
pero que no hay interés en probar su influencia, sólo se bloquea para mininizar
la variabilidad de este factor externo, evitando que contamine la prueba de
igualdad entre los tratamientos.
Los tratamientos se asignan a las columnas ylos bloques a los
renglones. Un bloque indica condiciones
similares de los sujetos al experimentar con diferentes tratamientos.
Las hipótesis son
Ho: No hay diferencia en las medias del factor
de columna
Ha: Al menos una media del
factor de columna es diferente
Ho: No hay diferencia en las medias de la variable de renglón
Ha: Al menos una media de la variable de renglón es diferente
2. Ejemplos con cálculo manual
Ejemplo 1.
Suponiendo que se quiere investigar si la producción de tres diferentes
máquinas es igual, tomando en cuenta la experiencia de los operadores a un nivel de significancia del 5%.
Experiencia Máquinas
de ops. En años Maq 1 Maq 2 Maq 3 Promedios
1 27 21 25 24.33333
2 31 33 35 33
3 42 39
39 40
4 38 41 37 38.66667
5 45 46 45 45.33333
Promedios 36.6 36 36.2 36.26667
TABLA ANOVA
SS GL CM Fc Falfa
SCTR= 0.933333 2 CMTR= 0.466667 Ftr = 0.09 4.46
SCBL= 764.9333 4 CMBL= 191.2333 Fbl = 37.25 3.84
SCE = 41.06667 8 CME= 5.133333
SCT = 806.9333 14 CMT= 57.6381
Conclusión: No hay diferencia entre máquinas a pesar de la diferencia en
experiencia de los operadores.
Ejemplo 2
Una empresa de taxis intenta crear un sistema de rutas
que minimice el tiempo que se pasa manejando a ciertaslocalidades. El tiempo
que toma viajar en cada ruta por los taxis se muestra a continuación
Var. Bloqueo Factor - Ruta
Taxista 1 2 3 4
1 12 15 17 13
2 18 18 18 17
3 10 11 15 9
4 13 12 12 15
5 18 14 12 15
y si afecta el taxista.
Var. Bloqueo Factor - Ruta
Taxista 1 2 3 4
1 12 15 17 13
2 18 18 18 17
3 10 11 15 9
4 13 12 12 15
5 18 14 12 15
14.2 14 14.8 13.8
X 14.2
A 4.84 0.64 7.84 1.44
B 14.44 14.44 14.44 7.84
C 17.64 10.24 0.64 27.04
D 1.44 4.84 4.84 0.64
E 14.44 0.04 4.84 0.64
SCT 153.2
r 5 rj*(Xj - X)^2
0 0.2 1.8 0.8
SCTR 2.8
c 4
c*(Xi-X)^2
0.01 SCBL 92.2
50.41
34.81
5.76
1.21
SCE = SCT - SCTR - SCBL
SCE 58.2
TABLA ANOVA
Fuente de Variación SC g.l. CM FC
Columnas 2.8 3 0.9333333 0.1924399
Renglones 92.2 4 23.05 4.7525773
Error 58.2 12 4.85
Total 153.2
Conclusión: No hay diferencia en la tiempo por las rutas a pesar de diferencias
en taxistas
DMS Prueba de TUKEY
Renglones 5 Alfa 0.05%
Columnas 4
(n) datos 20
n-c 16
CME 4.85
Obteniendo q de tablas = 4.05
Diferencias Significativas
x1-x2 3.5 No
x1-x3 3 No
x1-x4 1.25 No
x1-x5 0.5 No
x2-x3 6.5 Significativas
x2-x4 4.75 Significativas
x2-x5 3 No
x3-x4 1.75 No
x3-x5 3.5No
x4-x5 1.75 No
F = DISTR.F.INV(alfa, gl. =1, gl. CME =12)
F = 4.7472
DMS = 2.1459
Conclusión: Medias Poblacionales de taxistas diferentes
Ejemplo 3 (Problema 4.1 del Texto de Montgomery, Análisis y diseño de
experimentos)
Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia
de un tipo particular de tela. Debido a que podría haber
variabilidad de un rollo de tela a otro, el químico decide usar un diseño de
bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona 5 rollos
y aplica los 4 agentes químicos de manera aleatoria a cada rollo. A continuación se presentan las resistencias a la tención
resultantes. Analizar los datos de este
experimento (utilizar α=0.05) y sacar las conclusiones apropiadas.
Rollo
Agente Químico 1 2 3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69
Solución
Rollo Yi. Y (gran promedio)
Agente Químico 1 2 3 4 5
1 73 68 74 71 67 70.6 71.75
2 73 67 75 72 70 71.4
3 75 68 78 73 68 72.4
4 73 71 75 75 69 72.6
Y.j 73.5 68.5 75.5 72.75 68.5
Yijestimada (FITS)
72.35 67.35 74.35 71.6 67.35
73.15 68.15 75.15 72.4 68.15
74.15 69.15 76.15 73.4 69.15
74.35 69.35 76.35 73.6 69.35
Residuos (Eij)
0.65 0.65 -0.35 -0.6 -0.35-0.15 -1.15 -0.15 -0.4 1.85
0.85 -1.15 1.85 -0.4 -1.15
-1.35 1.65 -1.35 1.4 -0.35
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN Cuenta Suma Promedio Varianza
Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1
Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.916666667
Columna 5 4 274 68.5 1.666666667
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los
cuadrados F Probabilidad Valor crítico para F
Filas 12.95 3 4.31666667 2.376146789 0.12114447 3.4902948
Columnas 157 4 39.25 21.60550459 2.05918E-05 3.2591667
Error 21.8 12 1.81666667
Total 191.75 19
Para el caso de los agentes químicos que son los renglones:
La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el
valor Fc calculado es de 2.37 por lo tanto no cae en la zona de rechazo.
Calculo del valor P 0.12114447
Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma
el no rechazo.
Para el caso de los rollos que son las columnas
La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor
Fc calculado es 21.60 por lo tanto cae en la zona de rechazo.Calculo del valor
P 3.96618E-05
Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto
confirma el rechazo.
3. Procedimiento en Excel
 En el menú herramientas seleccione la opción análisis de datos, en
funciones para análisis seleccione análisis de varianza de dos factores con una
sola muestra por grupo.
 En Rango de entrada seleccionar la matriz de datos.
 Alfa = 0.05
 En Rango de salida indicar la celda donde se iniciará la presentación de
resultados.
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN Cuenta Suma Promedio Varianza
Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1
Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.92
Columna 5 4 274 68.5 1.67
ANÁLISIS DE VARIANZA
Fuente de Suma de Grados de Cuadrados Fc Probabilidad F tablas
variación Cuadrados libertad medios Valor P
Filas 12.95 3 4.32 2.38 0.12 3.49
Columnas 157 4 39.25 21.61 2.06E-05 3.26
Error 21.8 12 1.82
Total 191.75 19
Total 231 24
En la tabla observamos que el estadístico de prueba Fc es menor al valor
crítico para F 2.38 One two Way
ResponseRespuesta, indicar Row factor y Column Factor, Seleccionar s! Display
Means
Seleccionar s! Store Residuals s! Store Fits Confidence level 95%
Graphs
Seleccionar Normal plot of residuals
OK
Resultados
La gráfica normal de residuos debe mostrar los residuos aproximados por una
recta para validar el modelo:
Los residuos se aproximan a la distribución normal por lo cual se concluye que
se está utilizando un modelo válido.
Two-way ANOVA: Resistencia versus Agente
Químico, Rollo
Source DF SS MS F P
Agente Químico 3 12.95 4.3167 2.38 0.121
Rollo 4 157.00 39.2500 21.61 0.000
Error 12 21.80 1.8167
Total 19 191.75
S = 1.348 R-Sq = 88.63% R-Sq(adj) = 82.00%
Como el valor de P es menor a 0.05 el Rollo
tiene influencia significativa en la resistencia.
Individual 95% CIs For Mean Based on
Agente Pooled StDev
Químico Mean ---+---------+---------+---------+------
1 70.6 (----------*----------)
2 71.4 (----------*----------)
3 72.4 (----------*----------)
4 72.6 (----------*----------)
---+---------+---------+---------+------
69.670.8 72.0 73.2
Individual 95% CIs For Mean Based on
Pooled StDev
Rollo Mean --+---------+---------+---------+-------
1 73.50 (-----*-----)
2 68.50 (-----*-----)
3 75.50 (-----*-----)
4 72.75 (-----*-----)
5 68.50 (-----*-----)
--+---------+---------+---------+-------
67.5 70.0 72.5 75.0
Se seleccionarían en 2s y 5s rollo ya que tienen los valores más pequeños.
Los Fits y los residuales coinciden con los valores determinados en Excel.
Resp Columna Fila RESI1 FITS1 RESI2 FITS2
73 1 1 0.65 72.35 0.65 72.35
73 1 2 -0.15 73.15 -0.15 73.15
75 1 3 0.85 74.15 0.85 74.15
73 1 4 -1.35 74.35 -1.35 74.35
68 2 1 0.65 67.35 0.65 67.35
67 2 2 -1.15 68.15 -1.15 68.15
68 2 3 -1.15 69.15 -1.15 69.15
71 2 4 1.65 69.35 1.65 69.35
74 3 1 -0.35 74.35 -0.35 74.35
75 3 2 -0.15 75.15 -0.15 75.15
78 3 3 1.85 76.15 1.85 76.15
75 3 4 -1.35 76.35 -1.35 76.35
71 4 1 -0.6 71.6 -0.6 71.6
72 4 2 -0.4 72.4 -0.4 72.4
73 4 3 -0.4 73.4 -0.4 73.4
75 4 4 1.4 73.6 1.4 73.6
67 5 1 -0.35 67.35 -0.35 67.35
70 5 2 1.85 68.15 1.85 68.15
68 5 3 -1.15 69.15 -1.15 69.15
69 5 4 -0.35 69.35 -0.35 69.35