Universidad del Zulia
Facultad Experimental de Ciencias
Departamento de Biología
estadística aplicada
Analisis de covarianza
El analisis de covarianza, generalmente conocido como ANCOVA, es una técnica
estadística intermedia entre el analisis de varianza (ANOVA) y el
analisis de regresión. El propósito fundamental del ANCOVA es comparar dos o mas líneas de
regresión. Recuerde que la línea
de regresión tradicional es la de la línea
recta simple, la cual viene expresada clasicamente como (donde es la variable dependiente, es la
variable independiente, es la pendiente y es el intercepto o punto donde la
recta corta el eje ). El ANCOVA es una forma de
comparar la variable entre grupos mientras que se controla
estadísticamente la variación en causada por la variación
en la variable . Por ejemplo, digamos que deseamos
saber si la rana gris de Cope, Hyla chrysoscelis,
tiene una tasa de vocalización diferente a la de la rana gris oriental,
Hyla versicolor, la cual tiene el doble de cromosomas que H chrysoscelis pero
es morfológicamente idéntica a esta.
Se ha demostrado que la tasa de vocalización de la rana gris oriental esta correlacionada con la temperatura,
de modo que se requiere controlar esto. Una forma de controlar el efecto de la
temperatura sería llevar las dosespecies de ranas al laboratorio y
mantenerlas a la misma temperatura, pero tendríamos la duda de si el
comportamiento en condiciones artificiales equivaldría al comportamiento
en la naturaleza. Adicionalmente, nos interesaría saber si una especie
tiene una mayor tasa de vocalización a una temperatura o varias
temperaturas, mientras que la otra la tenga a otras
temperaturas. Por lo tanto, sería mejor medir la tasa de
vocalización de cada especie de rana a diferentes temperaturas en la
naturaleza, y usar un ANCOVA para determinar si la línea de
regresión tasa de vocalización vs. temperatura es
significativamente diferente entre las dos especies.
En un ANCOVA se comprueban dos hipótesis nulas.
La primera es que las pendientes de las líneas de regresión son
iguales. Si no se rechaza esta hipótesis, se comprueba la segunda
hipótesis nula, es decir, que el valor del intercepto de
las líneas de regresión es el mismo. Aunque el uso
mas común del ANCOVA es para comparar dos líneas de
regresión, es posible comparar tres o mas. Si las pendientes son
iguales, entonces es posible hacer comparaciones planificadas o no planificadas
de los interceptos, al igual a las comparaciones de medias en un ANOVA.
El primer paso de un ANCOVA es obtener cada
línea de regresión. En el ejemplo de las ranas, hay dos valores
de la variable nominal, H. chrysoscelis and H.versicolor, de modo que se
calcula la línea de regresión tasa de vocalización vs
temperatura para cada especie. A continuación se comparan las pendientes
de las líneas de regresión, siendo la hipótesis nula que
las pendientes son iguales (H0: pendiente de H. chrysoscelis = pendiente de H.
versicolor). El paso
final del ANCOVA, comparar los interceptos, no puede efectuarse si las
pendientes son significativamente diferentes entre si. Si las pendientes de las
líneas de regresión son diferentes, las líneas se
entrecruzan en algún punto, lo que implicaría que un grupo tendría un mayor intercepto que el otro. Si las líneas son significativamente diferentes, el ANCOVA
se finaliza, y lo único que podemos decir es que las pendientes son
significativamente diferentes. Si las pendientes no son significativamente
diferentes, el siguiente paso del ANCOVA es dibujar
una línea de regresión para cada grupo de puntos, todos con la
misma pendiente. El paso
final de un ANCOVA es comprobar la hipótesis nula sobre los valores de
los interceptos de las líneas de regresión, es decir, determinar
si las líneas cruzan el eje en puntos diferentes.
Veamos este ejemplo. En la especie de
coleóptero Photinus ignitus, el macho transfiere un
gran espermatóforo a la hembra durante el apareamiento. Rooney y Lewis
(2002) deseaban saber si los recursos extras provistos poreste regalo nupcial
capacitaban a la hembra a producir mas descendencia. Para
eso, recolectaron 40 hembras vírgenes y aparearon 20 de ellas con un macho y las otras 20 con tres machos, y
contaron el número de huevos que cada hembra depositó. Debido a
que la fecundidad varía con el tamaño de la hembra, analizaron
los datos con ANCOVA, utilizando el peso de la hembra (antes del apareamiento) como
la variable categórica y el número de huevos depositados como la variable de
medición. La relación entre las variables se muestra en la Figura
1.
Figura 1. Huevos depositados vs peso
de la hembra para el coleóptero Photinus ignitus. Los
círculos negros representan hembras que se han
apareado con tres machos; los círculos blancos representan hembras que
se han apareado con un macho.
Las pendientes de las dos líneas de regresion (una para las hembras que
se aparearon con tres machos y otra para las hembras que se aparearon con un
solo macho) no fueron significativamente diferentes (F1
= 1,1; P = 0,30). Los interceptos fueron significativamente diferentes (F1 = 8,8; P = 0,005); las hembras que se aparearon con tres
machos tuvieron significativamente mas descendencias que las hembras que
se aparearon con un solo macho.
Veamos ahora este otro ejemplo. A
los paleontólogos les gustaría poder determinar el sexo de
losdinosaurios a partir de sus huesos fosilizados. Para determinar si
esto es factible, Prieto-Marquez y col. (2007) midieron varias
características que se piensa sirven para distinguir sexos en el
caiman Alligator mississipiensis, el cual es uno de los parientes
vivientes mas cercano a los dinosaurios. Una de las
características medidas es el ancho del canal
pélvico, el cual ellos desean estandarizar usando la longitud nariz-ano.
Las pendientes de las líneas de regresión no son
significativamente diferentes (P = 0.9101) y los interceptos si son
significativamente diferentes (P = 0,027), indicando que los machos de una
cierta longitud tienen una anchura del canal pélvico
significativamente mayor que las hembras. Sin embargo, la inspección de
la grafica (Figura 2) muestra que existe un considerable solapamiento
entre los sexos incluso después de estandarizar los valores por sexo, de
modo que no es posible determinar con seguridad el sexo de un individuo
utilizando solamente este caracter.
Figura 2. Relación longitud
nariz-ano vs ancho pélvico para el caiman Alligator
mississipiensis. La línea continua
(círculos negros) representa los machos, la línea punteada
(círculos blancos) a las hembras.
Veamos ahora cómo efectuar un ANCOVA en SAS
utilizando los datos de Prieto-Marquez y col. (2007). El programa es
elsiguiente:
DATA CAIMANES;
INPUT SEXO$ NARIZANO ANCHOPELVICO;
CARDS;
MACHO 1.10 7.62
MACHO 1.19 8.20
MACHO 1.13 8.00
MACHO 1.15 9.60
MACHO 0.96 6.50
MACHO 1.19 8.17
MACHO 1.06 7.20
MACHO 0.70 4.65
MACHO 0.70 5.04
MACHO 1.04 8.83
MACHO 1.15 8.01
MACHO 1.10 6.84
MACHO 1.15 8.37
MACHO 1.15 7.36
MACHO 0.91 6.43
MACHO 1.45 9.43
MACHO 1.22 7.70
MACHO 1.33 10.20
MACHO 1.38 9.14
HEMBRA 1.24 7.64
HEMBRA 1.02 6.31
HEMBRA 0.93 5.90
HEMBRA 0.71 4.48
HEMBRA 1.03 6.03
HEMBRA 1.02 6.60
HEMBRA 0.95 5.88
HEMBRA 1.03 6.77
HEMBRA 0.96 6.47
HEMBRA 1.16 7.56
HEMBRA 0.93 6.13
HEMBRA 1.04 6.76
HEMBRA 1.03 6.63
HEMBRA 0.93 5.93
HEMBRA 0.85 6.52
HEMBRA 1.23 9.23
;
PROC GLM DATA=CAIMANES;
CLASS SEXO;
MODEL ANCHOPELVICO = NARIZANO SEXO NARIZANO*SEXO;
PROC GLM DATA=CAIMANES;
CLASS SEXO;
MODEL ANCHOPELVICO = NARIZANO SEXO;
RUN;
El primer GLM incluye en el modelo el término de interacción
NARIZANO*SEXO. Esta parte evalúa si las pendientes de
las líneas de regresión son significativamente diferentes.
La hipótesis nula (H0) se plantea de la siguiente forma: H0: no existe
interacción entre la longitud nariz-ano y el sexo. Si esta H0 no puede
ser rechazada, entonces concluimos que las pendientes son iguales, lo cual
significa que las líneas son paralelas; es decir, no se cruzan.Si esta
H0 se rechaza, entonces concluimos que las líneas no son paralelas y que
por lo tanto se cruzan en algún punto. Recuerde que las líneas que se evalúan son las de la
relación longitud nariz-ano vs ancho pélvico para ambos sexos
(ver Figura 2). Veamos que nos dice los resultados del programa SAS; es
decir, los resultados del primer PROC GLM
Source DF Type III SS Mean Square F Value Pr > F
NARIZANO 1 33.94905462 33.94905462 88.05 F
NARIZANO 1 41.38769082 41.38769082 110.76 F
DOSIS 2 16.84380342 8.42190171 2.42 0.1083
Observemos que P = 0,1083 (>0,05), indicando que la dosis de VIAGRA no tiene
efecto sobre la líbido del paciente (recuerde que H0:
líbidoplacebo = líbidodósis baja = líbidodosis
alta). Este resultado nos asegura que el VIAGRA no es un
estimulante efectivo de la actividad sexual, ya que el placebo tiene el mismo
efecto que dosis bajas y/o altas de la droga. Sin embargo, como se
indicó arriba, se piensa que la disposición sexual de la pareja
tiene un efecto significativo sobre la respuesta sexual de un paciente que toma
VIAGRA. Veamos ahora qué sucede cuando incluimos en el analisis
el efecto del
estado anímico sexual de la pareja (es decir, la covariable). Elprograma
SAS que nos indica esto es el siguiente:
DATA VIAGRA;
INPUT DOSIS$ LIBIDOPACIENTE LIBIDOPAREJA;
CARDS;
PLACEBO 3 4
PLACEBO 2 1
PLACEBO 5 5
PLACEBO 2 1
PLACEBO 2 2
PLACEBO 2 2
PLACEBO 7 7
PLACEBO 2 4
PLACEBO 4 5
BAJA 7 5
BAJA 5 3
BAJA 3 1
BAJA 4 2
BAJA 4 2
BAJA 7 6
BAJA 5 4
BAJA 4 2
ALTA 9 1
ALTA 2 3
ALTA 6 5
ALTA 3 4
ALTA 4 3
ALTA 4 3
ALTA 4 2
ALTA 6 0
ALTA 4 1
ALTA 6 3
ALTA 2 0
ALTA 8 1
ALTA 5 0
;
PROC GLM DATA=VIAGRA;
CLASS DOSIS;
MODEL LIBIDOPACIENTE = DOSIS LIBIDOPAREJA;
RUN;
Observemos aquí que ahora aparece en MODEL la variable LIBIDOPAREJA. El
resultado de este analisis es el siguiente
Source DF Type III SS Mean Square F Value Pr > F
DOSIS 2 25.18519421 12.59259710 4.14 0.0274
LIBIDOPAREJA 1 15.07574771 15.07574771 4.96 0.0348
Observemos que en presencia de LIBIDOPAREJA el P para DOSIS ahora es 0,0274 ( F
DOSIS 2 36.55755997 18.27877998 7.48 0.0030
LIBIDOPAREJA 1 17.18222420 17.18222420 7.03 0.0139
LIBIDOPAREJA*DOSIS 2 20.42659366 10.21329683 4.18 0.0277
El P para el término de interacción es 0,0277 (