Download Apuntes bloques y factorial

Document related concepts
no text concepts found
Transcript
Análisis de un diseño en bloques aleatorios1
Cuando sólo hay dos tratamientos, el análisis de varianza de una vía equivale al test t de Student para muestras
independientes. A su vez, el análisis de varianza para el diseño en bloques con dos tratamientos, equivale a la
dócima de t de Student para muestras pareadas.
Como ya se vio anteriormente, cuando se comparan más de dos pares de tratamientos, la dócima de t de Student no
conserva el nivel de significación correspondiente y es más correcto utilizar el análisis de varianza.
El diseño en bloques aleatorios es apropiado y eficiente cuando se desea investigar las diferencias entre los
promedios de k tratamientos en condiciones homogéneas, vale decir, eliminando las diferencias iniciales entre las
unidades experimentales. Estas condiciones homogéneas pueden ser: parcelas de terreno, lotes de producción,
camadas de ratones, o una misma persona sometida a diferentes tratamientos. Se supone que la variabilidad de las
unidades experimentales entre parcelas, lotes, camadas o personas, es mayor que dentro de esos “bloques”. Por tanto,
al adjudicar los k tratamientos aleatoriamente a las unidades que constituyen un bloque, se obtiene un efecto de
tratamiento limpio de esa variación entre bloques que podría llegar a encubrir la diferencia entre tratamientos.
Comparando con el diseño completamente aleatorio, se tiene por tanto una fuente de variación adicional a las “entre
tratamientos” y “dentro de tratamientos”: la variación “entre bloques”. La suma de cuadrados correspondiente se
simbolizará por SCB. Los grados de libertad para el cálculo de CMB serán: b − 1 , el número de bloques menos 1.
La SCB se calcula usando los valores de las sumas de los yij pertenecientes a cada uno de los bloques:
SCB = k
∑ (y
b
− y)
2
bloques
y la tabla de ANOVA será:
Fuente de variación
Gl
Grados de libertad
SC
Suma de Cuadrados
k −1
SCE = b∑ ( y tr − y )
k
Entre tratamientos
CM
Cuadrados Medios
SCE
k −1
2
trat
Bloques
b −1
SCB = k
∑ (y
bl
− y)
bloques
Residual
n −1
SCB
b −1
SCR
(k − 1)(b − 1)
(k − 1)(b − 1)
n
Total
2
SCT = ∑ ( y i − y )
2
i =1
Nota: la suma de cuadrados entre tratamientos es la misma (escrita de otra manera) para el ANOVA de una vía. Lo
que cambia es lo que llamamos suma de cuadrados dentro de tratamientos que ahora se dividió entre las SC de
Bloques y la SC Residual.
Ejemplo:
Se tienen tres especies de cítricos a los cuales se mide la razón entre el área de las hojas y el peso seco, bajo 3
condiciones de sombra (sol, semisombra y sombra). Datos provenientes de Snedecor, Cochran (1989) Statistical
Methods, 8th Ed. Iowa State Press. Página 256.
1
Adaptado de Capítulo 19 de Taucher (1997) Bioestadística, Ed. Universitaria.
1
Sombra
Sol
Semisombra
Sombra
Naranja Shamouti
112
86
80
Especie
Pomelo Marsh
90
73
62
Mandarina Clementine
123
89
81
En este problema no interesa determinar si hay diferencias entre las condiciones de sombra (bloques), supuesto para
haber decidido este diseño, sino que interesa analizar si las tres especies difieren en sus resultados.
Para el análisis usamos SPSS (Instrucciones: Analizar - Modelo Lineal General - Univariante - Modelo Personalizado - Efectos Principales - Tipo III y no incluir la intersección en el modelo).
La tabla de análisis de varianza es entonces:
Pruebas de los efectos inter-sujetos
Variable dependiente: RAZON
Fuente
Modelo
TRATAMIE
BLOQUES
Error
Total
Suma de
cuadrados
tipo III
73136.889a
850.889
1884.222
87.111
73224.000
gl
5
2
2
4
9
Media
cuadrática
14627.378
425.444
942.111
21.778
F
671.665
19.536
43.260
Significación
.000
.009
.002
a. R cuadrado = .999 (R cuadrado corregida = .997)
En la prueba de significación, como se dijo más arriba, sólo interesa investigar la diferencia entre tratamientos.
Luego, las hipótesis son:
H 0 : µ1 = µ 2 = µ 3
H1 : al menos dos medias no son iguales.
Esto hace que la F de interés sea la F de los tratamientos, F observado de 19,536 con un valor p de 0,009. Por tanto
se rechaza la hipótesis de nulidad y se acepta que hay al menos dos tratamientos (especies) que difieren
significativamente en sus efectos (razón).
Para saber cuáles de las diferencias observadas entre los promedios de los tratamientos son significativas se pueden
emplear los mismos métodos de comparación para medias presentados para el diseño completamente aleatorio.
Para saber si en este caso, fue más eficiente el diseño en bloques que un diseño completamente aleatorio,
analizaremos la conclusión a la que se habría llegado con este último. Sólo necesitamos eliminar los bloques como
fuente de variación.
2
ANOVA
RAZON
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
850.889
1971.333
2822.222
gl
2
6
8
Media
cuadrática
425.444
328.556
F
1.295
Sig.
.341
Notar primero que la suma de cuadrados de los tratamientos es exactamente igual a la anterior. .Lo que cambia es
que la suma de cuadrados de los bloques está incluida en la suma de cuadrados residual o intragrupos.
El F observado de 1,295 tiene un valor p de 0,341, este resultado muestra que los tratamientos no son
estadísticamente significativos al 5%. Esto confirma que, en este caso, fue adecuado el diseño en bloques porque
logró remover de la suma de cuadrados residual, la variación debida a la diferencia entre bloques.
Diagnósticos
Un diseño en bloques NO será apropiado si:
-
no hay homogeneidad de varianzas del error de los bloques
no hay homogeneidad de varianzas del error de los tratamientos
Efectos temporales
interacción entre bloque y tratamiento
Para analizar la homogeneidad de varianzas por bloques y tratamientos, podemos hacer un ANOVA de una vía
definiendo un factor con k × b niveles. Para hacer esto será necesario tener repeticiones en cada ivel del factor (lo que no
ocurre en nuestro ejemplo).
Experimentos factoriales
Responden a la necesidad de investigar los efectos de dos o más niveles de más de un tratamiento o “factor” sobre
las unidades experimentales. Por ejemplo, el efecto que tienen fertilizantes con distinta concentración de nitrógeno y
fósforo sobre la cosecha de trigo, el efecto de la combinación de antiinflamatorios y antibióticos sobre la sinusitis,
etc. Aquí sólo nos ocuparemos del caso más sencillo, el de dos factores, cada uno con dos niveles.
Supongamos que se quiere estudiar el efecto del sulfato ferroso (Fe) y de la vitamina C (Vit C) sobre el nivel de
hemoglobina de pacientes anémicos. El sulfato ferroso se dará en dos niveles: 100 y 500 mg y la vitamina C en dosis
de 50 y 500 mg. Llamaremos (1) y (2) los niveles bajo y alto de cada compuesto.
El diseño factorial consiste en adjudicar unidades experimentales a las 4 combinaciones posibles de los dos niveles
de ambos tratamientos: Fe (1) Vit C (1); Fe (1) Vit C (2); Fe (2) Vit C (1), Fe (2) Vit C (2).
El análisis correspondiente a este diseño permite investigar no sólo el efecto fierro y el efecto vitamina C, sino que
además la interacción entre ambos.
Se dice que hay interacción entre dos factores cuando el efecto de uno de ellos varía según el nivel en que se
encuentra el otro y viceversa. En este caso, habría interacción si el nivel (2) de Fe fuera distinto en presencia de nivel
(1) de Vit C que en presencia de nivel (2) de Vit C, o bien que el efecto de nivel (2) de Vit C fuera diferente en
presencia de nivel (1) de Fe que en presencia de nivel (2) de Fe. No hay interacción si los efectos no varían en
relación con el nivel del otro factor.
3
En un gráfico la presencia o ausencia de interacción se puede ver de la siguiente manera:
PRESENCIA DE INTERACCION
AUSENCIA DE INTERACCION
Variable
Variable
Nivel 2
Factor 2
Nivel 2
Factor 2
Nivel 1
Factor 2
Nivel 1
Factor 2
Nivel 1
Factor 1
Nivel 1
Factor 1
Nivel 2
Factor 1
Nivel 2
Factor 1
Supongamos que en el ejemplo, se han adjudicado cuatro unidades experimentales a cada combinación de los
factores y que se han obtenido los siguientes resultados:
Vit C (1)
Fe (1)
12,5
12,3
12,0
11,8
Fe (1)
12,6
12,4
12,1
11,7
Vit C (2)
Fe (2)
13,2
13,5
13,4
12,9
Fe (2)
15,5
14,8
14,5
14,6
En el diseño de dos factores con dos niveles cada uno, la suma de cuadrado total (SCT) está compuesta por las
sumas de cuadrados de cuatro fuentes de variación: la correspondiente a cada uno de los factores, la interacción entre
ellos y el residuo o error.
Usando SPSS la tabla de análisis de varianza resultado es: (Instrucciones: Analizar - Modelo Lineal General Univariante - Modelo - Factorial completo - Tipo III y no incluir la intersección en el modelo).
Pruebas de los efectos inter-sujetos
Variable dependiente: HB
Fuente
Modelo
FE
VITC
FE * VITC
Error
Total
Suma de
cuadrados
tipo III
2770.190 a
14.063
2.722
2.402
1.570
2771.760
gl
4
1
1
1
12
16
Media
cuadrática
692.548
14.063
2.722
2.402
.131
F
5293.357
107.484
20.809
18.363
Significación
.000
.000
.001
.001
a. R cuadrado = .999 (R cuadrado corregida = .999)
4
Los grados de libertad para 2 niveles de Fe y de Vit C son en cada caso: (2 - 1) = 1. La interacción es el producto
de los grados de libertad de cada factor: 1 x 1 = 1. Los grados de libertad de la SCT son (16 - 1) = 15, por lo que los
grados de libertad del residuo son 12.
Cuando la interacción entre los factores es significativa, ya no se pueden interpretar los efectos “principales” de cada
factor por separado, dado que su acción dependerá del nivel en que se encuentra el otro factor. Todos los valores de
F fueron significativos al 5%
El gráfico en este caso sería el siguiente:
Medias marginales estimadas de HB
15.0
Medias marginales estimadas
14.5
14.0
13.5
13.0
FE
12.5
1
2
12.0
1
2
VITC
Se ve que en el nivel (1) de Fe, la acción de la Vit. C es prácticamente nula. En cambio, en el nivel (2) de Fe, el
hecho de dar además Vit C en dosis alta, da mejor resultado en términos de valores de hemoglobina.
5