Download Apuntes bloques y factorial
Document related concepts
no text concepts found
Transcript
Análisis de un diseño en bloques aleatorios1 Cuando sólo hay dos tratamientos, el análisis de varianza de una vía equivale al test t de Student para muestras independientes. A su vez, el análisis de varianza para el diseño en bloques con dos tratamientos, equivale a la dócima de t de Student para muestras pareadas. Como ya se vio anteriormente, cuando se comparan más de dos pares de tratamientos, la dócima de t de Student no conserva el nivel de significación correspondiente y es más correcto utilizar el análisis de varianza. El diseño en bloques aleatorios es apropiado y eficiente cuando se desea investigar las diferencias entre los promedios de k tratamientos en condiciones homogéneas, vale decir, eliminando las diferencias iniciales entre las unidades experimentales. Estas condiciones homogéneas pueden ser: parcelas de terreno, lotes de producción, camadas de ratones, o una misma persona sometida a diferentes tratamientos. Se supone que la variabilidad de las unidades experimentales entre parcelas, lotes, camadas o personas, es mayor que dentro de esos “bloques”. Por tanto, al adjudicar los k tratamientos aleatoriamente a las unidades que constituyen un bloque, se obtiene un efecto de tratamiento limpio de esa variación entre bloques que podría llegar a encubrir la diferencia entre tratamientos. Comparando con el diseño completamente aleatorio, se tiene por tanto una fuente de variación adicional a las “entre tratamientos” y “dentro de tratamientos”: la variación “entre bloques”. La suma de cuadrados correspondiente se simbolizará por SCB. Los grados de libertad para el cálculo de CMB serán: b − 1 , el número de bloques menos 1. La SCB se calcula usando los valores de las sumas de los yij pertenecientes a cada uno de los bloques: SCB = k ∑ (y b − y) 2 bloques y la tabla de ANOVA será: Fuente de variación Gl Grados de libertad SC Suma de Cuadrados k −1 SCE = b∑ ( y tr − y ) k Entre tratamientos CM Cuadrados Medios SCE k −1 2 trat Bloques b −1 SCB = k ∑ (y bl − y) bloques Residual n −1 SCB b −1 SCR (k − 1)(b − 1) (k − 1)(b − 1) n Total 2 SCT = ∑ ( y i − y ) 2 i =1 Nota: la suma de cuadrados entre tratamientos es la misma (escrita de otra manera) para el ANOVA de una vía. Lo que cambia es lo que llamamos suma de cuadrados dentro de tratamientos que ahora se dividió entre las SC de Bloques y la SC Residual. Ejemplo: Se tienen tres especies de cítricos a los cuales se mide la razón entre el área de las hojas y el peso seco, bajo 3 condiciones de sombra (sol, semisombra y sombra). Datos provenientes de Snedecor, Cochran (1989) Statistical Methods, 8th Ed. Iowa State Press. Página 256. 1 Adaptado de Capítulo 19 de Taucher (1997) Bioestadística, Ed. Universitaria. 1 Sombra Sol Semisombra Sombra Naranja Shamouti 112 86 80 Especie Pomelo Marsh 90 73 62 Mandarina Clementine 123 89 81 En este problema no interesa determinar si hay diferencias entre las condiciones de sombra (bloques), supuesto para haber decidido este diseño, sino que interesa analizar si las tres especies difieren en sus resultados. Para el análisis usamos SPSS (Instrucciones: Analizar - Modelo Lineal General - Univariante - Modelo Personalizado - Efectos Principales - Tipo III y no incluir la intersección en el modelo). La tabla de análisis de varianza es entonces: Pruebas de los efectos inter-sujetos Variable dependiente: RAZON Fuente Modelo TRATAMIE BLOQUES Error Total Suma de cuadrados tipo III 73136.889a 850.889 1884.222 87.111 73224.000 gl 5 2 2 4 9 Media cuadrática 14627.378 425.444 942.111 21.778 F 671.665 19.536 43.260 Significación .000 .009 .002 a. R cuadrado = .999 (R cuadrado corregida = .997) En la prueba de significación, como se dijo más arriba, sólo interesa investigar la diferencia entre tratamientos. Luego, las hipótesis son: H 0 : µ1 = µ 2 = µ 3 H1 : al menos dos medias no son iguales. Esto hace que la F de interés sea la F de los tratamientos, F observado de 19,536 con un valor p de 0,009. Por tanto se rechaza la hipótesis de nulidad y se acepta que hay al menos dos tratamientos (especies) que difieren significativamente en sus efectos (razón). Para saber cuáles de las diferencias observadas entre los promedios de los tratamientos son significativas se pueden emplear los mismos métodos de comparación para medias presentados para el diseño completamente aleatorio. Para saber si en este caso, fue más eficiente el diseño en bloques que un diseño completamente aleatorio, analizaremos la conclusión a la que se habría llegado con este último. Sólo necesitamos eliminar los bloques como fuente de variación. 2 ANOVA RAZON Inter-grupos Intra-grupos Total Suma de cuadrados 850.889 1971.333 2822.222 gl 2 6 8 Media cuadrática 425.444 328.556 F 1.295 Sig. .341 Notar primero que la suma de cuadrados de los tratamientos es exactamente igual a la anterior. .Lo que cambia es que la suma de cuadrados de los bloques está incluida en la suma de cuadrados residual o intragrupos. El F observado de 1,295 tiene un valor p de 0,341, este resultado muestra que los tratamientos no son estadísticamente significativos al 5%. Esto confirma que, en este caso, fue adecuado el diseño en bloques porque logró remover de la suma de cuadrados residual, la variación debida a la diferencia entre bloques. Diagnósticos Un diseño en bloques NO será apropiado si: - no hay homogeneidad de varianzas del error de los bloques no hay homogeneidad de varianzas del error de los tratamientos Efectos temporales interacción entre bloque y tratamiento Para analizar la homogeneidad de varianzas por bloques y tratamientos, podemos hacer un ANOVA de una vía definiendo un factor con k × b niveles. Para hacer esto será necesario tener repeticiones en cada ivel del factor (lo que no ocurre en nuestro ejemplo). Experimentos factoriales Responden a la necesidad de investigar los efectos de dos o más niveles de más de un tratamiento o “factor” sobre las unidades experimentales. Por ejemplo, el efecto que tienen fertilizantes con distinta concentración de nitrógeno y fósforo sobre la cosecha de trigo, el efecto de la combinación de antiinflamatorios y antibióticos sobre la sinusitis, etc. Aquí sólo nos ocuparemos del caso más sencillo, el de dos factores, cada uno con dos niveles. Supongamos que se quiere estudiar el efecto del sulfato ferroso (Fe) y de la vitamina C (Vit C) sobre el nivel de hemoglobina de pacientes anémicos. El sulfato ferroso se dará en dos niveles: 100 y 500 mg y la vitamina C en dosis de 50 y 500 mg. Llamaremos (1) y (2) los niveles bajo y alto de cada compuesto. El diseño factorial consiste en adjudicar unidades experimentales a las 4 combinaciones posibles de los dos niveles de ambos tratamientos: Fe (1) Vit C (1); Fe (1) Vit C (2); Fe (2) Vit C (1), Fe (2) Vit C (2). El análisis correspondiente a este diseño permite investigar no sólo el efecto fierro y el efecto vitamina C, sino que además la interacción entre ambos. Se dice que hay interacción entre dos factores cuando el efecto de uno de ellos varía según el nivel en que se encuentra el otro y viceversa. En este caso, habría interacción si el nivel (2) de Fe fuera distinto en presencia de nivel (1) de Vit C que en presencia de nivel (2) de Vit C, o bien que el efecto de nivel (2) de Vit C fuera diferente en presencia de nivel (1) de Fe que en presencia de nivel (2) de Fe. No hay interacción si los efectos no varían en relación con el nivel del otro factor. 3 En un gráfico la presencia o ausencia de interacción se puede ver de la siguiente manera: PRESENCIA DE INTERACCION AUSENCIA DE INTERACCION Variable Variable Nivel 2 Factor 2 Nivel 2 Factor 2 Nivel 1 Factor 2 Nivel 1 Factor 2 Nivel 1 Factor 1 Nivel 1 Factor 1 Nivel 2 Factor 1 Nivel 2 Factor 1 Supongamos que en el ejemplo, se han adjudicado cuatro unidades experimentales a cada combinación de los factores y que se han obtenido los siguientes resultados: Vit C (1) Fe (1) 12,5 12,3 12,0 11,8 Fe (1) 12,6 12,4 12,1 11,7 Vit C (2) Fe (2) 13,2 13,5 13,4 12,9 Fe (2) 15,5 14,8 14,5 14,6 En el diseño de dos factores con dos niveles cada uno, la suma de cuadrado total (SCT) está compuesta por las sumas de cuadrados de cuatro fuentes de variación: la correspondiente a cada uno de los factores, la interacción entre ellos y el residuo o error. Usando SPSS la tabla de análisis de varianza resultado es: (Instrucciones: Analizar - Modelo Lineal General Univariante - Modelo - Factorial completo - Tipo III y no incluir la intersección en el modelo). Pruebas de los efectos inter-sujetos Variable dependiente: HB Fuente Modelo FE VITC FE * VITC Error Total Suma de cuadrados tipo III 2770.190 a 14.063 2.722 2.402 1.570 2771.760 gl 4 1 1 1 12 16 Media cuadrática 692.548 14.063 2.722 2.402 .131 F 5293.357 107.484 20.809 18.363 Significación .000 .000 .001 .001 a. R cuadrado = .999 (R cuadrado corregida = .999) 4 Los grados de libertad para 2 niveles de Fe y de Vit C son en cada caso: (2 - 1) = 1. La interacción es el producto de los grados de libertad de cada factor: 1 x 1 = 1. Los grados de libertad de la SCT son (16 - 1) = 15, por lo que los grados de libertad del residuo son 12. Cuando la interacción entre los factores es significativa, ya no se pueden interpretar los efectos “principales” de cada factor por separado, dado que su acción dependerá del nivel en que se encuentra el otro factor. Todos los valores de F fueron significativos al 5% El gráfico en este caso sería el siguiente: Medias marginales estimadas de HB 15.0 Medias marginales estimadas 14.5 14.0 13.5 13.0 FE 12.5 1 2 12.0 1 2 VITC Se ve que en el nivel (1) de Fe, la acción de la Vit. C es prácticamente nula. En cambio, en el nivel (2) de Fe, el hecho de dar además Vit C en dosis alta, da mejor resultado en términos de valores de hemoglobina. 5