Download 1ANOVA
Document related concepts
Transcript
Comparación de varios tratamientos o grupos Sir Ronald Fisher 1890 Inglaterra - 1962 Australia Rothamsted Agricultural Experiment Station. Fue el primer instituto de investigación en agricultura del Reino Unido. Fundado en 1837 para estudiar los efectos de la nutrición y los tipos de suelos en la fertilidad de las plantas. Fisher trabajó en Rothamsted donde hizo contribuciones en estadística, en particular en diseño y análisis de experimentos, y en genética. En diseño de experimentos introdujo el concepto de aleatorizacón y de análisis de varianza. http://wwwgap.dcs.st-and.ac.uk/~history/Mathematicians/Fisher.html ANOVA (ANalysis Of VAriance) ANOVA simple, de un factor, de una vía (one way ANOVA) Caso 1: Un médico quiere comparar la efectividad de tres tratamientos para reducir el colesterol de pacientes con altos niveles de colesterol sanguíneo. Se asignan aleatoriamente 60 individuos a los tres tratamientos (20 en cada uno) y se registra la reducción de colesterol de cada paciente. Caso 2: Una ecóloga está interesada en comparar la concentración de cadmio en 5 ríos. Recolecta 50 muestras de agua (10 muestras en cada río) y mide la concentración de cadmio. En cada uno de los casos, describa: a) b) c) d) ¿cuál es el diseño de la investigación? ¿cuál es la variable respuesta? ¿cuál es el factor o variable explicativa? ¿cuántos niveles tiene cada factor? El caso 1 se analizará mediante un análisis de varianza de un factor con 3 niveles. El caso 2 se analizará mediante un análisis de varianza de un factor con 5 niveles. TOMATES Un agricultor quiere comparar el efecto de tres fertilizantes (A, B y C) en el crecimiento de sus plantas de tomate. Seleccionó 15 plantas de tomate de una semana y las plantó en diferentes maceteros. Asignó aleatoriamente los 3 fertilizantes y se los administró a las plantas por 45 días. La figura muestra la altura de las plantas en centímetros según cada fertilizante. 50 Altura (cms) 45 40 35 30 0 1 2 Fertilizantes 3 4 DATOS: Altura de plantas de tomates tratadas con distintos fertilizantes A 31 32 36 38 39 Fertilizantes B 41 42 43 44 46 C 35 36 36 37 38 ¿De qué manera podríamos comparar estos tres tratamientos? La respuesta natural sería comparar cada par de tratamientos o grupos con una prueba t para muestras independientes. Problema de comparaciones múltiples: Si tenemos 4 grupos 4 4! 3x 4 6 2 2 ! 2 ! 2 comparaciones serán: posibles. H 0 : 1 2 H 0 : 1 3 H 0 : 1 4 H1 : 1 2 H1 : 1 3 H1 : 1 4 =0,05 =0,05 =0,05 H 0 : 2 3 H 0 : 2 4 H 0 : 3 4 H1 : 2 3 H1 : 2 4 H1 : 3 4 =0,05 =0,05 =0,05 A medida que aumenta el número de grupos, no podemos garantizar que se mantenga el nivel de significación. Para solucionar este problema es que hacemos primero una pregunta global y dependiendo del resultados seguimos investigando pares de grupos. Comparando medias mediante ANOVA: Se tienen k muestras aleatorias independientes: m.a.s. tamaño n1 Población 1 N k , N 2 , N 1 , m.a.s. tamaño n2 Población 2 ... m.a.s. tamaño nk Población k Nota: Asumimos que la desviación estándar poblacional de cada grupo es igual a (homocedasticidad). HIPOTESIS GLOBAL Usaremos i para representar la media del grupo i, entonces estaremos interesados en probar la siguiente hipótesis: H 0 : 1 2 ... k H 1 : al menos dos medias no son iguales . Gráficamente: Ho: las medias poblacionales son iguales N orma l 1 2 3 H1 : al menos una media es diferente N orma l 1 2 3 N orma l TOMATES continuación Hipótesis de interés: H 0 : 1 2 3 H 1 : al menos dos medias no son iguales . Con un nivel de significación =0,05 Datos: N A B C Total 5 5 5 15 Media 35.20 43.20 36.40 38.27 Desviación típica 3.564 1.924 1.140 4.284 Notación en las 3 muestras (i=1,2,3): ni n1 n2 n3 yi y1 y2 y3 si s1 s2 s3 Fuentes de variación Este análisis lleva el nombre de “Análisis de varianza” porque para comparar las medias de los grupos o tratamientos necesitamos identificar las distintas fuentes de variabilidad. 1. La variabilidad de la variable respuesta se conoce como variabilidad total. 2. La variabilidad de la variable respuesta, atribuida a factores específicos o tratamientos, se conoce como variabilidad explicada. Mide la variabilidad entre los diferentes grupos. 3. La variabilidad de la variable respuesta de las unidades (experimentales) dentro de cada nivel del factor se conoce como variabilidad no-explicada. Variabilidad total = variabilidad explicada + variabilidad no explicada En el ejemplo de los tomates distinga las fuentes de variación. 50 Altura (cms) 45 40 35 30 0 1 2 Fertilizantes 3 4 Para docimar la hipótesis global acerca de las medias usaremos el test estadístico F. Este test contrasta la variabilidad entre los grupos con la variabilidad natural dentro de los grupos. F variabilid ad ENTRE las medias muestrales variabilid ad DENTRO de las muestras Pensemos Caso A: Si las medias muestrales son exactamente iguales, ¿cuál será el numerador del test F? Case B: Si las medias muestrales son muy distintas entre los grupos, ¿como será la variabilidad ENTRE comparada con el caso A? ¿Qué valores puede tener el estadístico F? ¿F puede ser negativo? ¿Qué tipo de valores de F serán a favor de la hipótesis alternativa? Medias cuadráticas El test estadístico correspondiente al ANOVA es la razón entre dos medidas de variación de los datos muestrales. variabilid ad ENTRE las medias muestrales MCE F variabilid ad DENTRO de las muestras MCD Estas dos medidas de variación se llaman medias cuadráticas, así en el numerador tendemos la media cuadrática ENTRE los grupos (MCE) y en el denominador la media cuadrática DENTRO de los grupos (MCD). Entre más grande sea la variación ENTRE las medias muestrales comparada con la variación natural DENTRO de las muestras, mayor evidencia a favor de diferencias entre las medias poblacionales. Sólo valores grandes del test estadístico nos sirven para rechazar la hipótesis nula, por lo tanto los test F de ANOVA son unilaterales (de una cola) con la dirección del extremo hacia la derecha. El valor p será la probabilidad de observar un test estadístico tan o más grande bajo la hipótesis nula. Distribución F de Fisher Bajo H 0 el test estadístico F que se calcula en el ANOVA tiene una distribución F de Fisher con (k-1, nk) grados de libertad. Notación: F ~ F (k 1, n k ) Características: La distribución es sesgada a la derecha Sus valores son positivos, empiezan en cero y se extienden hasta infinito La curva de la distribución queda definida por los grados de libertad del numerador y del denominador GRAFICOS Se muestran dos gráficos de caja. Cada uno representa el resultado de sacar 3 muestras aleatorias independientes de tres poblaciones normales. ¿En cuál de los dos gráficos cree usted que podemos rechazar la hipótesis nula H 0 : 1 2 3 ? Respuesta Respuesta Grupo 1 Grupo 2 Grupo 3 Grupo 1 Grupo 2 Grupo 3 Cómo calculamos F Cuando tenemos una muestra aleatoria de una población con varianza desconocida 2, vamos a estimar esta varianza con la varianza muestral s2. La varianza muestral se calcula tomando la suma de los cuadrados de las desviaciones a la media y dividiendo por los grados de libertad (n-1). Las dos medidas de variabilidad en ANOVA, MCE y MCD tienen la misma forma. Suma de cuadrados (SC) Media cuadrática Grados de libertad (gl) Cada muestra aleatoria, una por cada k poblaciones, tiene su media muestral y su varianza muestral representados por: y1 , y2 ,..., yk y s12 , s22 ,..., sI2 . Variación ENTRE grupos: Bajo la hipótesis nula, las medias poblacionales son iguales. Si la hipótesis nula fuera cierta, sería razonable promediar todas las observaciones para tener una estimación de la media de la población. La media muestral común sería: n1 y1 n2 y 2 nk y k y n La media cuadrática ENTRE los grupos o media cuadrática de los tratamientos se calcula como: SCE MCE k 1 donde la suma de cuadrados ENTRE (SCE) se calcula como: SCE n1 y1 y n2 y 2 y nk y k y 2 2 2 n y i y 2 i grupos tamaño muestra grupo media muestral grupo media muestral conjunta 2 grupos Variación DENTRO de los grupos: Uno de los supuestos de ANOVA es que las k poblaciones tienen la misma varianza. Cada una de las varianza muestrales es un estimador de la varianza común 2, independiente de si la hipótesis nula es cierta. Los grados de libertad de cada varianza muestral es, ni – 1. La MCD esencialmente combina las varianza muestrales para obtener un estimador de 2. La media cuadrática dentro, es también llamada la media cuadrática del error. El denominador del estadístico F es: MCD SCD nk donde la suma de cuadrados DENTRO de los grupos se calcula: SCD n1 1s12 n2 1s 22 nk 1s k2 n i 1si2 grupos tamaño muestral grupo - 1varianza muestral grupo grupos Note que esta cantidad es una extensión de la estimación combinada de la varianza empleada para la prueba t de 2 muestras: s 2p n1 1s12 n2 1s 22 nk n1 n2 nk k 1s k2 Midiendo la variación TOTAL: En ANOVA de una vía, la varianza total de todas las observaciones esta dada por la suma de cuadrados total, SCT, que mide la variación de cada observación a la media muestral de todas las observaciones. SCT y ij observaciones y 2 observació n - media muestral 2 observaciones La variación total puede ser particionada entre las dos fuentes de variación entre y dentro. La relación entre las sumas de cuadrados es: SCT SCE SCD . Si se tienen dos de las sumas de cuadrados, se obtiene la tercera fácilmente. Tabla ANOVA Todo esto se resume en la tabla de Análisis de Varianza, en que se presentan las fuentes de variación, los grados de libertad, las sumas de cuadrados y las medias cuadráticas correspondientes. TABLA DE ANALISIS DE VARIANZA gl SC Fuente de Grados de Suma de variación libertad Cuadrados MC Medias cuadráticas Entre tratamientos k 1 SCE ni y i y Dentro de tratamientos nk SCD ni 1si2 Total n 1 k 2 i 1 n i 1 SCT y ij y n i 1 2 SCE k 1 SCD nk F F MCE MCD TOMATES continuación. - Realice los cálculos para docimar la hipotesis de interés del agricultor. Compruebe sus resultados con tabla salida del SPSS. - Compruebe la relación entre las sumas de cuadrados y la de los grados de libertad. - Escriba su conclusión para el agricultor. ANOVA ALTURA TOMATES Inter-grupos Intra-grupos Total A B C Total Suma de Media cuadrados gl cuadrática 186.133 2 93.067 70.800 12 5.900 256.933 14 F Sig. 15.774 .000 N Media Desviación típica 5 35.20 3.564 5 43.20 1.924 5 36.40 1.140 15 38.27 4.284