Download Análisis de la Varianza - Aula Virtual
Document related concepts
no text concepts found
Transcript
Análisis de la Varianza El Análisis de la Varianza -ANOVA- es una herramienta del área de la inferencia estadística, utilizada en las investigaciones científico-técnicas. Objetivo: probar hipótesis referidas a los parámetros de posición de dos o más poblaciones en estudio. Análisis de la varianza Requiere que ciertas suposiciones se satisfagan. Los supuestos consisten en que todas las observaciones sean descriptas adecuadamente mediante el modelo Yij =µ + τi + εij 1 Análisis de la varianza Las violaciones a estas suposiciones pueden ser investigadas fácilmente examinando los residuos. El residuo de la observación j del tratamiento i se define: eij = yij - yij observación estimación Análisis de los Supuestos El no cumplimiento afectará el nivel de significación la potencia de la prueba El error Tipo I resulta mayor que el especificado se informa de demasiadas diferencias significativas entre los tratamientos. La potencia de la prueba se ve afectada en el sentido de que podría obtenerse una prueba más potente si se conociera el modelo estadístico correcto. Si los supuestos se verifican sólo aproximadamente, el modelo tendrá validez. 2 Análisis de los Supuestos Diseño completo aleatorizado (DCA) yij = µ + ti + eij Este modelo se fundamenta básicamente en: ε ij ~ N ( 0; σ 2 ) Supone que los errores son independientes y que se encuentran normalmente distribuidos con media cero y varianzas constantes (iguales). Análisis de los Supuestos ADITIVIDAD Los factores que participan en el modelo son aditivos. Un modelo corriente que describa la naturaleza de una observación consta de una media más un error. Este es un modelo lineal aditivo. yi = µ + ei es decir, "la observación i-ésima es una observación de la media (µ), pero está sujeta a un error de muestreo (εi) que actúa en forma aditiva sobre ella. 3 Análisis de los Supuestos ADITIVIDAD Otros modelos aditivos: yij = µ + ti + eij yij = µ + ti + bj + eij yi = µ + ai +bj +(ab)ij + eijk Análisis de los Supuestos ADITIVIDAD Causas que afectan la aditividad del modelo: *que existan interacciones, y no estén representadas en el modelo aditivo lineal. *que los efectos sean multiplicativos *se tomen observaciones equivocadas 4 Análisis de los Supuestos ADITIVIDAD Diseño en bloques completamente aleatorizados e ij = yij − yˆ ij = y ij − yi . − y. j + y.. En este diseño se evalúa si el bloque tiene un efecto aditivo sobre el tratamiento o está interactuando con el. Análisis de los Supuestos ADITIVIDAD trat A . B Bloque 1 2 10 20 40 50 Efectos Aditivos trat A . B Bloque 1 2 10 20 30 60 Efectos Multiplicativos 1 y 2 sufren un incremento igual 1 sufre un incremento de 20 y 2 un incremento de 40. al pasar de A a B. Los bloques recibieron en igual el tratamiento B ha recibido el doble que el tratamiento A. efecto de los tratamientos. (multiplicación de efectos). 5 Análisis de los Supuestos ADITIVIDAD Gráficamente : Caso I - Modelo aditivo Caso II - Modelo no aditivo 60 50 40 30 20 10 0 80 60 Trat. 1 Trat. 2 20 0 Bloque 1 Trat. 1 40 Trat. 2 Bloque 1 Bloque 2 Bloque 2 Prueba de aditividad de Tukey Posible solución: Realizar una transformación logarítmica de los datos. Análisis de los Supuestos INDEPENDENCIA Los errores son independientes ( no presentan correlación) Graficar los residuos contra el orden del tiempo en el que se recopilaron los datos es útil para detectar alguna correlación entre ellos. Una tendencia a tener secuencias con residuos positivos y negativos indica la falta de independencia. Residual Plot for Variable 44 residual 24 4 -16 -36 0 3 6 9 12 15 row number 6 Análisis de los Supuestos INDEPENDENCIA Test Para determinar si una secuencia ordenada de observaciones es aleatoria (independiente) * contrastes de rachas * autocorrelación Posible solución: Asignar los tratamientos al azar en las parcelas experimentales la aleatorización en la toma de los datos. No hay ninguna adaptación ni transformación para superar la falta de independencia de los errores. La validez de la prueba de F puede resultar gravemente perjudicada por el no cumplimiento de este supuesto. Análisis de los Supuestos HOMOCESDATICIDAD Los errores (εi) tienen la misma varianza σ2 La falta de homogeneidad se puede deber: •respuesta muy variable en una de las muestras, •que la escala de medida de los datos no es la correcta. Si la suposición de homogeneidad no se cumple, la prueba de F es afectada solo ligeramente en los modelos balanceados (igual número de observaciones por tratamiento) de efectos fijos. 7 Análisis de los Supuestos HOMOCESDATICIDAD Graficar los residuos contra el orden del tiempo en el que se recopilaron los datos es también útil para detectar falta de homogeneidad de varianzas (Heteroscedasticidad). Residual Plot for Variable 44 residual 24 4 -16 -36 0 3 6 9 12 15 row number Cuando la gráfica presenta mayor dispersión en un extremo que el otro indica una falta de homogeneidad de varianzas. Análisis de los Supuestos HOMOCESDASTICIDAD Graficar los residuos contra los valores ajustados no debe revelar ningún patrón obvio. Residual Plot for Variable residual 44 24 4 -16 -36 21 31 41 51 61 predicted Variable Si la gráfica muestra una forma de embudo que se ensancha indica la falta de homogeneidad de las varianzas 8 Análisis de los Supuestos HOMOCESDATICIDAD Graficar las medias con las varianzas o con los desvíos estándar La gráfica no debe indicar ninguna correlación entre los estadísticos (media – varianza o desvió estándar) Plot of SIGMAS vs MEANS 30 SIGMAS 25 20 15 10 5 0 21 31 41 51 61 MEANS Análisis de los Supuestos HOMOCESDATICIDAD Graficar los residuos contra los niveles de los factores Residual Plot for Variable 44 residual 24 4 -16 -36 1 2 3 Tratamiento Si los niveles de un factor presentan una dispersión que no es constante es un indicio de falta de homocedasticidad. 9 Análisis de los Supuestos HOMOCESDATICIDAD Test Permiten contrastar la Homogeneidad de Varianzas Test de Bartlett Test de Cochran Test de Hartley Test de Levene Este ultimo test consiste en realizar un ANOVA usando como variable dependiente el valor absoluto de los residuos Las hipótesis que se someten a prueba son: Ho las varianzas son iguales H1 al menos dos varianzas son distintas. Análisis de los Supuestos HOMOCESDATICIDAD Posible solución aplicar una transformación a los datos para igualar varianzas y volver a realizar el análisis de la varianza a los datos transformados. En este caso las conclusiones obtenidas se aplican a los datos transformados y no a los datos originales. Sin embargo, las medias, deben presentarse en los informes y publicaciones en las unidades originales. Las transformaciones aplicadas para igualar varianzas en la mayoría de los casos también acercan los datos a una distribución normal. 10 Análisis de los Supuestos NORMALIDAD Los errores (εi) tienen distribución Normal Graficar un histograma de los residuos. Si los errores tienen N ~ (0, σ2), la gráfica será semejante a la de una muestra de una distribución normal centrada en cero Cuando trabajamos con muestras pequeñas suelen aparecer fluctuaciones considerables, por lo que una desviación moderada aparente de la normalidad no necesariamente implica una violación del supuesto de Histogram for RESIDUALS normalidad. frequency 8 6 4 2 0 -40 -20 0 20 40 RESIDUALS Análisis de los Supuestos NORMALIDAD Gráfico Quantile – Quantile Plot Normal (Q-Q plot normal) grafica los cuantiles muestrales vs. los cuantiles teóricos tomando los residuales como datos. Si la distribución de los residuos es normal y no hay otros violaciones a los supuestos, estos se alinean sobre una recta a 45º. Quantile-Quantile Plot RESIDUALS 44 24 4 -16 -36 -36 -16 4 24 44 Normal distribution 11 Análisis de los Supuestos NORMALIDAD Las consecuencias de la no normalidad de los errores no son demasiado graves. Solamente una distribución muy sesgada tendría un marcado efecto sobre las pruebas de significancia. Las pruebas de t o de F no experimentan cambios significativos en su validez si el supuesto de normalidad se verifica parcialmente para el caso de efectos fijos. Posible solución: Realizar una transformación de la variable Recurrir a los métodos no paramétricos. Análisis de los Supuestos NORMALIDAD Test para contrastar la Normalidad de los datos. Test de Chi-Cuadrado Test de Kolmogorov-Smirnov Test W de Shapiro-Wilks Las hipótesis que somete a prueba este ultimo test son: Ho: los residuos tienen distribución normal H1: los residuos no tienen distribución normal. 12 Análisis de los Supuestos TRANSFORMACIONES Transformación logarítmica: Se aplicará siempre que la media este correlacionada positivamente con la varianza. Las distribuciones de frecuencias asimétrica hacia la izquierda se hacen a veces más simétricas por esta transformación. Transformación raíz cuadrada : Si las observaciones se aproximan a una distribución de Poisson (la varianza es igual a la media), su transformación en raíz cuadrada aproximara su distribución a una normal y las varianzas se harán generalmente independientes de las medias. Por ejemplo: cuando los datos son recuentos (insectos o células ) Cuando los recuentos incluyen valores ceros o cercanos, es conveniente utilizar la transformación y + 0,5 y +1 Análisis de los Supuestos TRANSFORMACIONES Transformación “arco seno” Esta transformación es apropiada si las variables son en porcentaje o proporciones (Distribución Binomial). Z ij = arc sen (%) podemos aproximar la variable a la normalidad y evitar que la varianzas estén en función de la media. Si los porcentajes en los datos originales caen entre 30% y 70% generalmente no es necesario aplicar la transformación arco seno. 13