Download Análisis de la Varianza - Aula Virtual

Document related concepts
no text concepts found
Transcript
Análisis de la Varianza
El Análisis de la Varianza -ANOVA- es una
herramienta del área de la inferencia estadística,
utilizada en las investigaciones científico-técnicas.
Objetivo:
probar hipótesis referidas a los parámetros de
posición de dos o más poblaciones en estudio.
Análisis de la varianza
„
„
Requiere que ciertas suposiciones se satisfagan.
Los supuestos consisten en que todas las
observaciones sean descriptas adecuadamente
mediante el modelo
Yij =µ + τi + εij
1
Análisis de la varianza
„
„
Las violaciones a estas suposiciones pueden ser
investigadas fácilmente examinando los residuos.
El residuo de la observación j del tratamiento i se
define:
eij = yij - yij
observación
estimación
Análisis de los Supuestos
El no cumplimiento afectará
el nivel de significación
la potencia de la prueba
El error Tipo I resulta mayor que el especificado se
informa de demasiadas diferencias significativas entre
los tratamientos.
La potencia de la prueba se ve afectada en el sentido de
que podría obtenerse una prueba más potente si se
conociera el modelo estadístico correcto.
Si los supuestos se verifican sólo aproximadamente, el
modelo tendrá validez.
2
Análisis de los Supuestos
„
Diseño completo aleatorizado (DCA)
yij = µ + ti + eij
Este modelo se fundamenta básicamente en:
ε ij ~ N ( 0; σ 2 )
Supone que los errores son independientes y que se
encuentran normalmente distribuidos con media
cero y varianzas constantes (iguales).
Análisis de los Supuestos
ADITIVIDAD
Los factores que participan en el modelo son aditivos.
Un modelo corriente que describa la naturaleza
de una observación consta de una media más un
error. Este es un modelo lineal aditivo.
„
yi = µ + ei
es decir, "la observación i-ésima es una
observación de la media (µ), pero está sujeta a un
error de muestreo (εi) que actúa en forma aditiva
sobre ella.
„
3
Análisis de los Supuestos
ADITIVIDAD
„
Otros modelos aditivos:
yij = µ + ti + eij
yij = µ + ti + bj + eij
yi = µ + ai +bj +(ab)ij + eijk
Análisis de los Supuestos
ADITIVIDAD
Causas que afectan la aditividad del modelo:
*que existan interacciones, y no estén representadas en
el modelo aditivo lineal.
*que los efectos sean multiplicativos
*se tomen observaciones equivocadas
4
Análisis de los Supuestos
ADITIVIDAD
„
Diseño en bloques completamente aleatorizados
e ij = yij − yˆ ij = y ij − yi . − y. j + y..
„
En este diseño se evalúa si el bloque tiene un efecto
aditivo sobre el tratamiento o está interactuando
con el.
Análisis de los Supuestos
ADITIVIDAD
trat A
.
B
Bloque
1
2
10 20
40 50
Efectos Aditivos
trat A
.
B
Bloque
1
2
10
20
30
60
Efectos Multiplicativos
1 y 2 sufren un incremento igual 1 sufre un incremento de 20 y 2
un incremento de 40.
al pasar de A a B.
Los bloques recibieron en igual el tratamiento B ha recibido el
doble que el tratamiento A.
efecto de los tratamientos.
(multiplicación de efectos).
5
Análisis de los Supuestos
ADITIVIDAD
„
Gráficamente :
Caso I - Modelo aditivo
Caso II - Modelo no aditivo
60
50
40
30
20
10
0
80
60
Trat. 1
Trat. 2
20
0
Bloque 1
„
Trat. 1
40
Trat. 2
Bloque 1
Bloque 2
Bloque 2
Prueba de aditividad de Tukey
Posible solución:
„ Realizar una transformación logarítmica de los datos.
Análisis de los Supuestos
INDEPENDENCIA
Los errores son independientes ( no presentan correlación)
Graficar los residuos contra el orden del tiempo en el que se recopilaron los
datos es útil para detectar alguna correlación entre ellos. Una tendencia a
tener secuencias con residuos positivos y negativos indica la falta de
independencia.
Residual Plot for Variable
44
residual
24
4
-16
-36
0
3
6
9
12
15
row number
6
Análisis de los Supuestos
INDEPENDENCIA
Test
Para determinar si una secuencia ordenada de observaciones es aleatoria
(independiente)
* contrastes de rachas
* autocorrelación
Posible solución:
„
„
„
„
Asignar los tratamientos al azar en las parcelas experimentales
la aleatorización en la toma de los datos.
No hay ninguna adaptación ni transformación para superar la falta de
independencia de los errores.
La validez de la prueba de F puede resultar gravemente perjudicada por
el no cumplimiento de este supuesto.
Análisis de los Supuestos
HOMOCESDATICIDAD
Los errores (εi) tienen la misma varianza σ2
La falta de homogeneidad se puede deber:
•respuesta muy variable en una de las muestras,
•que la escala de medida de los datos no es la correcta.
Si la suposición de homogeneidad no se cumple, la prueba de F es
afectada solo ligeramente en los modelos balanceados (igual
número de observaciones por tratamiento) de efectos fijos.
7
Análisis de los Supuestos
HOMOCESDATICIDAD
„
Graficar los residuos contra el orden del tiempo en el que se
recopilaron los datos es también útil para detectar falta de
homogeneidad de varianzas (Heteroscedasticidad).
Residual Plot for Variable
44
residual
24
4
-16
-36
0
3
6
9
12
15
row number
Cuando la gráfica presenta mayor dispersión en un extremo que el
otro indica una falta de homogeneidad de varianzas.
Análisis de los Supuestos
HOMOCESDASTICIDAD
„
Graficar los residuos contra los valores ajustados no debe revelar
ningún patrón obvio.
Residual Plot for Variable
residual
44
24
4
-16
-36
21
31
41
51
61
predicted Variable
Si la gráfica muestra una forma de embudo que se ensancha indica la
falta de homogeneidad de las varianzas
8
Análisis de los Supuestos
HOMOCESDATICIDAD
„
Graficar las medias con las varianzas o con los desvíos
estándar
La gráfica no debe indicar ninguna correlación entre los estadísticos
(media – varianza o desvió estándar)
Plot of SIGMAS vs MEANS
30
SIGMAS
25
20
15
10
5
0
21
31
41
51
61
MEANS
Análisis de los Supuestos
HOMOCESDATICIDAD
„
Graficar los residuos contra los niveles de los factores
Residual Plot for Variable
44
residual
24
4
-16
-36
1
2
3
Tratamiento
Si los niveles de un factor presentan una dispersión que no es constante
es un indicio de falta de homocedasticidad.
9
Análisis de los Supuestos
HOMOCESDATICIDAD
Test
Permiten contrastar la Homogeneidad de Varianzas
„ Test de Bartlett
„ Test de Cochran
„ Test de Hartley
„ Test de Levene
Este ultimo test consiste en realizar un ANOVA usando como
variable dependiente el valor absoluto de los residuos
Las hipótesis que se someten a prueba son:
Ho las varianzas son iguales
H1 al menos dos varianzas son distintas.
Análisis de los Supuestos
HOMOCESDATICIDAD
Posible solución
aplicar una transformación a los datos para igualar varianzas y
volver a realizar el análisis de la varianza a los datos
transformados.
En este caso las conclusiones obtenidas se aplican a los datos
transformados y no a los datos originales. Sin embargo, las
medias, deben presentarse en los informes y publicaciones en las
unidades originales.
Las transformaciones aplicadas para igualar varianzas en la
mayoría de los casos también acercan los datos a una distribución
normal.
10
Análisis de los Supuestos
NORMALIDAD
Los errores (εi) tienen distribución Normal
Graficar un histograma de los residuos.
Si los errores tienen N ~ (0, σ2), la gráfica será semejante a la de una muestra
de una distribución normal centrada en cero
„
Cuando trabajamos con muestras pequeñas suelen aparecer fluctuaciones
considerables, por lo que una desviación moderada aparente de la
normalidad no necesariamente implica una violación del supuesto de
Histogram for RESIDUALS
normalidad.
frequency
8
6
4
2
0
-40
-20
0
20
40
RESIDUALS
Análisis de los Supuestos
NORMALIDAD
Gráfico Quantile – Quantile Plot Normal (Q-Q plot normal)
grafica los cuantiles muestrales vs. los cuantiles teóricos tomando los
residuales como datos.
Si la distribución de los residuos es normal y no hay otros violaciones a
los supuestos, estos se alinean sobre una recta a 45º.
„
Quantile-Quantile Plot
RESIDUALS
44
24
4
-16
-36
-36
-16
4
24
44
Normal distribution
11
Análisis de los Supuestos
NORMALIDAD
Las consecuencias de la no normalidad de los errores no son
demasiado graves. Solamente una distribución muy sesgada
tendría un marcado efecto sobre las pruebas de significancia.
Las pruebas de t o de F no experimentan cambios significativos en su
validez si el supuesto de normalidad se verifica parcialmente para
el caso de efectos fijos.
Posible solución:
Realizar una transformación de la variable
Recurrir a los métodos no paramétricos.
Análisis de los Supuestos
NORMALIDAD
Test
para contrastar la Normalidad de los datos.
„ Test de Chi-Cuadrado
„ Test de Kolmogorov-Smirnov
„ Test W de Shapiro-Wilks
Las hipótesis que somete a prueba este ultimo test son:
Ho: los residuos tienen distribución normal
H1: los residuos no tienen distribución normal.
12
Análisis de los Supuestos
TRANSFORMACIONES
Transformación logarítmica:
Se aplicará siempre que la media este correlacionada positivamente con la
varianza. Las distribuciones de frecuencias asimétrica hacia la izquierda se
hacen a veces más simétricas por esta transformación.
„
Transformación raíz cuadrada :
Si las observaciones se aproximan a una distribución de Poisson (la varianza es
igual a la media), su transformación en raíz cuadrada aproximara su
distribución a una normal y las varianzas se harán generalmente
independientes de las medias.
Por ejemplo: cuando los datos son recuentos (insectos o células )
„
Cuando los recuentos incluyen valores ceros o cercanos, es conveniente
utilizar la transformación
„
y + 0,5
y +1
Análisis de los Supuestos
TRANSFORMACIONES
Transformación “arco seno”
Esta transformación es apropiada si las variables son en porcentaje o
proporciones (Distribución Binomial).
„
Z ij = arc sen (%)
podemos aproximar la variable a la normalidad y evitar que la
varianzas estén en función de la media.
„
Si los porcentajes en los datos originales caen entre 30% y 70%
generalmente no es necesario aplicar la transformación arco seno.
13