Download 1ANOVA

Document related concepts

Análisis de la varianza wikipedia , lookup

Prueba t de Student wikipedia , lookup

Análisis de la covarianza wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Error cuadrático medio wikipedia , lookup

Transcript
Comparación de
varios tratamientos o grupos
Sir Ronald Fisher
1890 Inglaterra - 1962 Australia
Rothamsted Agricultural Experiment Station. Fue el primer
instituto de investigación en agricultura del Reino Unido. Fundado
en 1837 para estudiar los efectos de la nutrición y los tipos de suelos
en la fertilidad de las plantas. Fisher trabajó en Rothamsted donde
hizo contribuciones en estadística, en particular en diseño y análisis
de experimentos, y en genética. En diseño de experimentos introdujo
el concepto de aleatorizacón y de análisis de varianza. http://wwwgap.dcs.st-and.ac.uk/~history/Mathematicians/Fisher.html
ANOVA (ANalysis Of VAriance)
ANOVA simple, de un factor, de una vía
(one way ANOVA)
Caso 1: Un médico quiere comparar la efectividad de
tres tratamientos para reducir el colesterol de pacientes
con altos niveles de colesterol sanguíneo. Se asignan
aleatoriamente 60 individuos a los tres tratamientos (20
en cada uno) y se registra la reducción de colesterol de
cada paciente.
Caso 2: Una ecóloga está interesada en comparar la
concentración de cadmio en 5 ríos. Recolecta 50
muestras de agua (10 muestras en cada río) y mide la
concentración de cadmio.
En cada uno de los casos, describa:
a)
b)
c)
d)
¿cuál es el diseño de la investigación?
¿cuál es la variable respuesta?
¿cuál es el factor o variable explicativa?
¿cuántos niveles tiene cada factor?
El caso 1 se analizará mediante un análisis de varianza
de un factor con 3 niveles.
El caso 2 se analizará mediante un análisis de varianza
de un factor con 5 niveles.
TOMATES
Un agricultor quiere comparar el efecto de tres
fertilizantes (A, B y C) en el crecimiento de sus plantas
de tomate. Seleccionó 15 plantas de tomate de una
semana y las plantó en diferentes maceteros. Asignó
aleatoriamente los 3 fertilizantes y se los administró a
las plantas por 45 días. La figura muestra la altura de las
plantas en centímetros según cada fertilizante.
50
Altura (cms)
45
40
35
30
0
1
2
Fertilizantes
3
4
DATOS: Altura de plantas de tomates tratadas
con distintos fertilizantes
A
31
32
36
38
39
Fertilizantes
B
41
42
43
44
46
C
35
36
36
37
38
¿De qué manera podríamos comparar estos
tres tratamientos?
La respuesta natural sería comparar cada par de
tratamientos o grupos con una prueba t para
muestras independientes.
Problema de comparaciones múltiples:
Si
tenemos
4
grupos
 4
4!
3x 4
  

6
2
2
!
2
!
2
comparaciones
 
serán:
posibles.
H 0 : 1   2
H 0 : 1  3
H 0 : 1   4
H1 : 1   2
H1 : 1  3
H1 : 1   4
=0,05
=0,05
=0,05
H 0 :  2  3
H 0 : 2  4
H 0 : 3   4
H1 : 2  3
H1 : 2  4
H1 : 3  4
=0,05
=0,05
=0,05
A medida que aumenta el número de grupos,
no podemos garantizar que se mantenga el
nivel de significación.
Para solucionar este problema es que hacemos
primero una pregunta global y dependiendo
del resultados seguimos investigando pares de
grupos.
Comparando medias mediante ANOVA:
Se tienen k muestras aleatorias independientes:
m.a.s.
tamaño
n1
Población 1
N  k ,  
N  2 ,  
N 1 ,  
m.a.s.
tamaño
n2
Población 2
...
m.a.s.
tamaño
nk
Población k
Nota: Asumimos que la desviación estándar
poblacional de cada grupo es igual a 
(homocedasticidad).
HIPOTESIS GLOBAL
Usaremos i para representar la media del grupo i,
entonces estaremos interesados en probar la siguiente
hipótesis:
H 0 : 1   2  ...   k
H 1 : al menos dos medias no son iguales .
Gráficamente:
Ho: las medias poblacionales son iguales
N orma l


1 2 3
H1 : al menos una media es diferente
N orma l



1 2

3
N orma l
TOMATES continuación
Hipótesis de interés:
H 0 : 1   2   3
H 1 : al menos dos medias no son iguales .
Con un nivel de significación =0,05
Datos:
N
A
B
C
Total
5
5
5
15
Media
35.20
43.20
36.40
38.27
Desviación
típica
3.564
1.924
1.140
4.284
Notación en las 3 muestras (i=1,2,3):
ni
n1
n2
n3
yi
y1
y2
y3
si
s1
s2
s3
Fuentes de variación
Este análisis lleva el nombre de “Análisis de varianza”
porque para comparar las medias de los grupos o
tratamientos necesitamos identificar las distintas
fuentes de variabilidad.
1. La variabilidad de la variable respuesta se conoce
como variabilidad total.
2. La variabilidad de la variable respuesta, atribuida a
factores específicos o tratamientos, se conoce
como variabilidad explicada. Mide la variabilidad
entre los diferentes grupos.
3. La variabilidad de la variable respuesta de las
unidades (experimentales) dentro de cada nivel del
factor se conoce como variabilidad no-explicada.
Variabilidad total =
variabilidad explicada + variabilidad no explicada
En el ejemplo de los tomates distinga las fuentes de
variación.
50
Altura (cms)
45
40
35
30
0
1
2
Fertilizantes
3
4
Para docimar la hipótesis global acerca de las medias
usaremos el test estadístico F. Este test contrasta la
variabilidad entre los grupos con la variabilidad natural
dentro de los grupos.
F
variabilid ad ENTRE las medias muestrales
variabilid ad DENTRO de las muestras
Pensemos
Caso A: Si las medias muestrales son exactamente
iguales, ¿cuál será el numerador del test F?
Case B:
Si las medias muestrales son muy distintas
entre los grupos, ¿como será la variabilidad
ENTRE comparada con el caso A?
¿Qué valores puede tener el estadístico F?
¿F puede ser negativo?
¿Qué tipo de valores de F serán a favor de la hipótesis
alternativa?
Medias cuadráticas
El test estadístico correspondiente al ANOVA es la
razón entre dos medidas de variación de los datos
muestrales.
variabilid ad ENTRE las medias muestrales
MCE
F

variabilid ad DENTRO de las muestras
MCD
Estas dos medidas de variación se llaman medias
cuadráticas, así en el numerador tendemos la media
cuadrática ENTRE los grupos (MCE) y en el
denominador la media cuadrática DENTRO de los
grupos (MCD).
Entre más grande sea la variación ENTRE las medias
muestrales comparada con la variación natural
DENTRO de las muestras, mayor evidencia a favor de
diferencias entre las medias poblacionales.
Sólo valores grandes del test estadístico nos sirven para
rechazar la hipótesis nula, por lo tanto los test F de
ANOVA son unilaterales (de una cola) con la dirección
del extremo hacia la derecha.
El valor p será la probabilidad de observar un test
estadístico tan o más grande bajo la hipótesis nula.
Distribución F de Fisher
Bajo H 0 el test estadístico F que se calcula en el
ANOVA tiene una distribución F de Fisher con (k-1, nk) grados de libertad.
Notación: F ~ F (k  1, n  k )
Características:
 La distribución es sesgada a la derecha
 Sus valores son positivos, empiezan en cero y se
extienden hasta infinito
 La curva de la distribución queda definida por los
grados de libertad del numerador y del denominador
GRAFICOS
Se muestran dos gráficos de caja. Cada uno representa
el resultado de sacar 3 muestras aleatorias
independientes de tres poblaciones normales. ¿En cuál
de los dos gráficos cree usted que podemos rechazar la
hipótesis nula H 0 : 1   2   3 ?
Respuesta
Respuesta
Grupo 1
Grupo 2
Grupo 3
Grupo 1
Grupo 2
Grupo 3
Cómo calculamos F
Cuando tenemos una muestra aleatoria de una población
con varianza desconocida 2, vamos a estimar esta
varianza con la varianza muestral s2. La varianza
muestral se calcula tomando la suma de los cuadrados
de las desviaciones a la media y dividiendo por los
grados de libertad (n-1).
Las dos medidas de variabilidad en ANOVA, MCE y
MCD tienen la misma forma.
Suma de cuadrados (SC)
Media cuadrática 
Grados de libertad (gl)
Cada muestra aleatoria, una por cada k poblaciones,
tiene su media muestral y su varianza muestral
representados por:
y1 , y2 ,..., yk y s12 , s22 ,..., sI2 .
Variación ENTRE grupos:
Bajo la hipótesis nula, las medias poblacionales son
iguales. Si la hipótesis nula fuera cierta, sería razonable
promediar todas las observaciones para tener una
estimación de la media de la población. La media
muestral común sería:
n1 y1  n2 y 2    nk y k
y
n
La media cuadrática ENTRE los grupos o media
cuadrática de los tratamientos se calcula como:
SCE
MCE 
k 1
donde la suma de cuadrados ENTRE (SCE) se calcula
como:
SCE  n1  y1  y   n2  y 2  y     nk  y k  y  
2
2
2
 n y
i
 y
2
i
grupos

 tamaño muestra grupo media muestral grupo  media muestral conjunta 
2
grupos
Variación DENTRO de los grupos:
Uno de los supuestos de ANOVA es que las k
poblaciones tienen la misma varianza. Cada una de las
varianza muestrales es un estimador de la varianza
común 2, independiente de si la hipótesis nula es
cierta. Los grados de libertad de cada varianza muestral
es, ni – 1. La MCD esencialmente combina las varianza
muestrales para obtener un estimador de 2. La media
cuadrática dentro, es también llamada la media
cuadrática del error. El denominador del estadístico F
es:
MCD 
SCD
nk
donde la suma de cuadrados DENTRO de los grupos se
calcula:
SCD  n1  1s12  n2  1s 22    nk  1s k2 
 n
i
 1si2
grupos

 tamaño muestral grupo - 1varianza
muestral grupo 
grupos
Note que esta cantidad es una extensión de la
estimación combinada de la varianza empleada para la
prueba t de 2 muestras:
s 2p 
n1  1s12  n2  1s 22    nk
n1  n2    nk  k
 1s k2
Midiendo la variación TOTAL:
En ANOVA de una vía, la varianza total de todas las
observaciones esta dada por la suma de cuadrados total,
SCT, que mide la variación de cada observación a la
media muestral de todas las observaciones.
SCT 
 y
ij
observaciones
 y 
2
 observació n - media muestral 
2
observaciones
La variación total puede ser particionada entre las dos
fuentes de variación entre y dentro. La relación entre las
sumas de cuadrados es:
SCT  SCE  SCD .
Si se tienen dos de las sumas de cuadrados, se obtiene la
tercera fácilmente.
Tabla ANOVA
Todo esto se resume en la tabla de Análisis de Varianza,
en que se presentan las fuentes de variación, los grados
de libertad, las sumas de cuadrados y las medias
cuadráticas correspondientes.
TABLA DE ANALISIS DE VARIANZA
gl
SC
Fuente de
Grados de
Suma de
variación
libertad
Cuadrados
MC
Medias
cuadráticas
Entre
tratamientos
k 1
SCE   ni  y i  y 
Dentro de
tratamientos
nk
SCD   ni  1si2
Total
n 1
k
2
i 1
n
i 1
SCT    y ij  y 
n
i 1
2
SCE
k 1
SCD
nk
F
F
MCE
MCD
TOMATES continuación.
- Realice los cálculos para docimar la hipotesis de interés del
agricultor. Compruebe sus resultados con tabla salida del
SPSS.
- Compruebe la relación entre las sumas de cuadrados y la de
los grados de libertad.
- Escriba su conclusión para el agricultor.
ANOVA ALTURA TOMATES
Inter-grupos
Intra-grupos
Total
A
B
C
Total
Suma de
Media
cuadrados gl cuadrática
186.133
2
93.067
70.800 12
5.900
256.933 14
F
Sig.
15.774 .000
N Media Desviación típica
5 35.20
3.564
5 43.20
1.924
5 36.40
1.140
15 38.27
4.284