Download analisis de varianza

Document related concepts

Análisis de la varianza wikipedia , lookup

Coeficiente de determinación wikipedia , lookup

Prueba t de Student wikipedia , lookup

Modelo de efectos aleatorios wikipedia , lookup

Diseño experimental wikipedia , lookup

Transcript
426
4.6
Análisis de Varianza.
El
análisis
de
varianza
es
una
técnica
estadística
de
interdependencia que busca la explicación de una variable
cuantitativa mediante una o un grupo de variables cualitativas, las
cuales se denominan factores, y cada una de estas contienen un
número determinado de niveles.
Suponga que se desea comparar a tratamientos o niveles de un
factor único. Los resultados que se observan en cada uno de los a
tratamientos es una variable aleatoria, que se puede describir
mediante el modelo estadístico:
i  1,2,..., a
Yij     i  ij  
 j  1,2,..., n
donde Yij, es la j-ésima observación sometida al i-ésimo tratamiento,
 es un parámetro común a todos los tratamientos denominado
media global,
i, es un parámetro único para el i-ésimo tratamiento
llamado efecto del i-ésimo tratamiento, y ij es el componente
aleatorio del error. El principal objeto es tratar de probar hipótesis
apropiadas con respecto a los efectos del tratamiento y hacer una
estimación de ellos.
427
Los errores del modelo son variables aleatorias independientes con
distribución normal, con media cero y varianza 2
Modelo de Efectos fijos.
En este modelo los efectos de tratamiento  se definen usualmente
como desviaciones con respecto a la media general, por esa razón.
a

i 1
i
0
Donde yi. es el total de las observaciones bajo el i-ésimo tratamiento,
yi es el promedio de las observaciones bajo el i-ésimo tratamiento,
así mismo y.. es la suma de todas las observaciones y y.. es la
media general de las observaciones, las cuales expresadas
matemáticamente son:
n
yi.   yij
i 1
a
n
y..   yij
i 1 j 1
yi . 
yi.
n
y.. 
y..
N
i  1,2,...,a
N=an representa el número total de observaciones
La media de la j-ésima observación sometida al i-ésimo tratamiento
es E(yij)= i = +i , i = 1,2,…,a; por lo tanto el valor medio del i-ésimo
428
tratamiento consta de la suma de la media general y el efecto del iésimo tratamiento, donde el objetivo es probar la igualdad de las
medias de los a tratamientos, por lo que se tiene:
H 0 : 1   2   3  ...   a
H1 :  i   j
para i  j
El contraste de hipótesis es equivalente a :
H 0 :  1   2   3  ...   a  0
H1 :  i  0
para al menos un  i
La tabla CXXIII muestra los resultados que se obtiene para un
análisis de varianza aplicada a este modelo, donde A es el nombre
de factor a ser analizado, SCi la suma de cuadrados del i-ésimo
factor, MCi es la media de cuadrados del i-ésimo factor y la columna
F0 muestra el estadístico de prueba de cada factor.
TABLA CXXIII
Análisis de varianza para modelo uni-factorial.
Fuente de Suma de
Grados de
Media
F0
variación
cuadrados
libertad
cuadrática
A
SCA
a-1
MCA
Error
SCE
a(n-1)
MCE
Total
SCT
An
F0=MCA/MCE
429
Donde:
SCT  SCTratamientos  SC E
a
2
n
y..
N
SCT   yij 
i 1 j 1
a
SCTratamientos  
i 1
MCTratamientos 
MC E 
2
2
yi .
y
 ..
n
N
SCTratamientos
a 1
SC E
N a
Con 1   100% de confianza, se rechaza la hipótesis nula a favor de
H1, sí:
F0  F ,a 1, N a
En este caso se plantea la siguiente hipótesis:
H 0 :  1   2  ...   a  0
vs
H 1 : no
se
cumple
H0
H0 propone que no existe diferencia entre los tratamientos del factor y
por eso se iguala a cero, mientras que H1 indica la negación de H0 es
decir que al menos uno de los tratamientos del factor es diferente.
430
Se realizará el análisis de varianza, para explicar la calificación
general de los estudiantes de séptimo año de educación básica de
las
escuelas particulares urbanas del cantón Guayaquil, con un
modelo factorial que consta de tres factores, los mismos que se
detallan a continuación.
yijkl     i   j   k   ij   ik    jk   ijk   ijkl
Donde:
 ijkl ~ N (0, )
y
Cov( i ,  j )  0 para i  j
i= 1, 2, 3
j=1, 2
k=1, 2, 3
l=1,2, … ,n
 i representa el efecto del i-ésimo tratamiento del factor A: estratos
en los que se encuentran las escuelas particulares urbanas de
Guayaquil, a las que pertenecen los estudiantes a los que se les
tomaron las pruebas. Los niveles de este factor son:
1:
Estrato 1 (formado por todas las escuelas cuyo costo de
pensión era menor a 5 dólares).
2:
Estrato 2 (formado por todas las escuelas cuyo costo de
pensión era mayor o igual a 5 y menor a 20 dólares).
431
3:
Estrato 3 (formado por todas las escuelas cuyo costo de
pensión era mayor o igual a 20 dólares).
 j representa el efecto del j_ésimo nivel del factor B: sexo del
estudiante, cuyos niveles son:
0:
Masculino.
1:
Femenino.
 k representa el efecto del k_ésimo nivel del factor C: edad del
estudiante, con los siguientes tratamientos:
0:
Estudiantes cuyas edades se encuentran entre [9, 11] años.
1:
Estudiantes comprendidos en el intervalo de edades de (11, 12]
2:
Alumnos con edades pertenecientes al intervalo (12, 18]
Las hipótesis planteadas correspondientes son:
H 0 : 1   2   3  0
vs.
H1 :  i  0
para al menos un  i
432
H 0 : 1   2  0
vs.
H1 :  j  0
para al menos un
j
H0 :1   2   3  0
vs.
H1 :  k  0
para al menos un  k
H 0 :  ij 0
vs.
H 1 : al menos un
H 0 :  ik 0
vs.
H 1 : al menos un
H 0 :  ijk 0
vs.
H 1 : al menos un
H 0 :   jk 0
vs.
H 1 : al menos un
para toda i, j
 ij no
es 0
para toda i, k
 ik no
es 0
para toda i, j , k
 ijk no
es 0
para toda j , k
  jk no
es 0
433
Análisis de varianza para la nota general del estudiante
Modelo factorial
yijkl     i   j   k   ij   ik    jk   ijk   ijkl
Donde:
 ijkl ~ N (0, )
Cov( i ,  j )  0 para i  j
y
i= 1, 2, 3
j=1, 2
k=1, 2, 3
l=1,2, … ,n
TABLA CXXIV
Tabla anova para el modelo factorial que explica la nota
general del estudiante
Fuente de
variación
A: ESTRATO
B: SEXO
C: EDAD
A*B
A*C
B*C
A* B*C
Error
Total
Sumas
cuadráticas
5293,20291
304,48316
34,58384
1408,55338
417,72308
527,87795
1198,73962
3,12E+05
320704,1639
Grados de
libertad
2
1
2
2
4
2
4
962
979
Medias
Cuadráticas
2646,60146
304,48316
17,29192
704,27669
104,43077
263,93898
299,68491
323,82424
F
Valor p
8,17296
0,94027
0,0534
2,17487
0,32249
0,81507
0,92546
0,0003
0,33245
0,948
0,11418
0,86299
0,44291
0,44834
Como se puede observar en la tabla CXXIV el único factor con un
valor p (0.0003) pequeño es el factor A: estratos, por lo tanto se
rechaza la hipótesis nula propuesta para este factor, es decir que al
434
menos uno de sus tratamientos es diferente de cero. Mientras que
para los demás casos se acepta la hipótesis nula, lo cual significa
que no existe diferencia entre los tratamientos del factor sexo y del
factor edad, y que
las interacciones de estos son nulas. Lo que
permite concluir que el sexo y la edad no influyen en la calificación
general del estudiante, pero los estratos a los que pertenecen las
diferentes
escuelas
continuación se
seleccionadas
mediante
muestreo
sí.
A
presenta un modelo unifactorial para explicar la
calificación general en términos del estrato.
Modelo unifactorial
Se va ha realizar un análisis unifactorial, ya que cada factor tiene
diferentes niveles. Para esto se utiliza el siguiente modelo.
Yij     i   ij
Donde:
 ijkl ~ N (0, )
y
Cov( i ,  j )  0 para i  j
i= 1, 2, 3
l=1,2, … ,n
La hipótesis para este modelo unifactorial es:
H 0 : 1   2   3  0
vs.
H1 :  i  0
para al menos un  i
435
donde la hipótesis nula significa que todos los estratos tienen el mismo
efecto sobre la nota general de los estudiantes versus la hipótesis
alterna que niega la hipótesis nula ( es decir que el efecto sobre la
calificación general del estudiante de al menos un estrato difiere de
cero).
TABLA CXXV
Tabla anova para el modelo unifactorial que explica la nota
general del estudiante
Fuente de
variación
A: ESTRATO
Error
Total
Sumas
cuadráticas
11162,19972
325464,4558
336626,6555
Grados de
libertad
2
977
979
Medias
Cuadráticas
5581,099861
333,1263621
F
Valor p
16,7537022 7,0117E-08
El estadístico de prueba para la hipótesis previamente establecida con
respecto a la nota general es 16.753, con un valor p de 7.011E-08.
Por lo tanto existe evidencia estadística para rechazar la hipótesis nula
a favor de la hipótesis alterna, lo que permite concluir que existe
diferencia en los tratamientos del factor, es decir que los estratos
influye en el rendimiento académico del alumno. En vista de que al
menos un estrato tiene un efecto diferente a los demás, mediante el
método de diferencias significativas (LSD) se conocerá que estrato es
el que tiene un efecto sobre la calificación general.
436
Para probar la hipótesis de que los efectos del estrato i son iguales a
los efectos del sector j, es decir;
H 0 : i   j
vs.
H 1 : Niega a H 0
TABLA CXXVI
Mínimas diferencias significativas para la nota general
sometida al factor estrato
(I) ESTRATO
(J) ESTRATO
1
2
3
3
2
Diferencia
demedia
s
7,4640
3,7908
7
-3,67323
4
Valor
p
9,6E0,02187
09
0,02507
9
1
En la tabla CXXVI se observan las mínimas diferencias significativas y
los valores p para el contraste de que los estratos tienen la misma
influencia sobre la calificación general, se puede ver entonces que
todos los tratamientos tienen diferentes efectos ya que sus valores p
son muy pequeños.
437