Download analisis de varianza
Document related concepts
Transcript
426 4.6 Análisis de Varianza. El análisis de varianza es una técnica estadística de interdependencia que busca la explicación de una variable cuantitativa mediante una o un grupo de variables cualitativas, las cuales se denominan factores, y cada una de estas contienen un número determinado de niveles. Suponga que se desea comparar a tratamientos o niveles de un factor único. Los resultados que se observan en cada uno de los a tratamientos es una variable aleatoria, que se puede describir mediante el modelo estadístico: i 1,2,..., a Yij i ij j 1,2,..., n donde Yij, es la j-ésima observación sometida al i-ésimo tratamiento, es un parámetro común a todos los tratamientos denominado media global, i, es un parámetro único para el i-ésimo tratamiento llamado efecto del i-ésimo tratamiento, y ij es el componente aleatorio del error. El principal objeto es tratar de probar hipótesis apropiadas con respecto a los efectos del tratamiento y hacer una estimación de ellos. 427 Los errores del modelo son variables aleatorias independientes con distribución normal, con media cero y varianza 2 Modelo de Efectos fijos. En este modelo los efectos de tratamiento se definen usualmente como desviaciones con respecto a la media general, por esa razón. a i 1 i 0 Donde yi. es el total de las observaciones bajo el i-ésimo tratamiento, yi es el promedio de las observaciones bajo el i-ésimo tratamiento, así mismo y.. es la suma de todas las observaciones y y.. es la media general de las observaciones, las cuales expresadas matemáticamente son: n yi. yij i 1 a n y.. yij i 1 j 1 yi . yi. n y.. y.. N i 1,2,...,a N=an representa el número total de observaciones La media de la j-ésima observación sometida al i-ésimo tratamiento es E(yij)= i = +i , i = 1,2,…,a; por lo tanto el valor medio del i-ésimo 428 tratamiento consta de la suma de la media general y el efecto del iésimo tratamiento, donde el objetivo es probar la igualdad de las medias de los a tratamientos, por lo que se tiene: H 0 : 1 2 3 ... a H1 : i j para i j El contraste de hipótesis es equivalente a : H 0 : 1 2 3 ... a 0 H1 : i 0 para al menos un i La tabla CXXIII muestra los resultados que se obtiene para un análisis de varianza aplicada a este modelo, donde A es el nombre de factor a ser analizado, SCi la suma de cuadrados del i-ésimo factor, MCi es la media de cuadrados del i-ésimo factor y la columna F0 muestra el estadístico de prueba de cada factor. TABLA CXXIII Análisis de varianza para modelo uni-factorial. Fuente de Suma de Grados de Media F0 variación cuadrados libertad cuadrática A SCA a-1 MCA Error SCE a(n-1) MCE Total SCT An F0=MCA/MCE 429 Donde: SCT SCTratamientos SC E a 2 n y.. N SCT yij i 1 j 1 a SCTratamientos i 1 MCTratamientos MC E 2 2 yi . y .. n N SCTratamientos a 1 SC E N a Con 1 100% de confianza, se rechaza la hipótesis nula a favor de H1, sí: F0 F ,a 1, N a En este caso se plantea la siguiente hipótesis: H 0 : 1 2 ... a 0 vs H 1 : no se cumple H0 H0 propone que no existe diferencia entre los tratamientos del factor y por eso se iguala a cero, mientras que H1 indica la negación de H0 es decir que al menos uno de los tratamientos del factor es diferente. 430 Se realizará el análisis de varianza, para explicar la calificación general de los estudiantes de séptimo año de educación básica de las escuelas particulares urbanas del cantón Guayaquil, con un modelo factorial que consta de tres factores, los mismos que se detallan a continuación. yijkl i j k ij ik jk ijk ijkl Donde: ijkl ~ N (0, ) y Cov( i , j ) 0 para i j i= 1, 2, 3 j=1, 2 k=1, 2, 3 l=1,2, … ,n i representa el efecto del i-ésimo tratamiento del factor A: estratos en los que se encuentran las escuelas particulares urbanas de Guayaquil, a las que pertenecen los estudiantes a los que se les tomaron las pruebas. Los niveles de este factor son: 1: Estrato 1 (formado por todas las escuelas cuyo costo de pensión era menor a 5 dólares). 2: Estrato 2 (formado por todas las escuelas cuyo costo de pensión era mayor o igual a 5 y menor a 20 dólares). 431 3: Estrato 3 (formado por todas las escuelas cuyo costo de pensión era mayor o igual a 20 dólares). j representa el efecto del j_ésimo nivel del factor B: sexo del estudiante, cuyos niveles son: 0: Masculino. 1: Femenino. k representa el efecto del k_ésimo nivel del factor C: edad del estudiante, con los siguientes tratamientos: 0: Estudiantes cuyas edades se encuentran entre [9, 11] años. 1: Estudiantes comprendidos en el intervalo de edades de (11, 12] 2: Alumnos con edades pertenecientes al intervalo (12, 18] Las hipótesis planteadas correspondientes son: H 0 : 1 2 3 0 vs. H1 : i 0 para al menos un i 432 H 0 : 1 2 0 vs. H1 : j 0 para al menos un j H0 :1 2 3 0 vs. H1 : k 0 para al menos un k H 0 : ij 0 vs. H 1 : al menos un H 0 : ik 0 vs. H 1 : al menos un H 0 : ijk 0 vs. H 1 : al menos un H 0 : jk 0 vs. H 1 : al menos un para toda i, j ij no es 0 para toda i, k ik no es 0 para toda i, j , k ijk no es 0 para toda j , k jk no es 0 433 Análisis de varianza para la nota general del estudiante Modelo factorial yijkl i j k ij ik jk ijk ijkl Donde: ijkl ~ N (0, ) Cov( i , j ) 0 para i j y i= 1, 2, 3 j=1, 2 k=1, 2, 3 l=1,2, … ,n TABLA CXXIV Tabla anova para el modelo factorial que explica la nota general del estudiante Fuente de variación A: ESTRATO B: SEXO C: EDAD A*B A*C B*C A* B*C Error Total Sumas cuadráticas 5293,20291 304,48316 34,58384 1408,55338 417,72308 527,87795 1198,73962 3,12E+05 320704,1639 Grados de libertad 2 1 2 2 4 2 4 962 979 Medias Cuadráticas 2646,60146 304,48316 17,29192 704,27669 104,43077 263,93898 299,68491 323,82424 F Valor p 8,17296 0,94027 0,0534 2,17487 0,32249 0,81507 0,92546 0,0003 0,33245 0,948 0,11418 0,86299 0,44291 0,44834 Como se puede observar en la tabla CXXIV el único factor con un valor p (0.0003) pequeño es el factor A: estratos, por lo tanto se rechaza la hipótesis nula propuesta para este factor, es decir que al 434 menos uno de sus tratamientos es diferente de cero. Mientras que para los demás casos se acepta la hipótesis nula, lo cual significa que no existe diferencia entre los tratamientos del factor sexo y del factor edad, y que las interacciones de estos son nulas. Lo que permite concluir que el sexo y la edad no influyen en la calificación general del estudiante, pero los estratos a los que pertenecen las diferentes escuelas continuación se seleccionadas mediante muestreo sí. A presenta un modelo unifactorial para explicar la calificación general en términos del estrato. Modelo unifactorial Se va ha realizar un análisis unifactorial, ya que cada factor tiene diferentes niveles. Para esto se utiliza el siguiente modelo. Yij i ij Donde: ijkl ~ N (0, ) y Cov( i , j ) 0 para i j i= 1, 2, 3 l=1,2, … ,n La hipótesis para este modelo unifactorial es: H 0 : 1 2 3 0 vs. H1 : i 0 para al menos un i 435 donde la hipótesis nula significa que todos los estratos tienen el mismo efecto sobre la nota general de los estudiantes versus la hipótesis alterna que niega la hipótesis nula ( es decir que el efecto sobre la calificación general del estudiante de al menos un estrato difiere de cero). TABLA CXXV Tabla anova para el modelo unifactorial que explica la nota general del estudiante Fuente de variación A: ESTRATO Error Total Sumas cuadráticas 11162,19972 325464,4558 336626,6555 Grados de libertad 2 977 979 Medias Cuadráticas 5581,099861 333,1263621 F Valor p 16,7537022 7,0117E-08 El estadístico de prueba para la hipótesis previamente establecida con respecto a la nota general es 16.753, con un valor p de 7.011E-08. Por lo tanto existe evidencia estadística para rechazar la hipótesis nula a favor de la hipótesis alterna, lo que permite concluir que existe diferencia en los tratamientos del factor, es decir que los estratos influye en el rendimiento académico del alumno. En vista de que al menos un estrato tiene un efecto diferente a los demás, mediante el método de diferencias significativas (LSD) se conocerá que estrato es el que tiene un efecto sobre la calificación general. 436 Para probar la hipótesis de que los efectos del estrato i son iguales a los efectos del sector j, es decir; H 0 : i j vs. H 1 : Niega a H 0 TABLA CXXVI Mínimas diferencias significativas para la nota general sometida al factor estrato (I) ESTRATO (J) ESTRATO 1 2 3 3 2 Diferencia demedia s 7,4640 3,7908 7 -3,67323 4 Valor p 9,6E0,02187 09 0,02507 9 1 En la tabla CXXVI se observan las mínimas diferencias significativas y los valores p para el contraste de que los estratos tienen la misma influencia sobre la calificación general, se puede ver entonces que todos los tratamientos tienen diferentes efectos ya que sus valores p son muy pequeños. 437