Download I Unidad

Document related concepts

Análisis de la varianza wikipedia , lookup

Coeficiente de determinación wikipedia , lookup

Análisis de la covarianza wikipedia , lookup

Modelo de efectos aleatorios wikipedia , lookup

Homocedasticidad wikipedia , lookup

Transcript
ASIGNATURA
UNIDAD I
ANÁLISIS ESTADISTICO
INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS
OBJETIVO.
Introducir una de las técnicas fundamentales del diseño de experimentos: El análisis de varianza; un
contraste de hipótesis estadístico, que afecta simultáneamente a los valores medios o esperados de k
poblaciones con distribución normal y homoscedásticas, es decir, con idénticas varianzas. En el caso más
sencillo, el modelo ANOVA de un factor de efectos fijos, intervienen una variable aleatoria Y, denominadas
variables observable o variable respuesta, que se analiza en k situaciones experimentales; las cuales
definen el llamado factor o vía.
Variable respuesta;
Variable cualitativa con k niveles o tratamientos
Y
Factor (o vía)
CONOCIMIENTOS PREVIOS.
Resulta conveniente haber leído con profundidad los siguientes math-blocks.
 Estadística descriptiva.
 Intervalos de confianza y contraste de hipótesis para una población.
 Intervalos de confianza y contraste de hipótesis sobre dos poblaciones.
 Muestreo de poblaciones finitas.
INTRODUCCIÓN.
Las técnicas englobadas bajo la denominación de análisis de varianza o abreviadamente ANOVA (del
inglés analysis of variance) han jugado un papel crucial en la metodología estadística avanzada desde que
fuera ideada por R. A Fisher en 1925. Casi siempre se introduce el tema del análisis de la varianza como
respuesta a la necesidad de utilizar una técnica de comparación de más de dos grupos, es decir como un
método para comparar dos tratamientos: si disponemos de medidas cuantitativas continuas, que se pueden
suponer como procedentes de una distribución de probabilidad normal, y queremos comparar dos grupos
-dos tratamientos-, la prueba estadística que se utiliza es un contraste de medias basado en la t de
Student, y cuando se dispone de más de dos grupos, la prueba a emplear es la F de Fisher por medio del
análisis de varianza.
Frecuentemente las circunstancias hacen necesario diseñar un experimento de tal forma que varias
variables o poblaciones puedan estudiarse simultáneamente. Si deseamos investigar las diferencias entre
cinco medias, se podría sugerir en primera instancia, el uso de la distribución t de Student para contrastar
los diez pares de medias por separado. Hay varias razones por las cuales esto no es un buen procedimiento
estadístico. Primero, la cantidad de trabajo involucrado en estos diez contrastes es considerables, pero
valdría la pena hacerlo solamente si no existiera un método más eficiente para el análisis, además de que el
uso de la distribución t de Student en este caso conduciría a una conclusión falsa. Por otra parte, si
seleccionamos un nivel de significación del 5% para cada uno de estos diez contrastes, la probabilidad de
aceptar una hipótesis de no diferencia en cada caso sería de 0.95 y si estos diez eventos fuesen
independientes se tendría que la probabilidad de aceptar la no diferencia de los diez casos sería (0.95) 10 =
0.5987; por lo tanto, la probabilidad de rechazar cuando menos una de estas hipótesis de no diferencia seria
1 - 0.5987 = 0.4013 y el error de tipo I seria del 40%. En la práctica el problema se vuelve más complicado
porque no todos los contrastes de pares son independientes.
2
En el planteamiento más simple del análisis de varianza tenemos una variable numérica cuantitativa
(resultado) y queremos determinar en que medida se puede atribuir la variabilidad de esta a otra variable
cualitativa nominal que vamos a llamar factor. Estamos hablando por tanto de la varianza para un solo
factor que puede tener 2 o más niveles o categorías. Este factor, cuyo posible efecto sobre la variable
medida queremos analizar, puede tener unos efectos fijos, por ejemplo el nivel educativo alcanzado por los
sujetos que intervienen (sin estudio, estudios primarios, secundarios, formación universitaria), y hablamos
entonces de modelo de efectos fijos o bien puede tratarse de una muestra procedente de un conjunto de
niveles mas amplios, como puede ser el caso de un estudio en el que se seleccionan varias fábricas y se
analizan las posibles diferencias entre ellas; entonces se denomina modelo de efectos aleatorios. En el
análisis de varianza de un factor es mucho mas frecuente el modelo de efectos fijos.
El análisis de varianza se aplica ampliamente en la investigación, pues está íntimamente relacionado con el
Diseño Experimental., además es el método más generalizado en la experimentación agrícola y los demás
estudios biológicos por ser más preciso, flexible y de más fácil aplicación. La relación entre estos dos tópicos
se puede resumir diciendo que cuando se diseña un experimento el cual queremos someter a un análisis,
los investigadores pueden, antes de llevar a cabo su investigación, identificar aquellas fuentes de variación
que consideran importantes y pueden seleccionar un modelo que les permita medir la extensión de la
contribución de esas fuentes a la variación total.
Además, el análisis de varianza se puede definir cono una técnica mediante la cual la variación total
presente en un conjunto de datos se divide en varias componentes, cada una de las cuales tiene asociada
una fuente de variación específica, de manera que en el análisis es posible conocer la magnitud de las
contribuciones de cada fuente de variación a la variación total.
Para facilitar los cálculos los datos se disponen en una tabla como se muestra a continuación:
O b s e r v a c
i o n e s
Tratamiento 1
y11
y12
…
y1n
Tratamiento 2
y21
…
…
…
yk 1
…
…
ykn
Ti
ni
si2
yi
.
.
.
Tratamiento k
Vamos a plantear el problema y comentar los cálculos que se efectúan en un análisis de varianza para un
factor. Estudiamos k grupos clasificados de acuerdo a los niveles 1, 2, 3, … , k del factor. En cada nivel
tenemos n1 , n2 , ... , nk observaciones independientes y obtenidas de forma aleatoria. Si designamos de
forma general cada observación como
yij , el subíndice i indica el grupo al que pertenece,
número de la observación dentro de ese grupo, de tal manera por ejemplo
observada
en
el
quinto
sujeto
del
segundo
grupo.
Si
juntamos
j es el
y 25 corresponde al valor
todas
las
observaciones
N  n1  n2  ...  nk , calculamos la media global que denotamos por y . También podemos calcular la
media de cada uno de lo k grupos. La media para el grupo i lo designamos por yi , es obvio que la
diferencia
entre cada observación y la media global se puede descomponer de la siguiente forma:
yij  y  ( yij  yi )  ( yi  y ) , es decir que la diferencia entre el valor observado y la media global es igual
a la suma de las diferencias de la observación con la media de su grupo y la diferencia de la media del grupo
con la media global. Se puede comprobar que si cada término de esa expresión se eleva al
cuadrado y se suma para todas las observaciones, se mantiene la igualdad, lo que curiosamente no es más
3
que la aplicación del famoso teorema de Pitágoras a este diseño:
 ( y
i
ij
 y ) 2   ( y ij  y i ) 2   n( y i  y ) 2
j
i
j
i
j
Cada uno de los términos es una suma de desviaciones cuadráticas, que denominamos en forma abreviada
como Suma de Cuadrados (SC).
BASES DEL ANALISIS DE VARIANZA.
La primera SC del lado de la derecha corresponde a las desviaciones de cada observación respecto a la
media de su propio grupo, por lo que se le conoce como “dentro del grupo” o “intra grupo” (en ingles
within), ya que solo contribuye dentro de las muestras (también puede llamársele SC del error).
El segundo sumando de la derecha corresponde a las desviaciones de la media de cada grupo respecto a la
media global, por lo que cuantifica las diferencias de medias entre los grupos, y se conoce como SC “entre
grupos” (en inglés between), sólo contribuye entre las distintas muestras (también se le conoce como SC de
los tratamientos)
SCTotal  SC Intra grupo  SC Entregrupo
El cuadrado medio (CM) intra-grupo (dentro del grupo) equivale a una varianza, lo calculamos dividiendo la
SC entre los grados de libertad.
CM D 
SC D
. Y se puede comprobar que es en realidad una media
N k
ponderada de las varianzas muestrales de cada grupo con la siguiente expresión:
CM D 
(n1  1) s12  (n2  1) s 22  ....  (nk  1) s k2
n1  n2  ...  nk
Queda claro que constituye por lo tanto una estimación de la varianza común
podemos calcular el CM entre grupos:
CM E 
Si la media de todos los grupos es la misma,

 2.
De igual manera
SC E
k 1
CM E también es una estimación de la varianza común
2
.Esto se puede entender mejor de una forma intuitiva, si consideramos el caso particular en que todos
los grupos tienen el mismo tamaño n . Sabemos que la desviación estándar al cuadrado (varianza) de la
media obtenida en muestras de tamaño
n extraídas de una población normal es
conocemos como error estándar de la media), por lo tanto
 n( yi  y )
k 1
2
 n( y
i
 y) 2
k 1
2
n
(es lo que
será una estimación de
es una estimación de  . Ahora bien, si las medias de los grupos si son diferentes,
2
2
y
n
CM E
no sólo contiene el valor de la varianza intrínseca  , sino que además estará aumentada según las
variaciones entre las medias de los tratamientos y será tanto mayor cuanto mayor sean sus diferencias.
2
El cociente
F
CM E
que compara la variabilidad entre grupos y la variabilidad intra grupo, será tan
CM D
próximo a 1 si las medias de los grupos son similares y tanto mayor a 1 cuanto mayores sean las diferencias
entre los grupos. El valor de F obtenido se contrasta con el valor de la distribución teórica con grados de
4
libertad k  1, N  k y si la probabilidad de obtener un valor tan grande como el observado entonces
rechazamos la hipótesis nula de igualdad de medias entre grupos. Por otro lado hemos visto que la
variabilidad total la hemos dividido en dos partes: Una variabilidad debido o explicado por pertenecer a cada
uno de los grupos o niveles del factor, y una parte de variabilidad individual, que no atribuimos a ninguna
causa correcta y que por ello se le denomina también variabilidad residual. Este podemos reflejarlo de una
forma clara manipulando un poco la fórmula yij  y  ( yij  yi )  ( yi  y ) , en la que se desglosa la
variabilidad de cada observación en tres términos, y ij  y  ( y i  y )  ( y ij  y i ) 
   i   ij
Es decir
que el modelo postulado (término de la derecha) para nuestras observaciones corresponde a tres
 , un efecto diferencial debido a la pertenencia al grupo o tratamiento
un término residual no explicado  ij
sumandos: Una media global
i y
Los resultados de un ANOVA se presentan en una tabla como la siguiente:
Fuente de
var iacón
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Entre grupos
SCE
glE  k  1
CM E 
SCE
glE
Dentro de
grupos Error 
SCD
glD  N  k
CM D 
SC D
gl D
Total
SCTotal
glTotal  N  1
CV % 
(Tratamientos)
FCal
F
CM E
CM D
F se usa para realizar el contraste de la hipótesis de igualdad de medias. La región crítica para dicho
contraste es F  F ,k 1, ( n 1) k  . Las fórmulas correspondientes son,
SC E
T

SCTotal 
2
i
nj
y
 y 

2
ij
N
2
ij
 y 

2
ij
N
SCD  SCTotal  SCE
Donde,
k
: Cantidad de muestras que se comparan.
N
: # total de observaciones.
nj
: Cantidad de elementos de cada muestra.
SUPUESTOS.
De forma similar a lo que ocurre con la regresión lineal, aquí también hay un modelo para los datos. El
modelo asociado al i-ésimo nivel del factor es:
Yi     i   ij , llamado Modelo Aditivo Lineal.
5
i : 1, 2,...........k tratamientos
donde:
j : 1,2,...........n observaciones
Yij : La j-ésima observación del i-ésimo tratamiento
μ : Media general (efecto común a cualquier observación)
i
; Efecto del i-ésimo tratamiento
 ij : Efecto aleatorio de variación.
Es un modelo matemático que representa la constitución de una observación con una media general mas un
elemento aleatorio de variación. Cualquier observación de una población puede expresarse por medio de
una media más un cierto error.
Los errores  están normalmente distribuidos con media 0.
Los errores

son independientes.
Los errores

tienen varianza constante
 2.
Para verificar estos supuestos suele ser útil un gráfico que muestre la distribución de las observaciones por
niveles, si en el grafico se aprecian diferencias entre niveles por lo que a la variación de las observaciones
se refiere, es muy probable que tengamos un problema con el supuesto de varianza constante; si
aparecen “outliers”, puede que no se cumpla el supuesto de normalidad , por otra parte, si el tiempo fuese
un factor importante a la hora de registrar las observaciones, podría ocurrir que observaciones consecutivas
estuvieran correlacionadas, con lo que no se cumpliría el supuesto de independencia.
Las suposiciones que se hagan de la media μ y del error εij, varían con el problema que se tenga. Sin
embargo, debe existir una suposición mínima y ésta es, que Yij debe obtenerse al azar, o lo que es lo
mismo, los errores de muestreo εij deben ser aleatorios, éste término se supone que pertenece a una
población que tiene media cero. Como las observaciones se obtienen al azar, este procedimiento asegura
independencia de los errores de muestreo, condición fundamental en esta teoría para hacer válidas
inferencias sobre una población.
Este modelo supone que hay
k
poblaciones distintas, distribuidas normalmente con medias
1   2  ...   k que poseen la misma varianza σ2. Además suponemos que estas k poblaciones
constituyen juntas una gran población con media μ , llamada Gran Media (Media Poblacional).
ANÁLISIS DEL MODELO DE EFECTOS FIJOS.
Deseamos probar la hipótesis nula de que todas las medias de tratamientos o categorías son iguales, es
decir, el análisis estadístico de las variables obtenidas en un experimento consiste en verificar:
H 0 : 1   2  ....   k
H 1 : No todas las  i son iguales .
Otra forma equivalente de expresar las hipótesis anteriores es en términos de los efectos de los
tratamientos
i
o sea,
H 0 :  1   2  ...  k  0
6
H1   i  0
Por consiguiente es posible hablar de probar la igualdad de las medias de los tratamientos, o bien de probar
que los efectos de tratamientos son cero.
Si la hipótesis nula es verdadera, no existen efectos de los tratamientos y cada observación Yij esta
compuesta de su media poblacional y el elemento aleatorio de variación. Entonces Yij = μ + εij, esto indicaría
que los tratamientos rinden en promedio lo mismo y que las diferencias presentes son casuales o aleatorias.
Pero bien, es eso lo que precisamente se desea verificar, mediante la prueba F. El procedimiento apropiado
para probar la igualdad en el nivel medio de k tratamientos es el análisis de varianza.
PREMISAS.
1.
2.
3.
Aleatoriedad e independencia de errores.
Normalidad.
Homogeneidad de varianzas.
MODELOS.
1.
2.
3.
4.
Análisis de varianza de un factor (una variable de clasificación) en el Diseño Completamente
Aleatorio (DCA).
Análisis de varianza de un factor (una variable de clasificación) en el Diseño de Bloques Aleatorios
Completo (BCA).
Análisis de varianza de dos factores en el Diseño Completamente Aleatorio.
Cuadrados Latinos.
El análisis de varianza puede ser usado para dos tipos de análisis:
1.
2.
Para estimar y contrastar hipótesis acerca de varianzas.
Para estimar y contrastar hipótesis acerca de medias.
Algunos ejemplos donde puede usarse el análisis de varianza:
 Efecto de variedad y diferentes dosis de fertilización sobre el rendimiento de un cultivo determinado.
 Efecto de diferentes raciones alimenticias sobre la ganancia de peso en animales.
 Efecto de toxicidad y poder residual de productos químicos sobre insectos.
EJERCICIOS PROPUETOS.
1.
Un químico esta interesado en determinar los efectos de la temperatura de almacenamiento en la
conservación de manzanas. La respuesta en este sentido es el número de manzanas que se dañan
después de un mes de almacenamiento. La variable tratamiento (temperatura) es fijada
deliberadamente en los siguientes niveles: 50F, 55F, 60F y 65F. Los resultados se indican a
continuación:
50º F
55º F
60º F
65º F
a.
b.
c.
d.
e.
f.
g.
h.
i.
2.
10
5
3
8
14
10
7
10
12
9
6
7
9
8
5
5
8
8
4
5
Construya un gráfico o diagrama apropiado que represente a este conjunto de datos.
Describa cualquier tendencia o relación que pueda ser evidente entre las diferentes
temperaturas.
¿La variación dentro de los grupos parece ser similar para todos los grupos?
Al nivel de significación del 1% y 5%, utilice la prueba FMáx de Hartley para probar la premisa
de homogeneidad de las varianzas.
Describa el modelo aditivo lineal para el experimento.
Basándose en los resultados obtenidos en el inciso (d), aplique una prueba F ANOVA de
una dirección para determinar si existe evidencia de una diferencia en el # de manzanas
podridas, debido al efecto de las temperaturas. Use un nivel de significación del 5%.
Si hay diferencia significativa por efecto de la temperatura, aplique las siguientes pruebas:
Diferencia Mínima Significativa, DSH de Tukey, Rangos múltiples de Duncan, Rangos
múltiples SNK al nivel del 1% y 5%.
Comente los resultados obtenidos en cada una de estas pruebas.
¿Cuál de estas pruebas considera Ud. que es más eficiente en sus resultados?
Se está estudiando la resistencia a la tensión (en lbs./plg2) de cemento Pórtland para lo cual se
aplican cuatro técnicas de mezclado que pueden ser usadas económicamente y se recolectaron los
siguientes datos:
Técnica de mezclado
1
3129 3000 2865 2890
2
3200 3300 2975 3150
3
2800 2900 2985 3050
4
2600
2700 2600 2565
a.
b.
c.
d.
e.
f.
g.
h.
i.
3.
7
Construya un gráfico o diagrama apropiado que represente a este conjunto de datos.
Describa cualquier tendencia o relación que pueda ser evidente entre las diferentes
técnicas de mezclado.
¿La variación dentro de los grupos parece ser similar para todos los grupos?
Al nivel de significación del 5%, use la prueba FMáx de Hartley para probar la premisa de
homogeneidad de las varianzas.
Describa el modelo aditivo lineal para el experimento.
Basándose en los resultados obtenidos en el inciso (d), aplique una prueba F ANOVA de
una dirección para determinar, si existe diferencia significativa en la resistencia a la tensión,
debido a la técnica de mezclado.
Si hay diferencia significativa debido a la técnica de mezclado, aplique las siguientes
pruebas: DSH de Tukey, Duncan y SNK.
Comente los resultados obtenidos en cada una de estas pruebas.
¿Cuál de estas pruebas considera Ud. es más apropiada para su análisis?
Una fábrica de textiles cuenta con un gran número de telares. Se supone que cada uno tiene la
misma producción de tela en lb. por minuto. Para investigar esta suposición, seis telares son
escogidos al azar, y se mide la cantidad de tela producida en cinco tiempos diferentes con los datos
que se muestran a continuación.
Telar
1
2
3
4
5
6
a
b
c
d
4.
14.0
13.9
14.1
13.6
13.8
12.6
14.1
13.8
14.2
13.8
13.6
16.1
14.2
13.9
14.1
14.0
13.9
14.5
14.0
14.0
14.0
13.9
13.8
16.3
8
14.1
14.0
13.9
13.7
14.0
16.2
Al nivel de significación del 1% y 5%, utilice la prueba FMáx de Hartley para probar la
premisa de homogeneidad de varianzas.
Describa el modelo lineal aditivo para el experimento.
Basándose el los resultados del inciso (a), aplique una prueba F ANOVA de una dirección
para determinar si existe diferencia en la producción debido a los diferentes telares.
Si hay diferencia significativa por efecto de los telares, aplique las pruebas siguientes:
Diferencia Mínima Significativa, DSH de Tukey, Rangos Múltiples de Duncan y Rangos
Múltiples SNK al nivel del 1% y 5%.
Cierta compañía que distribuye máquinas expendedoras de refrescos supone que sus aparatos
despachan seis onzas de bebida. Se observaron varias máquinas registrando las cantidades de
refrescos servidos (en onzas), como se muestra en siguiente.
A
B
C
D
E
F
G
H
a.
b
c.
d.
e.
3.8
7.1
6.7
5.6
4.8
4.7
6.1
5.9
6.8
4.1
8.1
7.2
5.3
5.2
6.4
5.7
4.4
6.4
5.6
5.9
4.9
5.7
6.8
5.5
6.6
4.5
4.8
4.5
6.1
6.0
5.7
6.0
5.3
5.3
6.8
6.7
4.6
5.9
5.9
4.9
6.8
6.8
3.8
7.6
4.8
6.5
3.4
6.0
5.0
7.0
6.5
Al nivel de significación del 1% y 5%, utilice la prueba FMáx de Hartley para probar la
premisa de homogeneidad de varianzas.
Describa el modelo aditivo lineal del experimento.
Realice una prueba F ANOVA para determinar si existe diferencia significativa en el
contenido de refrescos en las diferentes máquinas a un nivel del 1% y del 5%.
Compare los resultados obtenidos en el inciso (c)
Si hay diferencia significativa en el contenido de refrescos, aplique las pruebas siguientes:
Diferencia Mínima Significativa, DSH de Tukey, Rangos Múltiples de Duncan y Rangos
Múltiples SNK al nivel del 1% y 5%.
DISEÑO DE BLOQUES COMPLETOS ALEATORIZADOS (BCA)
El propósito de este diseño es el hacer comparaciones entre un conjunto de tratamientos dentro de bloques
de material experimental relativamente homogéneo. En este diseño las unidades experimentales a las
cuales se aplican los tratamientos se subdividen en grupos homogéneos llamados bloques, de manera que
el número de unidades experimentales en un bloque es igual al número (o algún número múltiplo del
número) de tratamientos estudiados. Los tratamientos se asignan al azar a las unidades experimentales
9
dentro de cada bloque. Se hace necesario enfatizar que cada tratamiento aparece en cada bloque y cada
bloque debe recibir todos los tratamientos.
El objetivo de usar este diseño es el de aislar y remover de la variación del error la variación atribuida a los
bloques para asegurar que las medias de los tratamientos estarán libres del efecto del bloque.
Algunos autores llaman al Diseño de Bloques Aleatorios, Diseño Factorial (de dos Factores) con
observación única.
El ejemplo clasico, que utiliza un diseño de bloques aleatorizados, es un experimento agrícola en el que se
comparan diferentes fertilizantes según su capacidad de aumentar el rendimiento de una cosecha particular.
En lugar de asignar los fertilizantes al azar a muchas parcelas en un área grande de composición de suelo
variable, se deben asignar los fertilizantes a bloques más pequeños compuestos de parcelas homogéneas.
La variación entre estos bloques, que es probablemente más significativa comparada con la uniformidad de
las parcelas dentro de un bloque, se elimina entonces del error experimental en el análisis de varianza.
El diseño más directo de bloques aleatorizados es uno en el que asignamos al azar cada tratamiento una
vez a cada bloque. Tal disposición experimental se llama diseño de bloques completos
aleatorizados, cada bloque constituye una sola réplica de los tratamientos.
Modelo Aditivo Lineal (MAL) para un BCA.
yij     i   j   ij
i
donde:
:
1, 2,...........k tratamientos
: 1, 2,...........r repeticiones
: La j-ésima observación del i-ésimo tratamiento
y
j
ij

:
Media poblacional a estimar a partir de los datos del experimento
i
:
Efecto del i-ésimo tratamiento
j
:
Efecto debido al j-ésimo bloque
:
Efecto aleatorio de variación
 ij
Se desea probar la igualdad de las medias de tratamientos y bloques. Las hipótesis nulas son:
H 0 : 1  ...   k  0
H 0 : 1  ...   r  0
o
H 0 :  1  ...   k  0
Generalmente y considerando el caso de k tratamientos que se asignan a r bloques. Los datos se pueden
resumir como se muestra en el arreglo rectangular de k x r. Se supondrá que y , i = 1, 2 3, …., k y j
ij
= 1, 2, 3, … r , son valores de variables aleatorias independientes que tienen distribuciones normales con
media
y varianza común  2 .
ij

Los datos se disponen en una tabla como se muestra a continuación.
Bloque 1
Y11
Tratamiento 1
. .
.
Bloque r
Y1r
Total
T1.
Yk1
Ykr
Tk.
T.1
T.r
T..
y.1
y. r
Media
10
y1.
.
.
.
Tratamiento k
Total
Media
yk .
y..
En la tabla definimos,
Ti.
: Suma de las observaciones para el i-ésimo tratamiento.
T. j
T..
: Suma de las observaciones para el j-ésimo bloque.
yi .
y. j
y..
: Medias de las observaciones para el i-ésimo tratamiento.
: Suma de todas las r k observaciones.
: Medias de las observaciones para el j-ésimo bloque.
: Media de todas las r k observaciones.
Los cálculos en un problema de análisis de varianza para un diseño de bloques completos se puede resumir
como se muestra en la siguiente tabla.
Fuente de
var iación
Suma de
cuadrados
Grados de
libertad
Tratamientos
SCTrat
gl  k  1
Bloques
SC Bloq
gl  r  1
Cuadrado
medio
Error
SCError
glError  (k  1)(r  1)
Total
SCTotal
glTotal  rk  1
 yij 
T
  k. 
2
2
donde,
SCTrat
r
rk
FCal
CM Trat 
SCTrat
glTrat
CM Bloq 
SCBloq
CM Error 
glBloq
SCError
glError
F
CM Trat
CM Error
F
CM Bloq
CM Error
 yij 
T
  .r 
2
2
SCBloq
11
k
SCTot   y ij
2
rk
 y 

2
ij
rk
SC Error  SCTot  SCTrat  SC Bloq
EJERCICIOS PROPUESTOS
1.
2.
Complete los espacios en blanco, de manera que las proposiciones sean verdaderas.
a.
El análisis de varianza puede utilizarse para probar si las medias de más de dos
poblaciones pueden considerarse ________________________________
b.
La forma específica de una distribución ___________________ depende del número de
grados de libertad en el numerador y en el denominador del cociente.
c.
Los tamaños de muestra en
____________________________
d.
La media para el grupo completo de sujetos de todas las medias de un experimento se
conoce como _________________________ .
e.
Una técnica estadística utilizada para probar la igualdad de tres o más medias de
poblaciones se conoce como __________________________
el
análisis
de
varianza
no
necesitan
A continuación se muestra una tabla ANOVA de dos criterios de clasificación.
Fuente
variación
Tratamientos
Bloques
Error
de
SC
gl
50
24
2
3
122
11
CM
FCal
F  0.05
8
a.
Complete la tabla.
b.
¿Cuántos tratamientos hay?
c.
¿Cuántos bloques hay?
d.
¿Cuántas muestras hay en el problema?
e.
Realice una prueba para tratamiento, con un nivel de significación del 5%.
ser
12
Haga una prueba para los bloques, con una significación del 5%.
f.
3.
Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de una tienda de
departamentos que cuenta con seis cuadrillas de trabajadores para ensamblar, los cuales montan
una sección, y se miden el tiempo que emplean (en minutos) obteniendo los resultados siguientes:
Grupo
A
B
C
D
E
F
4.
1
48.2
49.5
50.7
48.6
47.1
52.4
3
51.2
50.0
49.9
47.5
49.1
45.5
4 .
58.6
60.1
62.4
57.5
55.3
61.7 .
a.
Describa el modelo aditivo lineal para el experimento.
b.
Pruebe a un nivel de significación del 5% si las cuatro disposiciones producen distintos
tiempos de montaje y si alguno de los equipos de utilería son consistentemente más
rápidos al montar estos anaqueles.
c.
Determine cuál de las disposiciones de los anaqueles de la tienda de departamento (si hay
alguna) difiere de las otras en el tiempo promedio requerido que ocupa el equipo de
trabajadores para montar la sección considerada, use un nivel de significación del 5%.
Se realizó un estudio para comparar el rendimiento de tres marcas de gasolina en competencia. Se
seleccionaron cuatro modelos diferentes de autos de tamaño variable. Los datos en millas por
galón, son los siguientes. El orden de prueba es al azar para cada modelo.
Marca de gasolina / Modelo
A
B
C
5.
A r r e g l o
2
53.1
52.9
56.8
50.6
51.8
57.2
A
32.4
35.6
38.7
B
28.8
28.6
29.9
C
36.5
37.6
39.1
D
.
34.4
36.2
37.9 .
a.
Describa el modelo aditivo lineal.
b.
Use la prueba de Hartley al nivel de significación del 5% y 1% para probar la homogeneidad
de las varianzas en la marca de la gasolina.
c.
Si hay diferencia en el rendimiento promedio (millas/galón) entre las marcas de gasolina,
realice la prueba ANOVA.
d.
¿Es significativo el modelo de automóvil en la marca de gasolina?
Los siguientes datos se refieren al número de unidades defectuosas producidas por cuatro
trabajadores operando, en sucesión, tres diferentes máquinas.
T r a b a j a d o r
Máquina
1
2
3
6.
B1
37
31
36
B2
38
40
33
B3
38
43
41
B4 .
32
31
38 .
13
a.
Describa el modelo aditivo lineal para el experimento.
b.
Analice si existe diferencia significativa en el número promedio de unidades defectuosas
ocasionadas por el trabajador o por las máquinas usando un nivel de significación del 5%.
Un ingeniero industrial realiza un experimento para estudiar el tiempo que tarda el ojo en enfocar.
Está interesado en la relación que existe entre la distancia del objeto y el tiempo que el ojo tarda en
enfocar. Cuatro diferentes distancias resultan de interés. Hay cinco sujetos disponibles para el
experimento. Como puede haber diferencia entre los sujetos, él decide efectuar un diseño
aleatorizado por bloques. Los datos recopilados se muestran a continuación.
Distancia
(pies)
4
6
8
10
S
1
10
7
5
6
u
2
6
6
3
4
j
e t
3
6
6
3
4
o
4
6
1
2
2
5
6
6
5
3
a.
Describa el modelo aditivo lineal para el experimento.
b.
Analice y obtenga las conclusiones adecuadas, usando un nivel de significación del 5%.
EXPERIMENTOS FACTORIALES
Considere una situación donde es de interés estudiar el efecto de dos factores, A y B sobre alguna
respuesta. Por ejemplo, en un experimento químico desearíamos variar de manera simultánea la presión de
reacción y el tiempo de reacción y estudiar el efecto de cada uno en el rendimiento.
El término factor se utiliza en un sentido general para denotar cualquier característica del experimento que
14
se puede variar como temperatura, tiempo o presión de una prueba a otra. Definimos los niveles de un
factor como los valores reales que se utilizan en el experimento. Para cada uno de estos casos es
importante determinar si los dos factores tiene una influencia en la respuesta, sino también si hay una
interacción significativa entre los dos factores. En lo que respecta a la terminología, el experimento que aquí
se describe es una clasificación en dos direcciones o un experimento de dos factores y el diseño
experimental puede ser un diseño completamente aleatorizado, en las que las diversas combinaciones de
tratamientos se asignan de forma aleatoria a todas las unidades experimentales, o un diseño de bloques
completos aleatorizados, en el que las combinaciones de factores se asignan aleatoriamente a bloques.
En las ciencias, normalmente se usan combinaciones hasta de 3 factores debido principalmente a la
interpretación de las interacciones.
Una de las desventajas de los arreglos factoriales se refieren al número de tratamientos que se generan por
la combinación de los diferentes niveles. Sin embargo es necesario tomar en cuenta la cantidad de
información que se obtiene de estos arreglos, ya que los efectos simples y combinatorios se estudian en
k
forma independiente y están en función de 2  1 , donde k es el número de tratamientos.
Modelo Aditivo Lineal (Para 2 factores distribuidos en un DCA)
Cada observación se puede escribir en la forma,
Yijk     i   j   ij   ij
donde i : 1, 2, ... a niveles del facto A
j : 1, 2, ... b niveles del factor B
k : 1, 2, ... n observaciones.
Yijk :
Representa la k-ésima observación del i-j-ésimo tratamiento.
:
Media poblacional a estimar a partir de los datos del experimento.
i :
j :
 ij :
Efecto del i-ésimo nivel del factor A
Efecto del j-ésimo nivel del factor B
Efecto de la interacción entre los factores A y B
ANÁLISIS DE VARIANZA DE DOS FACTORES
Para presentar las fórmulas generales del ANOVA de un experimento de dos factores con el uso de
observaciones repetidas en un diseño totalmente aleatorizado, consideraremos el caso de n replicas de las
combinaciones del tratamiento que se determina por a niveles del factor A y b niveles del factor B. Las
observaciones se pueden clasificar por medio de un arreglo rectangular donde los renglones representan los
15
niveles del factor A y las columnas los niveles del factor B. Cada combinación de tratamiento define una
celda en nuestro arreglo. De esta manera tenemos ab celdas. Cada una de las cuales contiene n
observaciones. Denotamos la k-ésima observación tomada en el i-ésimo nivel del factor A y el j-ésimo nivel
del factor B con y
, las abn observaciones.
ijk
Las observaciones de la celda (ij) -ésima constituyen una muestra aleatoria de tamaño n de una
población que se supone distribuida normalmente con una media
 ij
y varianza  .
2
Para facilitar los cálculos los datos se disponen en una tabla como se muestra a continuación.
Experimento con dos factores con n réplicas
A
1
B
1
2
y111
y112
y121
…
b
Total
y1b1
T1..
Media
y1..
y122
…
y11n
…
…
…
..
__________________________________________________________
2
y
211
…
y21n
__________________________________________________________
…
…
__________________________________________________________
a
y
a11
…
ya1n
___________________________________________________________
Total
T
T
T
.1.
Media
.b.
y.1.
y.b.
Definimos los siguientes símbolos,
Tij .
: Suma de observaciones en la
Ti.. :
T. j . :
(ij) -ésima celda.
Suma de observaciones en el i-ésimo nivel del factor A.
Suma de observaciones en el j-ésimo nivel del factor B.
...
y...
T...
yij .
16
: Suma de todas las a b n observaciones.
: Media de las observaciones en la
(ij) -ésima celda.
yi .. :
Media de las observaciones en el i-ésimo nivel del factor A.
y. j . :
Media de las observaciones en el i-ésimo nivel del factor B.
y... :
Media de todas las a b n observaciones.
Formulación de las Hipótesis
1.
2.
3.
H 0 : 1  ...   a  0
Ha : Al menos una  i  0
H 0 : 1  ...   b  0
H a : Al menos una  j  0
H 0 :  ij  0
H a : Al menos una  ij  0

2
Cada una de estas pruebas se basará en una comparación de estimaciones independientes de
que
proporciona la división de la suma total de cuadrados de nuestros datos en cuatro componentes por
medio de las siguientes identidades.
SC A 
SC B
SC AB
 Ti.
 y 

2
2
ijk
bn
abn
T

 y 

2
2
.j
ijk
an
abn
T

SCTrat
2
 y 

2
 SC A  SC B
n
abn
 SC A  SCB  SC AB
SCTotal 
ij
y
ijk
 y 

2
2
ijk
ijk
abn
17
SCError  SCTotal  SCTrat
Análisis de varianza para el experimento de dos factores con n réplicas.
Fuente de
variación
Factor A
SC
gl
CM
FCal
SC A
a 1
CM A
Factor B
SCB
b 1
CM B
Interacción AB
SC AB
CM A
CM Error
CM B
FB 
CM Error
CM AB
FAB 
CM Error
Error
( a  1)(b  1) CM AB
SCError
SCTotal
Total
ab(n  1)
F
FA 
CM Error
abn  1
EJERCICIOS PROPUESTOS
1.
Se realiza un experimento para determinar si la temperatura de ignición o posición del horno influye
en la densidad de coacción de un ánodo de carbono. Los datos se muestran a continuación.
Temperatura
.
Posición
800
825
850
.
1
570
1063
565
565
1080
510
583
1043
590
2
a.
b.
c.
d.
528
547
521
988
1026
1004
526
538
532
.
Describa el modelo aditivo lineal.
Formule las hipótesis, construya la tabla ANOVA y obtenga sus conclusiones a un nivel
del 5%.
Construya y comente una gráfica de la respuesta promedio de cada combinación de
tratamiento.
Si la interacción es significativa, realice una prueba de rangos múltiples de Duncan al 5%
la temperatura al nivel de la posición 2.
2.
3.
18
Se encuentra en estudio el rendimiento de un proceso químico. Se cree que lados variables
importantes son la presión y la temperatura. Se seleccionan 3 niveles de cada factor y se realiza un
experimento factorial con 2 réplicas. Se recopilan los siguientes datos.
Presión
.
Temperatura
200
215
230
Baja
90.2
90.6
90.4
90.4
90.7
90.2
Intermedia
90.1
90.3
90.5
90.6
89.9
90.1
Alta
90.5
90.7
90.8
90.9
90.4
90.1
.
a.
Describa el modelo aditivo lineal.
b.
Formule las hipótesis, construya la tabla ANOVA y obtenga sus conclusiones a un nivel del
5% y 1%.
c.
Construya y comente una gráfica de la respuesta promedio de cada combinación de
tratamiento.
d.
Si la interacción es significativa, realice una prueba de rangos múltiples de Duncan al 1%
para la temperatura al nivel de presión de 230
e.
Si la interacción es significativa, realice una prueba de rangos múltiples de Duncan al 1%
para la presión a un nivel de temperatura alta.
Se sabe que la tasa de extracción de cierto polímetro depende de la temperatura de reacción y de la
cantidad de catalizador que se utiliza. Se lleva a cabo un experimento en cuatro niveles de
temperatura y cinco niveles del catalizador, y se registra la tasa de extracción en la siguiente tabla.
C a n t i d a d d e c a t a l i z a d o r
.
0.5%
0.6%
0.7%
0.8%
0.9% .
50ºC 38
45
57
59
57
41
47
59
61
58
60ºC
44
43
56
57
70
69
73
72
61
58
70ºC
44
47
56
60
70
67
73
61
61
59
80ºC
49
47
62
65
70
55
62
69
53
58
a.
Describa el modelo aditivo lineal.
b.
Desarrolle un análisis de varianza.
c.
.
Pruebe la significancia de los efectos principales y de la interacción a un nivel del 1% y
5%.