Download Estadística. Comparación de tres o más muestras

Document related concepts

Análisis de la varianza wikipedia , lookup

Prueba t de Student wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Razón de correlación wikipedia , lookup

Desviación típica wikipedia , lookup

Transcript
131
Módulo
8 – Fascículo Nº 1 – 2012
Estadística. Comparación de tres o–más
muestras
Estadística. Comparación de tres
o más muestras
Dr. Jorge Thierer1, MTSAC
Contenidos
– Comparación de tres o más medias. ANOVA
– Comparación de tres o más proporciones
– Intervalo de confianza. Concepto y aplicaciones
–Bibliografía
Abreviaturas
CEM
CF
CMG
EEM
Cuadrado del error de la media
Clase funcional
Cuadrado de medias entre grupos
Error estándar de la media
En la entrega anterior nos centramos en la comparación entre dos muestras, tanto de variables
categóricas como continuas. ¿Qué sucede cuando
las muestras son tres o más?
Comparación de tres o más medias.
ANOVA
___________
Supongamos un estudio observacional de pacientes con insuficiencia cardíaca. Son 151 pacientes,
y los dividimos en cuartiles de acuerdo con la
distancia recorrida en una prueba de la caminata
de 6 minutos. Se definen entonces cuatro grupos,
Cuadro 1.

IC
SCE
SCG
T3
el grupo 1 corresponde al 25% de los pacientes
con valores de caminata más bajos, y así sucesivamente hasta llegar al grupo 4, que corresponde
a los pacientes con mayor distancia recorrida. En
todos los pacientes hemos dosado triyodotironina (T3) porque nos interesa explorar la relación
entre caminata y metabolismo tiroideo. Tenemos
entonces para cada grupo la media y la desviación
estándar de los valores de T3 (Cuadro 1).
Queremos saber si hay una diferencia significativa (p < 0,05) entre los grupos. ¿Cómo hacer?
En base a los conocimientos ya adquiridos nos
planteamos comparar sucesivamente la media de
p (Grupo 1vs. …) p (Grupo 2 vs. …) p (Grupo 3 vs.….)
Grupo Valor de T3 1 (n = 37) 0,93 ± 0,19 2 (n = 38) 1,02 ± 0,29 0,11 3 (n = 38) 1,02 ± 0,24 0,07 1
4 (n = 38) 1,06 ± 0,17 0,002 0,46 Director del Área de Docencia de la Sociedad Argentina de Cardiología
Unidad de Insuficiencia Cardíaca CEMIC
MTSAC
Miembro Titular de la Sociedad Argentina de Cardiología
1
Intervalo de confianza
Suma de cuadrados del error
Suma de cuadrados entre grupos
Triyodotironina
0,40
132

Fig. 1.

cada grupo con la de cada uno de los otros, empleando la prueba de la t para datos independientes. Hacemos entonces seis comparaciones: media
de T3 de grupo 1 vs. grupo 2; media de grupo 1 vs.
grupo 3; media de grupo 1 vs. grupo 4; media de
grupo 2 vs. grupo 3; media de grupo 2 vs. grupo
4; media de grupo 3 vs. grupo 4. Tal como puede
verse en el Cuadro 1, encontramos tendencia a
que la media de T3 del grupo 1 difiera de la del
grupo 2 (p = 0,11) y de la del grupo 3 (p = 0,07)
y una diferencia significativa respecto de la media
del grupo 4 (p = 0,002). Concluimos afirmando
que los pacientes con menor capacidad funcional
tienen valores de T3 significativamente menores
que aquellos con mayor capacidad de esfuerzo.
¿Hemos hecho bien? Recordemos que en cada
comparación trabajamos con un valor de p de 0,05,
por lo que presumimos una tasa de falsos positivos
del orden del 5%. Al hacer múltiples comparaciones, la posibilidad de que alguna de ellas sea un
falso positivo, por lo tanto, aumenta. Al hacer seis
comparaciones, la tasa de falsos positivos sube a
aproximadamente un 30%.
De este razonamiento surge entonces la necesidad de realizar, antes de las comparaciones
individuales, una prueba global que defina si
existe alguna diferencia, en algún lado, entre toda
la población estudiada. De ser así, veremos luego
dónde radica esa diferencia. Esta es la lógica del
ANOVA (análisis de la varianza), la prueba que se
usa en principio para comparar tres o más medias.
Veamos cómo se razona.
En la Figura 1 hemos representado en oscuro
una variable continua, con determinada dispersión
de valores y una media global. Abajo, representamos tres grupos dentro de la muestra total, cada
uno con su dispersión de valores y la media correspondiente. Como vemos, cada uno de los grupos
tiene una dispersión importante, y las medias de
los tres grupos no parecen muy diferentes entre sí.
En la Figura 2, en cambio, con la misma
variable y la misma dispersión global, los tres
grupos muestran cada uno de ellos una dispersión
menor dentro de ellos, y las medias parecen más
diferentes entre sí.
En el primer caso diríamos que la dispersión
global se explica por la gran dispersión de valo-
– Módulo 8 – Fascículo Nº 1 – 2012
Fig. 2.
res dentro de los grupos, pero que los valores de
éstos no parecen diferir demasiado entre sí. En el
segundo caso, atribuiríamos la dispersión global
a la diferencia entre los grupos.
En nuestro ejemplo, hay 151 pacientes, cada
uno con su valor de T3. Por lo tanto, tenemos 151
valores de T3, con un valor de media y de desviación estándar que representan las 151 determinaciones. A esa media global la denominaremos
la gran media. La desviación estándar, medida
de dispersión de los valores de T3 alrededor de la
media, es la raíz cuadrada de la varianza, la suma
de las diferencias entre cada valor individual y la
gran media elevadas al cuadrado. Existe entonces una varianza global, la de los 151 pacientes
considerados en forma conjunta.
Esta varianza global tiene dos fuentes.
1. Podemos considerar que las medias de cada
grupo están dispersas respecto de la gran
media. Esta dispersión de las medias de cada
grupo respecto de la media global genera una
fuente de varianza, la varianza entre grupos.
La estimación de la varianza de las medias
respecto de la media global surge de la fórmula
S nj (Xj – X)2 / j – 1
133
Estadística. Comparación de tres o más muestras
En esta fórmula, nj es el número de observaciones en cada grupo, Xj es la media de cada grupo,
X es la media global y j es el número de grupos.
Por lo tanto, lo que estamos haciendo es:
a) obtener para cada grupo el producto del número de observaciones por la diferencia entre
la media del grupo y la media global elevada
al cuadrado.
b) sumar todos los productos. Esta suma se
denomina suma de cuadrados entre grupos (SCG) (en inglés, sum of squares within
arrays -SSA-).
c) dividir esa suma por el número de grupos – 1.
Este resultado recibe el nombre de cuadrado
de medias entre grupos (CMG) (en inglés,
mean square within arrrays -MSA-). El CMG
tiene j – 1 grados de libertad (el denominador de
la fórmula).
2. Al haber dividido a los pacientes en cuatro
grupos, entendemos que en cada uno de ellos
hay una media de T3 y una varianza. En cada
grupo hay valores de T3 dispersos en torno de
la media grupal. Esta dispersión, esta varianza, la denominamos varianza intragrupos.
La estimación de la varianza dentro de los
grupos surge de la fórmula
S (nj – 1) sj2 / N – j
En esta fórmula, nj es el número de observaciones en cada grupo, sj2 es la varianza de cada
grupo, N es el número total de observaciones y j es
el número de grupos. Por lo tanto, lo que estamos
haciendo es:
a) obtener para cada grupo el producto del número de observaciones – 1 por la varianza del
grupo;
b) sumar los productos. Esta suma se llama
suma de cuadrados del error (SCE) (en
inglés, sum of squared error -SSE-);
c) dividir la suma obtenida por el número total
de observaciones menos el número de grupos.
El resultado así obtenido se denomina cuadrado del error de la media (CEM) (en inglés, mean squared error -MSE-). El CEM tiene
N – j grados de libertad (el denominador de la
fórmula).
Entonces, como vemos, la dispersión del total
de las observaciones respecto de la media general
surge de la dispersión de las medias de los grupos
respecto de la media total, y de la dispersión en
cada grupo de las observaciones individuales
respecto de la media grupal.
––––––––––––––––––––––––––––––––––––––––
La dispersión del total de las observaciones respecto de la media general surge de la dispersión
de las medias de los grupos respecto de la media
total, y de la dispersión en cada grupo de las observaciones individuales respecto de la media grupal.
––––––––––––––––––––––––––––––––––––––––
La lógica del ANOVA se basa en detectar cuál
es la fuente más importante de la varianza global:
la varianza de las medias grupales alrededor de la
gran media (CMG), o la varianza de las observaciones de cada grupo alrededor de la media grupal
(CEM). ¿La varianza entre grupos o las varianzas
intragrupos? Se entiende que si entre los grupos
hay una o varias diferencias significativas (es decir, si realmente las medias de los grupos difieren
con valor de p < 0,05), entonces la varianza entre
grupos estimada por CMG será una fuente muy
importante de la varianza total. Si, en cambio, la
varianza total se debe sobre todo a la dispersión
dentro de cada grupo, las varianzas intragrupos
estimadas por CEM serán más importantes. Para
definir este punto se recurre a la prueba F, que
es un cociente entre ambas fuentes de varianza.
F = CMG / CEM
––––––––––––––––––––––––––––––––––––––––
Si la varianza total se debe a la dispersión dentro
de cada grupo, las varianzas intragrupos estimadas por CEM serán más importantes.
––––––––––––––––––––––––––––––––––––––––
Al igual que en el caso de la prueba de la t o
de la de chi cuadrado, el número de observaciones
determina si el valor de F tiene o no significación
estadística. El cálculo de F considera los grados de
libertad para el numerador (j – 1) y el denominador (N – j). Si el valor de F corresponde a un valor
de p < 0,05, entonces el ANOVA nos indica que
la varianza entre los grupos es la fuente fundamental de la varianza total, y que por lo tanto hay
134
– Módulo 8 – Fascículo Nº 1 – 2012
alguna/s diferencia/s entre grupos que deberemos
explorar. Si, por el contrario, F no arroja un valor
significativo, no podemos afirmar que la varianza
entre los grupos sea muy importante como fuente
de varianza total, y entonces la comparación entre
grupos individuales ya no tiene sentido.
¿Qué hacer si el ANOVA es significativo? Existen diferentes pruebas que frente a esta situación
permiten en una segunda instancia ir a buscar
dónde radica la diferencia. Algunas se hacen a
priori y otras a posteriori del ANOVA. Una primera aproximación es considerar que en la búsqueda
de diferencias entre grupos podemos trabajar con
un valor de p igual a 0,05 dividido por el número
de comparaciones. Así, por ejemplo, si en nuestro
caso tras haberse demostrado que el ANOVA era
significativo hicimos seis comparaciones entre los
cuatro grupos, sólo hablaríamos de diferencia significativa entre medias si en algún caso el valor de
p fuera < 0,05/6, es decir, < 0,0083. Notemos que
la comparación que hicimos inicialmente entre las
medias de los grupos 1 y 4 arrojó un valor de p de
0,002. ¿Es entonces esa diferencia significativa?
Repetimos, ese valor tiene sentido si previamente
el ANOVA arrojó un valor de F correspondiente a
un valor de p < 0,05. ¿Es éste el caso?
El Cuadro 2 nos muestra el ANOVA para
nuestro ejemplo. Se presentan las dos fuentes
de variación (intergrupos e intragrupos) y la
varianza total. En cada caso, dividiendo la suma
de los cuadrados por los grados de libertad correspondientes se obtienen los cuadrados de las
medias. El cociente entre CMG y CEM es 2,02, y
para 3 y 147 grados de libertad, el valor de p es
de 0,11. Ello significa que no hay una diferencia
significativa entre grupos que explique la varianza total, y por lo tanto no es válido decir que el
grupo 4 tiene un valor de T3 significativamente
diferente del grupo 1.
Fuente de varianza El ANOVA se emplea suponiendo que la
distribución de los datos dentro de cada grupo
es normal. Cuando la distribución de los datos
es no paramétrica, o el número de observaciones
es menor de 30, se utiliza una prueba de lógica
similar, la de Kruskal-Wallis.
Comparación de tres o más proporciones
___________
En este caso se utiliza la prueba de chi cuadrado.
Análisis posteriores al hallazgo de un valor de p significativo permiten definir dónde radica la diferencia.
Intervalo de confianza. Concepto
y aplicaciones
___________
Como ya señalamos en la entrega sobre probabilidad, cada vez que se informa el valor estadístico
(media, proporción, coeficiente de correlación,
riesgo relativo, etc.) de una muestra o población se
entiende que no es un valor único y certero, sino
que representa una estimación puntual del valor
verdadero. Es un valor probable dentro de una
distribución de probabilidades.
Veamos un ejemplo aplicado a la media.
Recordemos que en una distribución muestral
de medias entre la media y ± 1,96 errores estándar
de la media (EEM) queda incluido el 95% de las
medias probables. Recordemos también que el
EEM es igual a la desviación estándar dividida por
la raíz cuadrada del n de observaciones. Así, por
ejemplo, si se informa que en una muestra de 100
observaciones la media de colesterol es 200 mg/dl
y la desviación estándar es 60 mg/dl,
EEM = 60 / 10 = 6
y entre 200 mg/dl ± 1,96 × 6 mg/dl queda incluido
el 95% de las medias probables.
Suma de cuadrados Grados de libertad Entre grupos SCG = 0,325 3
CMG = 0,108
Dentro de los grupos SCE = 7,871
147
CEM = 0,053
8,196
150 0,054

Total Cuadro 2.
Cuadrado de medias F
p
CMG / CEM = 2,02 0,11
135
Estadística. Comparación de tres o más muestras
¿Por qué IC 95% y no IC 90% u 80%? Porque,
como ya se explicó en entregas anteriores, se presume que en una distribución gausiana de probabilidades el 95% central de los valores corresponde
a la misma distribución, y los valores por fuera
de ese 95% central, ese 5% de valores extremos,
corresponden a otra distribución, son significativamente diferentes. Por eso, el concepto de IC 95%
se emparenta con el de significación estadística.
Veamos otro ejemplo (Cuadro 3).
a) Entre los 151 pacientes con insuficiencia
cardíaca que citamos al inicio, 108 en CF I-II
tienen una prueba de la caminata de 6 minutos
con media de 319 metros e IC 95% de 293345 metros. Hay 43 pacientes en CF III-IV con
una prueba de la caminata con media de 214
metros e IC 95% de 179-249 metros. Notemos
que el límite superior del IC 95% de los pacientes en CF III-IV es menor que el límite inferior
del IC 95% de los pacientes en CF I-II. Quiere
decir que los intervalos de confianza de los
dos grupos “no se tocan”. No hace falta hacer
una prueba estadística para entender que hay
diferencia estadísticamente significativa entre ambos grupos, hay un valor de p para esa
diferencia entre medias que es por lo menos
menor de 0,05. Si recurrimos a la prueba de la
t, obtenemos un valor de p < 0,001.
b) Veamos ahora qué sucede en los mismos
pacientes respecto del colesterol. Los pacientes en CF I-II tienen un colesterol medio de
205 mg/dl, con un IC 95% de 190 a 220 mg/dl.
Los pacientes en CF III-IV tienen colesterol
medio de 197 mg/dl, con IC 95% entre 180 y
Variable Caminata de
6 minutos (m)
CF I-II CF III-IV p
319
(293-345)
214
(179-249)
< 0,001
Colesterol 205
1970,57
(mg/dl) (190-220)(180-214)
Peso (kg) 83
76
0,02
(80-87)(71-81)
Hemoglobina14,15
13,60 0,07
(g/dl)
(13,85-14,45)(13,07-14,13)

Es decir que entre 188,24 y 211,76 mg/dl está
incluido el 95% de las medias probables.
Este rango de valores que va de la media obtenida a –1,96 EEM y a +1,96 EEM se denomina intervalo de confianza del 95% (IC 95%) de la media; y
los valores extremos se llaman límites de confianza.
Podemos decir entonces que la media de colesterol de nuestra muestra es de 200 mg/dl con un
IC 95% de 188,24-211,76 mg/dl. Como el ancho del
intervalo depende del valor del EEM, y éste a su vez
es inversamente proporcional al n de observaciones, es obvio que con menos observaciones habrá
mayor EEM y un IC 95% más amplio y que, por el
contrario, con un número mayor de observaciones
el IC 95% será más estrecho y sus límites, más
cercanos a la media.
El mismo razonamiento puede aplicarse a otro
estadístico. Así, podremos decir que la proporción
de diabéticos en una muestra de 500 hombres
mayores de 40 años es del 8%, con un IC 95% de
6,4%-9,6%, o que el coeficiente de correlación entre
ingesta de sodio y tensión arterial sistólica es de
0,40, con un IC 95% que va de 0,36 a 0,44, y así
sucesivamente. Cada valor que se informa en un
artículo puede ser expresado con su IC 95%.
Vayamos ahora a la utilidad de conocer el IC
95% de una estimación.
¿Cómo puede entenderse el significado del IC
95%? Hay diferentes formas de leerlo. Pero a fuerza
de ser claros puede decirse que si se repitiera el experimento 100 veces, 95 veces el valor del estadístico estaría dentro de los límites del intervalo. Se ve
entonces, volviendo al ejemplo del colesterol, que al
citar el valor de la media y el IC 95%, la media es la
estimación puntual del valor, y el IC 95% nos habla
de la precisión de la estimación. Decimos 200, pero
¿y con valores que pueden ir de 190 a 210, o de 170
a 230? Cuanto más estrecho el intervalo, cuanto
menor el rango, más precisos somos en nuestra
estimación puntual, y por lo tanto más confianza
en nuestros hallazgos. Por eso los estudios con n
mayor tienen estimaciones más precisas.
––––––––––––––––––––––––––––––––––––––––
Cuánto más estrecho el intervalo y menor el rango,
más precisos y confiables son los hallazgos. Los estudios con mayor n tienen estimaciones más precisas.
––––––––––––––––––––––––––––––––––––––––
Cuadro 3.
136
214 mg dl. Las medias son diferentes, pero
notemos que cada una de ellas está incluida
en el IC 95% de la otra: un valor de 205 (media
de la CF I-II) está incluido entre 180 y 214 (el
IC 95% de la CF III-IV). Lo mismo vale para
el caso inverso. Es claro entonces que no hay
diferencia estadísticamente significativa. Si
recurrimos a la prueba de la t, el valor de p
es de 0,57.
Vayamos por último a casos no tan claros.
c) El peso medio de los pacientes en CF I-II es de
83 kg, con un IC 95% de 80-87 kg. El peso medio de los pacientes en CF III-IV es de 76 kg,
con un IC 95% de 71-81 kg. Como vemos, la
media de cada grupo no está incluida en el IC
95% del otro, pero los intervalos se solapan:
el límite superior del IC 95% de la CF III-IV
es mayor que el límite inferior del IC 95% de
la CF I-II. En este caso, sí debemos recurrir a
la prueba estadística para ver si la diferencia
es significativa. La prueba de la t arroja un
valor de p de 0,02.
d) La hemoglobina media de los pacientes en
CF I-II es de 14,15 g/dl, con un IC 95% de
13,85-14,45 g/dl. La hemoglobina media de los
– Módulo 8 – Fascículo Nº 1 – 2012
pacientes en CF III-IV es de 13,60 g/dl, con un
IC 95% de 13,10-14,13 g/dl. Nuevamente, la
media de cada grupo no está incluida en el IC
95% del otro, pero los intervalos se solapan: el
límite superior del IC 95% de la CF III-IV es
mayor que el límite inferior del IC 95% de la
CF I-II. En este caso, la prueba de la t arroja
un valor de p de 0,07, no significativo con el
criterio usual.
Como vemos, entonces, hay casos en que claramente alcanza con la consideración de los IC 95%
para definir significación estadística, y otros en
que la prueba estadística es imprescindible. En la
práctica, lo corriente es que se informen el valor
del IC 95 % y el valor de p.
Las mismas consideraciones valen para ejemplos con otros estadísticos, como proporciones,
coeficientes de distinto tipo, medidas de asociación,
etc. A ellas nos referiremos en la próxima entrega.
Bibliografía
___________
– Dawson Saunders B, Trapp R. Bioestadística médica.
México: El Manual Moderno, S.A. de C.V.; 1997.
– Henquin R. Introducción a la epidemiología y la estadística. El aleph.com. Buenos Aires 2006.